Beautiful Soup
Beautiful Soup: We called him Tortoise because he taught us.
HTMLの文字コード変換、構文解析等をやってくれるライブラリ。既にあるHTMLを再利用する際に非常に便利。
使いかたは以下のとおり
from BeautifulSoup import BeautifulSoup import urllib a=urllib.urlopen("http://d.hatena.ne.jp/MasaHero/") soup=BeautifulSoup(a.read()) a.close() #改行及びインデントしなおした扱いやすいソースの出力 print soup.prettify() # エンコーディングを自動で取得 print soup.originalEncoding #DOM #一番外側に先頭にある要素”<html>"の名前"html"を出力 print soup.contents[0].name #タグ名でアクセス #<html>内にある<head>内にある<title>に含まれる文字列を出力 print soup.html.head.title.string