Beautiful Soup

Beautiful Soup: We called him Tortoise because he taught us.

HTMLの文字コード変換、構文解析等をやってくれるライブラリ。既にあるHTMLを再利用する際に非常に便利。

使いかたは以下のとおり

from BeautifulSoup import BeautifulSoup
import urllib
a=urllib.urlopen("http://d.hatena.ne.jp/MasaHero/")
soup=BeautifulSoup(a.read())
a.close()
#改行及びインデントしなおした扱いやすいソースの出力
print soup.prettify()
# エンコーディングを自動で取得
print soup.originalEncoding

#DOM
#一番外側に先頭にある要素”<html>"の名前"html"を出力
print soup.contents[0].name
#タグ名でアクセス
#<html>内にある<head>内にある<title>に含まれる文字列を出力
print soup.html.head.title.string