2013年6月29日 星期六

[Python] 使用 BeautifulSoup 處理 HTML 程式碼 (HTML Parser) @ Mac 10.8

繼上篇撈一些 HTML 資料回來,接著想要取出 link 來分析,則使用 python BeautifulSoup 套件。

$ sudo port install py27-beautifulsoup

片段程式碼:

from BeautifulSoup import BeautifulSoup
import urllib, urllib2

url = "http://blog.changyy.org"
data = urllib2.urlopen(url)
soup = BeautifulSoup(data)

for article in soup.findAll("div", {'class':'item-title'}):
    print "Title: " + article.a.contents[0]

    print "Link: " + article.a['href']
    print ""


運行結果:

$ python2.7 /tmp/t.py
Title: [Linux] 使用 sed 更新 PATH 環境變數 @ Ubuntu 12.04
Link: http://blog.changyy.org/2013/06/linux-sed-path-ubuntu-1204.html

Title: 致我們終將失去的熱情
Link: http://blog.changyy.org/2013/06/blog-post.html

Title: [Linux] 透過 busybox nc 提供簡易 socket server/client 測試方式
Link: http://blog.changyy.org/2013/06/linux-busybox-nc-socket-serverclient.html

Title: [Linux] 查看主機板型號 @ Ubuntu 12.04
Link: http://blog.changyy.org/2013/06/linux-ubuntu-1204.html

Title: blog.changyy.org 正式啓用
Link: http://blog.changyy.org/2013/06/blogchangyyorg.html

Title: [PHP] 使用 Heroku 架設 Wordpress 免費部落格
Link: http://blog.changyy.org/2013/05/php-heroku-wordpress.html

Title: [Python] 備份 Github.com 上的資料(可指定 user)@ Mac 10.8
Link: http://blog.changyy.org/2013/06/python-githubcom-user-mac-108.html

Title: 暮色、好星晴
Link: http://blog.changyy.org/2013/06/blog-post_24.html

Title: [Raspberry Pi] 使用 Raspbmc 之 AirPlay 播放影音 @ Mac 10.8
Link: http://blog.changyy.org/2013/06/raspberry-pi-raspbmc-airplay-mac-108.html

Title: Android 開發筆記 - 使用 mDNS 偵測裝置與 TXT record 處理方式 @ Mac 10.8
Link: http://blog.changyy.org/2013/05/android-mdns-txt-record-mac-108.html

1 則留言: