第二十四個夏天後: 使用 lnyx 抽取 Web Page 所有的 Links

2014年5月23日星期五

使用 lnyx 抽取 Web Page 所有的 Links

沒想到 lynx 真好用 XD 比用 Wget 好的地方是不用去重組一些 relative link，那缺點就會是要避開同一個 page 的 anchor (<a href="#me></a>) 用法，但是...有些 Javascript 的或是其他 MVC 架構的網站，仍會用 anchor 來取資料。


$ lynx -dump -listonly https://tw.yahoo.com | grep -o '^\s\{1,\}[0-9]\{1,\}..*$' | sed -e 's/^[[:space:]]\{1,\}[0-9]\{1,\}\.[[:space:]]//g' | uniq

2 則留言:

Acer Yang2014年5月25日凌晨12:16
PhantomJS is worth a try.
回覆刪除
回覆

新增留言

2014年5月23日 星期五

使用 lnyx 抽取 Web Page 所有的 Links

2 則留言:

Subscribe Now

2014年5月23日星期五