Readability

18 Aug 2011

Readability是用 JavaScript 技术写的程序,能够自动识别 HTML 页面中的正文内容,将导航、菜单、广告、页脚等非正文内容剔除掉,从而留下一个 HTML 页面最有用的信息。

Readability 有 Python、php、ruby 等语言的实现,这里就给大家介绍一下 Readability 的 Python 实现。

Python Readability 是基于 BeautifulSoup 的,所以可移植性很好,可以在 GAE 上面直接使用,但是速度会稍微慢一些。

参考:

Python Readability

Readability

decruft

Fork me on GitHub