我应该使用哪个纯Python库来抓取网站?
我现在有一些用Ruby写的代码,用来抓取一些网站的数据。我当初选择Ruby是因为我在做一个网站的时候用的是Ruby on Rails,这样比较顺手。
现在我想把这些代码迁移到Google App Engine上,但总是遇到问题。
我已经把Python的Mechanize库调整过来,可以在Google App Engine上使用,但它不支持用XPATH来检查DOM。
我试过使用内置的ElementTree库,但当我给它第一个HTML内容时,它在遇到'&mdash'时就出错了。
我应该继续尝试修改ElementTree,还是换个其他的工具呢?
谢谢,
马克
5 个回答
4
还有一个叫做 scrapy 的工具,可能更适合你。
6
lxml比elementtree好100倍
11
Beautiful Soup 是一个用来处理网页内容的工具。它可以帮助你从网页中提取信息,比如文本、图片链接等。想象一下,你在网上找资料,Beautiful Soup 就像一个聪明的小助手,能帮你快速找到你需要的内容。