我应该使用哪个纯Python库来抓取网站?

2 投票
5 回答
1979 浏览
提问于 2025-04-15 15:03

我现在有一些用Ruby写的代码,用来抓取一些网站的数据。我当初选择Ruby是因为我在做一个网站的时候用的是Ruby on Rails,这样比较顺手。

现在我想把这些代码迁移到Google App Engine上,但总是遇到问题。

我已经把Python的Mechanize库调整过来,可以在Google App Engine上使用,但它不支持用XPATH来检查DOM。

我试过使用内置的ElementTree库,但当我给它第一个HTML内容时,它在遇到'&mdash'时就出错了。

我应该继续尝试修改ElementTree,还是换个其他的工具呢?

谢谢,
马克

5 个回答

4

还有一个叫做 scrapy 的工具,可能更适合你。

6

lxml比elementtree好100倍

11

Beautiful Soup 是一个用来处理网页内容的工具。它可以帮助你从网页中提取信息,比如文本、图片链接等。想象一下,你在网上找资料,Beautiful Soup 就像一个聪明的小助手,能帮你快速找到你需要的内容。

撰写回答