我应该使用哪个纯Python库来抓取网站？

2 投票

5 回答

1979 浏览

提问于 2025-04-15 15:03

我现在有一些用Ruby写的代码，用来抓取一些网站的数据。我当初选择Ruby是因为我在做一个网站的时候用的是Ruby on Rails，这样比较顺手。

现在我想把这些代码迁移到Google App Engine上，但总是遇到问题。

我已经把Python的Mechanize库调整过来，可以在Google App Engine上使用，但它不支持用XPATH来检查DOM。

我试过使用内置的ElementTree库，但当我给它第一个HTML内容时，它在遇到'&mdash'时就出错了。

我应该继续尝试修改ElementTree，还是换个其他的工具呢？

谢谢，
马克

xpath google app engine 网页抓取 elementtree 数据迁移 dom解析 ruby on rails 代码调整

5 个回答

还有一个叫做 scrapy 的工具，可能更适合你。

回答于 2025-04-15 由 Python大师

分享举报

lxml比elementtree好100倍

回答于 2025-04-15 由 Python大师

分享举报

Beautiful Soup 是一个用来处理网页内容的工具。它可以帮助你从网页中提取信息，比如文本、图片链接等。想象一下，你在网上找资料，Beautiful Soup 就像一个聪明的小助手，能帮你快速找到你需要的内容。

回答于 2025-04-15 由 Python大师

分享举报