如何设置BeautifulSoup以避免错误结果？

1条回答

网友

1楼 · 发布于 2024-04-18 23:28:02

如今，页面加载变得越来越复杂，常常涉及一系列异步调用、大量客户端javascript逻辑、DOM操作等。您在浏览器中看到的页面通常不是通过requests或urllib2获得的页面。此外，网站可以有防御机制工作，例如，它可以检查User-Agent头，在多次连续请求后禁止您的IP等。这是真正的网站特定的，这里没有“银弹”。你知道吗

此外，BeautifulSoup解析页面的方式取决于the underlying parser。参见：Differences between parsers。你知道吗

实现“你在浏览器中看到的就是你在代码中得到的”的最可靠的方法是使用真正的浏览器，不管是无头的还是无头的。例如，^{}包在这里很有用。你知道吗

编程相关推荐

java如何在Kotlin中加速从短数组到位图的转换
java如何计算用户从5个组合框中选择的项目的总成本
如何实现Java图像处理来进行模板匹配？
java Android Studio Gradle找不到'com'。安卓支持：设计：22.2.0'（Android设计支持库）
Tomcat上的hibernate Java持久性没有名为EntityManager的持久性提供程序
Weblogic中有两个EAR的java Log4j日志记录问题
Java忽略字符串
java stringbuffer和“0&”导致截断或转义
在java中用猜测的字母替换破折号
java使用枚举查找长字符串描述

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何设置BeautifulSoup以避免错误结果？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >