python webscraping如何只获取主体html

2024-06-06 18:32:22 发布

您现在位置:Python中文网/ 问答频道 /正文

嘿,我试图实现一个程序,可以从一个网站的html网址,但我只想从身体的网址。基本上,我想避免网站上的广告和菜单,只获取嵌入到实际文章中的网站链接。有没有人知道一种很好的方法可以将主体html与其他html分离开来,而不必硬编码如何为每个网站指定主体


Tags: 方法程序编码网站链接html文章菜单
1条回答
网友
1楼 · 发布于 2024-06-06 18:32:22

只刮取html的特定部分是一个简单的过程。在大多数情况下,您可以从所需页面中选择元素。假设您只需要<div id="example">example</div>,您可以指定您的刮片器只拾取该div。请查看此示例

https://realpython.com/beautiful-soup-web-scraper-python/

相关问题 更多 >