当我用beautifulsoup刮表时,表的内容被隐藏了

2024-06-16 09:47:20 发布

您现在位置:Python中文网/ 问答频道 /正文

这是我的情况的一个例子。你知道吗

事实上,网站页面here左侧有一个表,我想用Python来掌握它。原始html文件的文件结构如下所示:

enter image description here

“id=companylist”中存在某些示例的信息。因此,我写了下面的代码来阅读它们:

url = 'http://182.148.109.184/gisnavigation!citysuriverPage.action?regioncode=510300#'
page = requests.get(url, headers={'Referer' : url})
soup = BeautifulSoup(page.text, 'html.parser')
table    = soup.find("tbody", {"id": "companylist"})  

但是,输出只是两行字符串,没有任何有用的信息。你知道吗

 [<tbody id="companylist">
 </tbody>]

有人知道正确的治疗方法吗?你知道吗


Tags: 文件信息idurlhere网站htmlpage
1条回答
网友
1楼 · 发布于 2024-06-16 09:47:20

如注释中所述,内容由浏览器中运行的JavaScript呈现。您可以使用在幕后运行的Requests-HTML。你知道吗

**Code:**

from requests_html import HTMLSession

url = 'http://182.148.109.184/gisnavigation!citysuriverPage.action?regioncode=510300#'
session = HTMLSession()
r = session.get(url)
r.html.render()

table = r.html.find('#companylist')[0]
print(table.text)

输出:

富顺首创水务有限公司
自贡市
污水厂
...
自贡张家坝氯碱化工有限责任...
自贡市
废气

相关问题 更多 >