使用python-htm爬行web数据

2024-04-19 09:40:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我想用python爬行数据 我又试了一次 但没用 我找不到代码的错误 我写了这样的代码:

import re
import requests
from bs4 import BeautifulSoup

url='http://news.naver.com/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_week&oid=277&aid=0003773756&date=20160622&type=1&rankingSectionId=102&rankingSeq=1'
html=requests.get(url)
#print(html.text)
a=html.text
bs=BeautifulSoup(a,'html.parser')
print(bs)
print(bs.find('span',attrs={"class" : "u_cbox_contents"}))

我想抓取新闻中的回复数据

enter image description here

如你所见,我试着烧这个:

span,^{cl1}$

但Python只说“没有”

None

所以我用函数print(bs)检查bs

我检查了bs变量的内容

但是没有跨度,^{cl2}$

为什么会这样?你知道吗

我真的不知道为什么

请帮帮我

谢谢你的阅读。你知道吗


Tags: 数据代码textfromimportreurlbs
1条回答
网友
1楼 · 发布于 2024-04-19 09:40:21

请求将获取URL的内容,但不会执行任何JavaScript。你知道吗

我用cURL执行了相同的fetch,在HTML代码中找不到任何u_cbox_contents的出现。很可能是使用JavaScript注入的,这就解释了BeautifulSoup找不到它的原因。你知道吗

如果您需要像在“普通”浏览器中一样呈现页面的代码,可以尝试Selenium。也看看this所以问题。你知道吗

相关问题 更多 >