使用python-htm爬行web数据

import re import requests from bs4 import BeautifulSoup url='http://news.naver.com/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_week&oid=277&aid=0003773756&date=20160622&type=1&rankingSectionId=102&rankingSeq=1' html=requests.get(url) #print(html.text) a=html.text bs=BeautifulSoup(a,'html.parser') print(bs) print(bs.find('span',attrs={"class" : "u_cbox_contents"}))

1条回答

网友

1楼 · 发布于 2024-04-19 09:40:21

请求将获取URL的内容，但不会执行任何JavaScript。你知道吗

我用cURL执行了相同的fetch，在HTML代码中找不到任何u_cbox_contents的出现。很可能是使用JavaScript注入的，这就解释了BeautifulSoup找不到它的原因。你知道吗

如果您需要像在“普通”浏览器中一样呈现页面的代码，可以尝试Selenium。也看看this所以问题。你知道吗

编程相关推荐

Java重写
java有一种制作jre1的方法。8作为jre1运行。7.
java从Android应用程序向AWS S3上传文件
java是一种正确的匿名子类化TimerTask的方法，在run方法中保留对“this”的引用
c#应用程序开发：我应该检查表上的primarykey还是假设它应该在那里？
swing在Java中绘制二叉树如何调用函数
网络编程在Java中通过按钮终止服务器程序
mysql从java创建SQL函数导致异常
java文件系统找不到指定的路径
JavaSpring安全性可用于GET，但不能用于其他方法

相关问题更多 >

编程相关推荐

热门问题

热门文章