当我试图获取页眉/灰色文本区域中的日期时,该日期无法打印
page = requests.get("https://www.reuters.com/article/us-usa-banks-conference-jpmorgan/jpmorgan-ceo-dimon-sees-u-s-economic-expansion-continuing-idUSKCN1IX508")
soup = BeautifulSoup(page.content, 'lxml')
headlines = soup.find_all('time')
for headline in headlines:
headline_text = headline.get_text(strip=True)
print("done:", headline_text)
此代码输出:
done:
done:
done: Updated
下图显示有清晰的文字,但为什么“2018年6月1日”没有打印出来
我尝试过使用html.parser和lxml,但两者都不起作用
网站以不同方式加载内容:
不过,这会动态加载内容,但通过使用开发人员工具(“网络”),我可以看到还有一个即时文章URL路径
因此,必须做的是从视图url中筛选最后一部分,即
idUSKCN1IX508
,并在实际url中使用它来发出get()请求。因此,变化如下:此外,要以文本形式获取时间:
该网站是动态加载的,因此
requests
不支持它。我们可以使用Selenium作为刮取页面的替代方法安装时使用:
pip install selenium
从here下载正确的ChromeDriver
输出:
相关问题 更多 >
编程相关推荐