我想把一个网页报废。你知道吗
from bs4 import BeautifulSoup
import requests
page = requests.get('https://www.mql5.com/en/economic-calendar/united-states')
soup = BeautifulSoup(page.content, 'html.parser')
calender = soup.find(id="economicCalendarTable")
items = calender.find_all(class_="ec-table__title")
print(items)
但是,它会打印一个空列表,尽管在网页中有许多带有标记“class_uuu=”ec-table_uuutitle“的条目。我发现“id=”economicCalendarTable“标签中的标签只是在一行中(非常长)。所以日历。全部查找“跳过一切。你知道吗
我正在尝试获取'id=“economicCalendarTable”'中的所有标记。你知道吗
有办法吗?你知道吗
您可以使用
selenium
:输出:
下面是我使用Selenium和BeautifulSoup制作的一个简单示例:
这段代码将允许您完全下载页面,然后将完整的html源代码传递给BS
在运行此脚本之前,请确保正确安装Selenium和ChromeDriver。你知道吗
在该页的基本html中没有类为
ec-table__title
的项。你知道吗但是,在浏览器中使用dom检查器时,它确实会出现。我担心这是一个确定的迹象,它已经被javascript广告插入到DOM中确实有一些javascript被该网页调用。你知道吗
我可以建议您研究一下将selenium模块与BeautifulSoup结合使用吗?你知道吗
相关问题 更多 >
编程相关推荐