我正在尝试从this 2017 marathon获取每个跑步者的信息。问题是要获得我想要的信息,我必须点击每个跑步者的名字来获得他的partial splits。你知道吗
我知道我可以使用get请求来获取每个跑步者的信息。例如,对于运行程序Josh Griffiths,我可以使用url中的参数request.get
。你知道吗
我的问题是我不知道如何找出idp
这个术语,因为这个术语随着每个跑步者的变化而变化。你知道吗
我的问题如下:
是否可以使用一个循环来获取所有运行者的信息?我怎样才能解决这个问题?我的意思是,我不知道这个术语是如何确定的,也不知道如何用它来定义一个循环。
有没有更好的方法来获取每个跑步者的信息?我考虑过使用seleniumwebdriver,但这会非常慢。
任何建议都将不胜感激!你知道吗
您将需要使用类似BeautifulSoup的东西来解析HTML以获得所需的链接,这样就不需要尝试并找出如何构造请求。你知道吗
对于每个链接,您需要跟随它并从返回的HTML解析拆分。脚本将显示如下:
为了更好地理解它是如何工作的,您首先需要查看每个页面的HTML源代码。这样做的目的是在页面的结构中找到一些独特的东西,让您可以使用脚本来提取它。你知道吗
接下来,我建议您阅读BeautifulSoup的文档页面。这假设您了解HTML文档的基本结构。这个库提供了许多工具来帮助您从HTML中搜索和提取元素。例如查找链接的位置。并非所有的网页都可以这样解析,因为信息通常是使用Javascript创建的。在这些情况下,您需要使用
selenium
之类的工具,但在这种情况下,requests
和beautifulsoup
可以很好地完成这项工作。你知道吗相关问题 更多 >
编程相关推荐