如何通过每10秒刷新一次的web元素列表进行迭代？

2条回答

网友

1楼 · 编辑于 2024-05-01 22:12:58

一个主要问题是，您需要预先获取所有元素，然后遍历该列表。由于页面本身正在频繁更新，您已经获取的元素变得“过时”，这意味着它们与当前DOM对象的关联时间不长。当您尝试使用那些过时的元素时，Selenium会抛出StaleElementReferenceExceptions，因为它无法处理那些现在已经过时的对象。你知道吗

克服这一问题的一种方法是只获取和使用您需要的元素，而不是预先获取它们。我个人认为最干净的方法是使用CSS^{}方法：

from selenium import webdriver


def main():
    base_css = '.event-wrapper.v1.event-live.odds-hidden.event-sport-1'
    driver = webdriver.Chrome()
    try:
        driver.get("https://www.winmasters.ro/ro/live-betting/")

        # Get a list of all elements
        events = driver.find_elements_by_css_selector(base_css)
        print("Found {} events".format(len(events)))

        # Iterate through the list, keeping track of the index
        # note that nth-child referencing begins at index 1, not 0
        for index, _ in enumerate(events, 1):
            name = driver.find_element_by_css_selector("{}:nth-child({}) {}".format(
                base_css,
                index,
                '.event-details-team-name.event-details-team-a'
            ))
            print(name.text)
    finally:
        driver.quit()


if __name__ == "__main__":
    main()

如果运行上述脚本，则会得到以下输出：

$ python script.py
Found 2 events
Hapoel Haifa
FC Ashdod

现在，由于底层网页确实更新了很多，所以仍然有相当大的机会出现一个SERE错误。为了克服这个问题，可以使用retry decorator（pip install retry获取包）来处理SERE并重新获取元素：

import retry
from selenium import webdriver
from selenium.common.exceptions import StaleElementReferenceException


@retry.retry(StaleElementReferenceException, tries=3)
def get_name(driver, selector):
    elem = driver.find_element_by_css_selector(selector)
    return elem.text


def main():
    base_css = '.event-wrapper.v1.event-live.odds-hidden.event-sport-1'
    driver = webdriver.Chrome()
    try:
        driver.get("https://www.winmasters.ro/ro/live-betting/")

        events = driver.find_elements_by_css_selector(base_css)
        print("Found {} events".format(len(events)))
        for index, _ in enumerate(events, 1):
            name = get_name(
                driver,
                "{}:nth-child({}) {}".format(
                    base_css,
                    index,
                    '.event-details-team-name.event-details-team-a'
                )
            )
            print(name)
    finally:
        driver.quit()


if __name__ == "__main__":
    main()

现在，尽管有上述示例，我认为您的CSS选择器仍然存在问题，这是NoSuchElement异常的主要原因。如果没有更好的描述，我无法帮助你用这个脚本实际完成什么。你知道吗

网友

2楼 · 编辑于 2024-05-01 22:12:58

您可以使用JavaScript获取所有必需的数据。
下面的代码将立即为您提供事件列表map，其中包含所有详细信息，并且没有NoSuchElementException或StaleElementReferenceException错误：
我的id：唯一标识符
href：href，包含可用于获取详细信息的详细信息
团队a：第一个团队的名称
球队得分第一队得分
团队\u b：第二个团队的名称
球队得分：第二队得分
事件状态：事件的状态 事件时钟：事件时间

def events = driver.execute_script('return [...document.querySelectorAll(\'[data-uat="live-betting-overview-leagues"] .events-for-league .event-live\')].map(e=>{return {me_id:e.getAttribute("me_id"), href:e.querySelector("a.event-details-live").href, team_a:e.querySelector(".event-details-team-a").textContent, team_a_score:e.querySelector(".event-details-score-1").textContent, team_b:e.querySelector(".event-details-team-b").textContent, team_b_score:e.querySelector(".event-details-score-2").textContent, event_status:e.querySelector(\'[data-uat="event-status"]\').textContent, event_clock:e.querySelector(\'[data-uat="event-clock"]\').textContent}})')
for event in events:
    print(event.get('me_id'))
    print(event.get('href')) #using href you can open event details using: driver.get(event.get('href'))
    print(event.get('team_a'))
    print(event.get('team_a_score'))
    print(event.get('team_b'))
    print(event.get('team_b_score'))
    print(event.get('event_status'))
    print(event.get('event_clock'))

相关问题更多 >

编程相关推荐

热门问题

热门文章