硒对Heroku芹菜铬多个任务后无头崩溃

2024-04-25 19:08:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我在heroku上用chrome设置了selenium,并将其设置为处理芹菜任务。然而,在完成了许多任务(可能是有bug的任务)之后,它会不断地在任何站点上崩溃以进行清理。如果我重新启动芹菜工人,它将重新开始工作在相同的网站上,它刚刚崩溃

以下是错误:

File "/app/cheetahiq_selenium/browser.py", line 18, in chrome
'CHROMEDRIVER_PATH', ''), chrome_options=chrome_options)
File "/app/.heroku/python/lib/python3.6/site-packages/selenium/webdriver/chrome/webdriver.py", line 81, in __init__
desired_capabilities=desired_capabilities)
File "/app/.heroku/python/lib/python3.6/site-packages/selenium/webdriver/remote/webdriver.py", line 157, in __init__
self.start_session(capabilities, browser_profile)
File "/app/.heroku/python/lib/python3.6/site-packages/selenium/webdriver/remote/webdriver.py", line 252, in start_session
response = self.execute(Command.NEW_SESSION, parameters)
File "/app/.heroku/python/lib/python3.6/site-packages/selenium/webdriver/remote/webdriver.py", line 321, in execute
self.error_handler.check_response(response)
File "/app/.heroku/python/lib/python3.6/site-packages/selenium/webdriver/remote/errorhandler.py", line 242, in check_response
raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.SessionNotCreatedException: Message: session not created
from tab crashed
(Session info: headless chrome=80.0.3987.122)

以下是我正在设置的标志:


    chrome_options = webdriver.ChromeOptions()

    prefs = {
        "download.open_pdf_in_system_reader": False,
        "download.prompt_for_download": True,
        "plugins.always_open_pdf_externally": False
    }
    chrome_options.add_experimental_option(
        "prefs", prefs
    )
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_argument('--window-size=1280x1696')
    chrome_options.add_argument('--hide-scrollbars')
    chrome_options.add_argument('--single-process')
    chrome_options.add_argument('--ignore-certificate-errors')
    chrome_options.add_argument('--disable-dev-shm-usage')
    if os.environ.get('ON_HEROKU', False):
        chrome_options.binary_location = os.environ.get(
            'GOOGLE_CHROME_BIN', '')
        driver = webdriver.Chrome(executable_path=os.environ.get(
            'CHROMEDRIVER_PATH', ''), chrome_options=chrome_options)
    else:
        driver = webdriver.Chrome(chrome_options=chrome_options)
    chrome_options.add_argument("--example-flag")
    driver.delete_all_cookies()
    return driver

至于芹菜,我也在准备

--concurrency=1 --max-tasks-per-child=1

因此,它正在为每个任务创建一个新的子任务,但仍有一些内容正在传递给未来的会话

我假设chrome驱动程序在机器上保存了一些存储,但每次都没有清除,但我想我已经设置了尽可能多的禁用标志。那里有我遗漏的东西吗

我确实可以选择每次强制重新启动芹菜工人,但我正在寻找如何正确设置selenium驱动程序

我正在测试一些标志和关闭驱动程序的方法,但到目前为止没有成功(这不容易复制,因为它只在处理了一些站点之后发生,或者可能在驱动程序中遇到了一些错误)


Tags: inpyaddappherokulibpackagesselenium