Python请求shtml，尝试在Jscript中加载所有信息问题的回答

Python请求shtml，尝试在Jscript中加载所有信息

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

这个页面使用<code>JavaScript</code>来检测bot/脚本，它似乎可以工作，因为它阻止了您的代码。你可能需要更多的东西 如果您检查repo<a href="https://github.com/psf/requests-html" rel="nofollow noreferrer">requests-html</a>，您会发现它的更新时间不超过1年 我可以用硒 <pre><code>from selenium import webdriver url = "https://advanced.name/freeproxy" #driver = webdriver.Firefox() driver = webdriver.Chrome() driver.get(url) all_ips = driver.find_elements_by_xpath('//td[@data-ip]') all_ports = driver.find_elements_by_xpath('//td[@data-port]') for ip, port in zip(all_ips, all_ports): print(ip.text, port.text) </code></pre> <hr/> 编辑： 阅读下一页 <ul> <li>使用<code>for</code>-loop和带有页码的<code>url</code>，但它需要知道有多少页 <pre><code> from selenium import webdriver #driver = webdriver.Firefox() driver = webdriver.Chrome() url = "https://advanced.name/freeproxy?ddexp4attempt=1&page=" for page in range(15): print(' - page', page, ' -') driver.get(url + str(page)) all_ips = driver.find_elements_by_xpath('//td[@data-ip]') all_ports = driver.find_elements_by_xpath('//td[@data-port]') for ip, port in zip(all_ips, all_ports): print(ip.text, port.text) </code></pre> </li> <li>使用<code>while</code>并单击链接到下一页-您不必知道有多少页 <pre><code> from selenium import webdriver #driver = webdriver.Firefox() driver = webdriver.Chrome() url = "https://advanced.name/freeproxy" driver.get(url) while True: print(' - page -') all_ips = driver.find_elements_by_xpath('//td[@data-ip]') all_ports = driver.find_elements_by_xpath('//td[@data-port]') for ip, port in zip(all_ips, all_ports): print(ip.text, port.text) try: # go to next page link_to_next_page = driver.find_element_by_link_text('»') link_to_next_page.click() except: # exit loop if there is no more pages break </code></pre> </li> </ul>

Python请求shtml，尝试在Jscript中加载所有信息

1 个回答

相关Python问题