无法从其他页面收集数据

2024-04-25 00:15:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我用python编写了一个脚本,使用post请求从网页获取数据。该网页通过下一步或下拉按钮遍历57页。到目前为止,我所写的只能从第一页获取数据。我尝试了很多方法来捕捉下一页的数据,但都失败了。如何从57页中获取数据?提前谢谢。你知道吗

以下是我迄今为止尝试过的:

import requests
from lxml import html

with requests.session() as session:
    session.headers = {"User-Agent":"Mozilla/5.0"}
    page = session.post("http://registers.centralbank.ie/(X(1)S(cvjcqdbijraticyy2ssdyqav))/FundSearchResultsPage.aspx?searchEntity=FundServiceProvider&searchType=Name&searchText=&registers=6%2c29%2c44%2c45&AspxAutoDetectCookieSupport=1", 
            data={'ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$ddlPages':'2'}, 
            headers={'Content-Type': 'application/x-www-form-urlencoded'})


    tree = html.fromstring(page.text)
    titles = tree.cssselect("table")[1]
    list_row =[[tab_d.text_content() for tab_d in item.cssselect('td.gvwColumn,td.entityNameColumn,td.entityTradingNameColumn')]
                for item in titles.cssselect('tr')]

for data in list_row:
    print(' '.join(data))

这是那一页的The Link

顺便说一句,我没有找到任何分页链接,我可以通过它进入下一页除了“数据”在请求参数,其中有一个页码选项,当按钮被点击时会改变。但是,更改这个数字并不会带来其他页面的数据。你知道吗


Tags: 数据inimport网页fordatasessionhtml