用Python抓取票房魔咒

1条回答

网友

1楼 · 发布于 2024-04-20 09:46:35

一种可能的方法是简单地生成所有必需的url，方法是在普通url的列表中添加“&adjust_yr=2018”，然后抓取每个站点。

我个人喜欢使用xpath（一种用于导航html结构的语言，对于抓取非常有用！）并建议不要使用字符串匹配从HTML中筛选出it was once recommended to me的数据。使用xpath的一个简单方法是通过lxml库。

from lxml import html
    <your setup>
    ....

for site in major_sites:

    page = 1
    while True:
        # fetch table
        url = "http://www.boxofficemojo.com/movies/alphabetical.htm?letter=" + site + "&p=.htm&page=" + str(page)
        print(url)
        element_tree = html.parse(url)
        rows = element_tree.xpath('//td/*/a[contains(@href, "movies/?id")]/@href')
        rows_adjusted = ['http://www.boxofficemojo.com' + row + '&adjust_yr=2018' for row in rows]

        # then loop over the rows_adjusted and grab the necessary info from the page

如果您喜欢使用pandas数据帧库，我还想指出pd.read_html文件（）我认为，这项任务是注定的。它可以让你在几乎一行中刮出一整页按字母顺序排列的页面。另外，您还可以在以后按列执行任何必要的替换/注释。

一个可能的方法就是这样。

^{pr2}$

其他资源： Wikipedia has a nice overview of xpath syntax

相关问题更多 >

编程相关推荐

热门问题

热门文章

用Python抓取票房魔咒

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >