组织我的美丽小组4网页抓取

pageGrab = BeautifulSoup(requests.get(url).content, "html.parser") link_array = [] blurb_array = [] links = pageGrab.select('.project-title a') blurb = pageGrab.select('.project-blurb') for link in links: rel_path = link.get('href') path = urljoin(base_url, rel_path) link_array.append(path) for row in blurb: blurb_array.append(row.string.strip())

1条回答

网友

1楼 · 发布于 2024-05-23 23:22:53

我建议您选择每个项目的“卡片”，这些项目具有“项目”类：

pageGrab.select( '.project' )

select方法还返回一个“soup”，然后可以对其进行搜索。例如，要查找项目标题：

^{pr2}$

它选择头中包含的带有类project-title的链接元素， contents属性获取实际文本（出于某种原因，在列表中）。有关这些方法的详细信息，请参见the docs。在

例如，要获得第一个项目的名称，可以执行以下操作

pageGrab.select( '.project' )[0].select_one('.project-title > a' ).contents[0]

所以，你可以迭代所有的项目卡片并收集你想要的信息。在

我不确定您这样做是否是为了学习一般的web抓取，但是如果您想创建一个合适的应用程序，我建议您使用JSON数据，这更容易操作。只需将.json添加到页面URL的末尾，就可以从Kickstarter的页面获得：

https://www.kickstarter.com/discover/advanced.json?category_id=16&woe_id=0&sort=newest&seed=2479798&page=1

请记住，他们将来可能会删除此项，并且没有多少站点以这种方式提供API

相关问题更多 >

编程相关推荐

热门问题

热门文章