爬网/刮取包含特定文本的网站/网页，之前没有任何此类网站/网页的信息

网友

1楼 · 编辑于 2024-05-16 02:41:04

您可以使用Google搜索API（https://developers.google.com/custom-search/json-api/v1/overview?csw=1）每天进行100次免费查询。搜索结果将是JSON格式，您可以使用它将链接提供给您的scraper

网友

2楼 · 编辑于 2024-05-16 02:41:04

您可以解析the commoncrawl dataset。它包含数十亿个网页。他们的站点包含了如何使用MapReduce的示例。除此之外，任何网络爬虫都需要有一些起点

网友

3楼 · 编辑于 2024-05-16 02:41:04

您可以使用请求模块来获取数据

在下面的例子中，我从所有有“比萨饼”字样的网站上获取数据

import requests
url = 'http://www.google.com/search'
my_headers = { 'User-agent' : 'Mozilla/11.0' }
payload = { 'q' : 'pizza', 'start' : '0' }
r = requests.get( url, params = payload, headers = my_headers )

您可以使用BeautifulSoup库从检索到的数据（HTML数据）中提取任何类型的信息

from bs4 import BeautifulSoup
soup = BeautifulSoup( r.text, 'html.parser' )

现在，如果需要文本数据，可以使用此函数

soup.getText()

相关问题更多 >

编程相关推荐

热门问题

热门文章

爬网/刮取包含特定文本的网站/网页，之前没有任何此类网站/网页的信息

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >