2024-05-15 09:30:13 发布
网友
我用的是坚果和肉屑。他们需要种子网址来爬网。这意味着,一个人应该已经知道的网站/网页,其中将包含正在搜索的文本。在
我的情况不同,我没有关于包含我正在搜索的文本的网站/网页的事先信息。所以我不能使用种子url来被nutch和scrapy之类的工具抓取。在
有没有一种方法可以对给定文本的网站/网页进行爬网,而不知道任何可能包含该文本的网站/网页?在
您可以解析the commoncrawl dataset。它包含了数十亿个网页。他们的网站上有一些关于如何使用MapReduce的例子。 除此之外,任何网络爬虫都需要有一些起点。在
您可以使用googlesearchapi(https://developers.google.com/custom-search/json-api/v1/overview?csw=1)每天进行100个免费查询。搜索结果将是JSON格式的,您可以使用该格式将链接提供给scraper。在
你可以使用请求模块来获取数据。在
在下面的例子中,我从所有有“披萨”这个词的网站获取数据。在
import requests url = 'http://www.google.com/search' my_headers = { 'User-agent' : 'Mozilla/11.0' } payload = { 'q' : 'pizza', 'start' : '0' } r = requests.get( url, params = payload, headers = my_headers )
您可以使用BeautifulGroup库从检索到的数据(HTML数据)中提取任何类型的信息
现在如果你想要文本数据,你可以使用这个函数
soup.getText()
您可以解析the commoncrawl dataset。它包含了数十亿个网页。他们的网站上有一些关于如何使用MapReduce的例子。 除此之外,任何网络爬虫都需要有一些起点。在
您可以使用googlesearchapi(https://developers.google.com/custom-search/json-api/v1/overview?csw=1)每天进行100个免费查询。搜索结果将是JSON格式的,您可以使用该格式将链接提供给scraper。在
你可以使用请求模块来获取数据。在
在下面的例子中,我从所有有“披萨”这个词的网站获取数据。在
您可以使用BeautifulGroup库从检索到的数据(HTML数据)中提取任何类型的信息
^{pr2}$现在如果你想要文本数据,你可以使用这个函数
相关问题 更多 >
编程相关推荐