BeautifulSoup:find\u all（）和unicode有问题吗？

import requests from bs4 import BeautifulSoup, SoupStrainer import bs4 page = "http://miami.craigslist.org/search/roo?query=brickell" search_html = requests.get(page).text roomSoup = BeautifulSoup(search_html, "html.parser") ad_list = roomSoup.find_all("a", {"class":"hdrlnk"}) #print ad_list ad_ls = [item["href"] for item in ad_list] #print ad_ls ad_urls = ["miami.craigslist.org" + ad for ad in ad_ls] #print ad_urls url_str = [str(unicode) for unicode in ad_urls] # What's in url_str? for url in url_str: print url

Traceback (most recent call last): File "webscraping.py", line 24, in <module> ad_html = requests.get(str(url)).text File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/requests/api.py", line 65, in get return request('get', url, **kwargs) File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/requests/api.py", line 49, in request response = session.request(method=method, url=url, **kwargs) File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/requests/sessions.py", line 447, in request prep = self.prepare_request(req) File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/requests/sessions.py", line 378, in prepare_request hooks=merge_hooks(request.hooks, self.hooks), File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/requests/models.py", line 303, in prepare self.prepare_url(url, params) File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/requests/models.py", line 360, in prepare_url "Perhaps you meant http://{0}?".format(url)) requests.exceptions.MissingSchema: Invalid URL u'miami.craigslist.org/mdc/roo/4870912192.html': No schema supplied. Perhaps you meant http://miami.craigslist.org/mdc/roo/4870912192.html?

1条回答

网友

1楼 · 发布于 2024-06-12 21:42:02

看来你对问题的理解有误

信息：

 u'miami.craigslist.org/mdc/roo/4870912192.html': No schema supplied.
 Perhaps you meant http://miami.craigslist.org/mdc/roo/4870912192.html?

意味着在url之前缺少http://（模式）

所以更换

ad_urls = ["miami.craigslist.org" + ad for ad in ad_ls]

由

ad_urls = ["http://miami.craigslist.org" + ad for ad in ad_ls]

我应该做这项工作

相关问题更多 >

编程相关推荐

热门问题

热门文章