Python数据抓取基本概念

import requests import lxml.html response = requests.get('https://www.airbnb.co.uk/rooms/501171') resptext = lxml.html.fromstring(response.text) final = resptext.text_content() finalu = final.encode('utf-8') file = open('file.txt', 'w') file.write(finalu) file.close()

2条回答

网友

1楼 · 编辑于 2024-04-27 23:21:53

所以首先你需要弄清楚这段代码是否有任何唯一的标记。所以如果你看看你的HTML树

html > body > #room > ....... > #book-it-urgency-commitment > div > div > ... > div#media-body > b

您需要的数据存储在“b”标记中。我不确定是否要使用lxml，但我通常使用beauthoulsoup进行刮擦。在

你可以参考http://www.crummy.com/software/BeautifulSoup/bs4/doc/这很直接。在

网友

2楼 · 编辑于 2024-04-27 23:21:53

在页面加载后，您正在查看的DOM元素将被更新，该元素看起来像一个AJAX调用，具有以下请求URL：

https://www.airbnb.co.uk/rooms/501171/personalization.json

如果获得该URL，它将返回以下JSON数据：

^{pr2}$

如果您在“列出活动数据”下查找，您将找到您要查找的信息。将/personalization.json附加到任何文件室URL似乎都会返回此数据（目前）。在

根据用户代理问题更新

看起来他们是基于用户代理过滤对这个URL的请求。为了解决这个问题，我必须在urllib请求上设置用户代理：

import urllib2
import json


headers = { 'User-Agent' : 'Mozilla/5.0' }
req = urllib2.Request('http://www.airbnb.co.uk/rooms/501171/personalization.json', None, headers)
json = json.load(urllib2.urlopen(req))

print(json['listing_activity_data']['week']['unique_views'])

相关问题更多 >

编程相关推荐

热门问题

热门文章