我正试图从《泰晤士报》上搜刮一篇文章,而我的目标课程却不起作用。我搞不懂这个问题
def timeParse(link):
page = requests.get(http://time.com/5556373/jared-kushner-ivanka-trump-private-email-whatsapp/)
tree = html.fromstring(page.content)
print(tree)
word = tree.xpath('//*[@class="article"]')
print(word)
title = tree.xpath('//h1[@class="headline"]')
print(title.text)
articleContent = {}
contentList = []
pTag = word[0].xpath('//p')
print(pTag[0])
for x in range(len(word)):
print(word[x].text)
contentList.append(word[x].text)
articleContent["content"] = contentList
articleContent["title"] = title[0].text
return articleContent
网页是用JavaScript呈现的,并且有一个登录页,要求您同意条件。您可以使用selenium对其进行刮取,这将呈现JavaScript:
首先安装Selenium
(您在Windows上不需要sudo,您可能需要pip而不是pip3)
然后获取驱动程序https://sites.google.com/a/chromium.org/chromedriver/downloads(根据您的操作系统,您可能需要指定驱动程序的位置)
产出:
相关问题 更多 >
编程相关推荐