我正在尝试刮取下面的URL,到目前为止,我已经能够使用下面的代码来提取ul
元素。你知道吗
from bs4 import BeautifulSoup
import urllib
import csv
import requests
page_link = 'https://repo.vse.gmu.edu/ait/AIT580/580books.html'
page_response = requests.get(page_link, timeout=5)
page_content = BeautifulSoup(page_response.content, "html.parser")
print(page_content.prettify())
page_content.ul
但是,我的目标是将表中包含的信息提取到csv文件中。从我现在的代码来看,我该怎么做呢?你知道吗
尽管我认为KunduKs answer使用
pandas
提供了一个优雅的解决方案,但我还是想给您提供另一种方法,因为您明确地询问了如何从当前代码开始(使用csv
模块和BeautifulSoup)。你知道吗如您所见,我们首先获取整个表,然后首先遍历
tr
元素,然后遍历td
元素。在第一轮迭代(tr
)中,我们使用这些信息作为csv文件的头。随后,我们将所有信息作为行写入csv文件。你知道吗使用list comprehensions的稍微干净的方法:
可以使用python库将数据导入csv。这是最简单的方法。你知道吗
安装熊猫只需使用
相关问题 更多 >
编程相关推荐