Python中的Web抓取从底层表中提取数据

2024-04-20 08:22:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用的是python3.4,我试图从下面的链接中删除底层数据并将其转储到.csv文件中。 我当前正在使用BeautifulSoup,脚本中的前几行如下所示:

import urllib
from urllib.request import urlopen
from bs4 import BeautifulSoup
htmlfile=urlopen("https://secure.moneygram.com/estimate")
soup=BeautifulSoup(htmlfile)
print (soup.prettify()[0:1000])

谁能帮我一把吗

谢谢


Tags: 文件csv数据fromimport脚本链接request
2条回答

你应该看看这个python BeautifulSoup parsing table

然后保存为csv:

data = [...] # your data coming from BS4
import csv
with open('csv_file.csv', 'wb') as csvfile:
    writer = csv.writer(csvfile)
    for row in data
        writer.writerow(row)

如果您需要登录,您将需要使用Splitter(浏览器),如果您不需要它,并且您的数据很清晰,您可以使用find、findNext、findAll、find_name、find_id、find_css从html代码中提取数据。。。 示例:

    soop = htmltext.find('table',{"id":"noticeResults"}).findNext('tbody')

此代码为表(tbody)中的数据提供id为“noticeResults”的数据。在

相关问题 更多 >