Python BeautifulSoup和Pandas从URL列表中提取表，并将所有表保存到单个数据帧或另存为csv

import pandas as pd import urllib.request import bs4 as bs urls = ['A', 'B','C','D',...'Z'] for url in urls: source = urllib.request.urlopen(url).read() soup = bs.BeautifulSoup(source,'lxml') table = soup.find('table', class_='tbldata14 bdrtpg') table_rows = table.find_all('tr') data = [] for tr in table_rows: td = tr.find_all('td') row = [tr.text for tr in td] data.append(row) final_table = pd.DataFrame(data, columns=["ABC", "XYZ",...]) final_table.to_csv (r'F:\Projects\McData.csv', index = False, header=True)

1条回答

网友

1楼 · 发布于 2024-04-25 20:32:47

这是一个缩进和顺序的问题table_rows每次通过for url in urls循环都会被重置，因此您只会得到最后的URL值的数据。如果你想在一个最终的CSV中保存所有的URL数据，请参阅下面我所做的更改

import pandas as pd
import urllib.request
import bs4 as bs

urls = ['A', 'B','C','D',...'Z']
data = [] # Moved to the start
for url in urls:
    source = urllib.request.urlopen(url).read()
    soup = bs.BeautifulSoup(source,'lxml')
    table = soup.find('table', class_='tbldata14 bdrtpg')
    table_rows = table.find_all('tr')

    #indented the following loop so it runs with every URL data
    for tr in table_rows:
        td = tr.find_all('td')
        row = [tr.text for tr in td]
        data.append(row)

final_table = pd.DataFrame(data, columns=["ABC", "XYZ",...])
final_table.to_csv (r'F:\Projects\McData.csv', index = False, header=True)

相关问题更多 >

编程相关推荐

热门问题

热门文章