从url读取.csv时，起始行的标题较少

import io import pandas as pd import requests url = 'https://www.jpx.co.jp/markets/derivatives/participant-volume/nlsgeu000004vd5b-att/20200730_volume_by_participant_whole_day_J-NET.csv' s=requests.get(url).content colnames = ['institutions_sell_code', 'institutions_sell', 'institutions_sell_eng', 'amount_sell', 'institutions_buy_code', 'institutions_buy', 'institutions_buy_eng', 'amount_buy'] df=pd.read_csv(io.StringIO(s.decode('utf-8')), header=1, names = colnames) ParserError: Error tokenizing data. C error: Expected 2 fields in line 6, saw 8

1条回答

网友

1楼 · 发布于 2024-04-26 05:32:41

Pandas并不像您所拥有的那样在一个CSV文件中真正支持多个文档。为了解决这个问题，我采取了两个步骤，效果很好：

调用read_csv(usecols=[0])一次以读取最左边的列。使用此选项确定每个表的开始和结束位置
只使用open()打开文件一次，对于步骤1中确定的每个表，使用适当的值调用read_csv(skiprows=SKIP, nrows=ROWS)，一次读取一个表。这是关键：只让熊猫读取正确的矩形行，它不会因为CSV文件的不卫生性质而生气

只打开一次文件是一种优化，以避免每次执行步骤2时反复扫描文件。如果在开始步骤2之前seek(0)返回到开头，那么实际上也可以在步骤1中使用相同的打开文件对象

相关问题更多 >

编程相关推荐

热门问题

热门文章