用pandas读取格式错误的“csv”文件

SRC = 'https://dl.dropboxusercontent.com/u/40513206/test.csv' NA_VALUES = ['', '#N/A N/A', '#N/A Field Not Applicable', '#N/A Invalid Field', '#N/A Invalid Security', '#N/AN/A', '#N/A Limit', '#####', '#DIV/0!', '#N/A', '#NAME?', '#NULL!', '#NUM!', '#REF!', '#VALUE!'] CSV_ENCODING = 'WINDOWS-1252' S_ROWS = 6 NR_ROWS = 60 NR_COLS = 52 # correct nr. of columns, but not always known dat_m = pd.read_csv(SRC, sep = ';', header = None, index_col = None, skiprows = S_ROWS, nrows = NR_ROWS, encoding = CSV_ENCODING, na_values = NA_VALUES, names = range(NR_COLS))

1条回答

网友

1楼 · 发布于 2024-04-26 00:07:29

怎么样：

>>> txt = 'NAME;a;b;c\nATTR1;1;2;3\nATTR2;1;2;3;;;\nATTR3;1;2;3;\nATTR4;1;2;3'
>>> pd.read_csv(StringIO(txt),sep=";",names=range(4))
       0  1  2  3
0   NAME  a  b  c
1  ATTR1  1  2  3
2  ATTR2  1  2  3
3  ATTR3  1  2  3
4  ATTR4  1  2  3

[5 rows x 4 columns]

有时候，当我不知道有多少列之前，我会做一些愚蠢的事情，比如names=range(128)，然后.dropna(how='all', axis=1)。在

相关问题更多 >

编程相关推荐

热门问题

热门文章