我有一个输入文件,其中每个值都存储为一个字符串。 它在一个csv文件中,每个条目都用双引号括起来。
示例文件:
"column1","column2", "column3", "column4", "column5", "column6"
"AM", "07", "1", "SD", "SD", "CR"
"AM", "08", "1,2,3", "PR,SD,SD", "PR,SD,SD", "PR,SD,SD"
"AM", "01", "2", "SD", "SD", "SD"
只有六列。我需要输入哪些选项才能让pandas read_csv正确阅读?
我正在尝试:
import pandas as pd
df = pd.read_csv(file, quotechar='"')
但这给了我一个错误信息:
CParserError: Error tokenizing data. C error: Expected 6 fields in line 3, saw 14
这显然意味着它忽略了“”,并将每个逗号解析为一个字段。 但是,对于第3行,第3列到第6列应该是带逗号的字符串。(“1,2,3”,“PR,SD,SD”,“PR,SD,SD”,“PR,SD,SD”)
如何让pandas.read_csv正确解析此内容?
谢谢。
这会奏效的。它返回到python解析器(因为您有非正则分隔符,例如,它们是逗号,有时是空格)。如果只有逗号,它将使用c解析器,而且速度更快。
相关问题 更多 >
编程相关推荐