我有一个.csv文件,其中的行具有多个列的长度。在
import pandas as pd
df = pd.read_csv(infile, header=None)
返回
^{pr2}$错误。我知道我可以用
names=my_cols
在read_csv调用中的选项,但肯定有比这更“python”的东西??而且,这不是一个重复的问题,因为
error_bad_lines=False
导致跳过行(这是不需要的)。.csv看起来像:
Anne,Beth,Caroline,Ernie,Frank,Hannah
Beth,Caroline,David,Ernie
Caroline,Hannah
David,,Anne,Beth,Caroline,Ernie
Ernie,Anne,Beth,Frank,George
Frank,Anne,Caroline,Hannah
George,
Hannah,Anne,Beth,Caroline,David,Ernie,Frank,George
在使用pandas之前,可以使用csv进行一些操作。
这是一些粗糙的python,但应该可以工作。我有时间就把它清理干净。
或者用另一个答案,它是整洁的。
好吧,有点受这个相关问题的启发:Pandas variable numbers of columns to binary matrix
因此,请读入csv,但将分隔符重写为制表符,这样它就不会试图拆分名称:
我们现在可以使用
^{pr2}$str.split
和expand=True
将名称展开到它们自己的列中:所以为了清楚起见,请将
read_csv
行修改为:然后执行上面的
str.split
相关问题 更多 >
编程相关推荐