我在csv文件中有一个非常相似的数据集,有两列
例如: 在第一行和第一列 项目:“Betarlaga paquete 5大学”
在第一行和第二列 数量:1
Item qty
Betarraga paquete 5 unidades 1
Betarraga paquete 5 unidades 2
Betarraga paquete 5 unidades 1
Betarraga paquete 5 unidades 1
CANASTA PEQUEÑA 1
Cebolla Nueva 20 unidades 1
Cebolla Nueva 20 unidades 2
Cebolla Nueva 20 unidades 1
Cebollin atado de 3 2
Cebollin atado de 3 2
Cebollin atado de 3 3
Cebollin atado de 3 1
Cebollin atado de 3 1
Cebollin atado de 3 1
Cebollin atado de 3 1
我喜欢与熊猫一起阅读,但使用:
df1 = pd.read_csv(r'pedidos4.csv',sep='\s+',encoding='utf-8',error_bad_lines=False)
这只返回2列,但第一列输入中的第一个单词作为rowname
df.shape
(15, 2)
我假设您希望每行的最后一个元素是第2列,其余元素在第1列。因此,您可能必须手动执行此操作,因为不同行的空白量不一致,而且我认为标准的
read_csv
方法不容易实现。因此,这里有一个替代方案这是我们的数据
然后,我们逐行读取
file
,在空白处拆分该行,使用最后一个标记作为第2列,其余标记作为第1列,并插入一个数据帧产生
我能够准确地阅读你作为两列发布的文本块。请尝试使用
sep='\s\s+'
之后,您可以编写一个函数,该函数接受一行,检查
qty
是否为null
,修复qty
列和Item
列并返回该行。然后您可以将其应用于df
上的axis=1
相关问题 更多 >
编程相关推荐