读取带有双引号的csv时出错

ItemId,Content i0000008,{"Title":"Edison Kinetoscopic Record of a Sneeze","Year":"1894","Rated":"N/A"} i0000010,{"Title":"Employees, Leaving the Lumiére, Factory","Year":"1895","Rated":"N/A"}

ItemId Content -------- ------------------------------------------------------------------------------- i0000008 {"Title":"Edison Kinetoscopic Record of a Sneeze","Year":"1894","Rated":"N/A"} i0000010 {"Title":"Employees, Leaving the Lumiére, Factory","Year":"1895","Rated":"N/A"}

2条回答

网友

1楼 · 编辑于 2024-05-23 16:15:30

我不认为你能用pandas正常阅读它，因为它的分隔符对一个值使用了多次；但是，使用python阅读并进行一些处理后，您应该能够将其转换为dataframe：

def splitValues(x):
    index = x.find(',')
    return x[:index], x[index+1:].strip()

import pandas as pd
data = open('file.csv')
columns = next(data)
columns = columns.strip().split(',')
df = pd.DataFrame(columns=columns, data=(splitValues(row) for row in data))

输出：

     ItemId                                                                          Content
0  i0000008   {"Title":"Edison Kinetoscopic Record of a Sneeze","Year":"1894","Rated":"N/A"}
1  i0000010  {"Title":"Employees, Leaving the Lumiére, Factory","Year":"1895","Rated":"N/A"}

网友

2楼 · 编辑于 2024-05-23 16:15:30

问题是Content列中的逗号被解释为分隔符。您可以通过使用pd.read_fwf手动设置要拆分的字符数来解决此问题：

df = pd.read_fwf('test.csv', colspecs=[(0, 8),(9,100)], header=0, names=['ItemId', 'Content'])

结果:

^{tb1}$

相关问题更多 >

编程相关推荐

热门问题

热门文章