我正在尝试读取一个.csv格式的大型数据集,该数据集将使用熊猫库自动更新。 问题是,在我的数据中,第一行是一个没有双引号的字符串,其他列是带有双引号的字符串。我无法手动调整.csv文件。
简化的数据集如下所示
我需要将数据存储为不带引号的单独列,如下所示:
我试着用
import pandas as pd
df_csv = pd.read(path_to_file,delimiter=',')
它将完整的头作为最后一列的单个变量
最接近我需要的结果是
df_csv = pd.read(path_to_file,delimiter=',',quoting=3)
它正确地识别每一列,但添加了一堆额外的双引号。
将quoting设置为0到2之间的值只会将整行作为一列读取。
有人知道我在读取.csv文件时如何删除所有引号吗?
只需使用
pd.read_csv()
加载数据,然后使用.replace('"','', regex=True)
一句话是:
要设置列名,请执行以下操作:
并删除行0:
考虑一下data.csv文件中的数据
或许新的pandas版本可以从自身解决您的问题,例如在
pd.__version__ = '0.23.1'
否则,在读取时应用替换
您可以在
read_csv
之后替换"
,并使用df_csv.to_csv('fname')
再次保存该文件相关问题 更多 >
编程相关推荐