将具有特定分隔符的不同实例数的CSV文件读入Datafram

2024-03-29 00:20:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个CSV文件,它使用分号(;)作为分隔符。然而,分号的实例数量不同,有时只有一个;,有时有多个分号,比如;;;;;;;;;;等等,考虑到数据相当大的事实,我不太清楚。你知道吗

使用;分隔符读取文件的最简单方法(显然也是最常见的方法)是

data = pd.read_csv('my_file_name.csv', sep = ';')

然而,问题是,尽管文件被读入pandas数据帧data,但由于分隔符的数量不同,读取文件列的实例也不正确(虽然可以确定分隔符/分隔符是分号,但它们的数量变化很大,如;;;;;;;;)等等

我想要完成的是能够将CSV文件正确地读入Pandas数据帧,并将;作为分隔符/分隔符。当至少有一个;时,可以将其视为分隔符。问题出现了,我不知道是否要指定;作为分隔符,;;;作为分隔符等等,因为数据集上分号的实例数量不同,这一点我不确定(因此使用or |运算符是不可行的)

我试图使用sep = None并设置engine = 'python,但它无法将CSV文件正确地读入数据帧。你知道吗

data = pd.read_csv('my_file_name.csv', sep = None, engine = 'python')

在此方面的任何帮助都将不胜感激。你知道吗


Tags: 文件csv数据实例方法namereaddata
1条回答
网友
1楼 · 发布于 2024-03-29 00:20:06

数据集通常可用作“”分隔字段,如下所示 enter image description here

在上面的示例中,显示了学生数据集,我们只能将其与“”分开。我们不能使用sep=None。你知道吗

下面是一些在学生数据集中使用的python代码示例

import pandas as pd
import numpy as np
import sklearn
from sklearn import linear_model
from sklearn.utils import shuffle

data = pd.read_csv("student-mat.csv" ,sep=";")

相关问题 更多 >