pythonPandas阅读空间分隔为d

2024-04-24 22:57:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我有6个空格分隔字段的文本文件,如下所示:

702377236289228800 2016-02-24 09:19:17 +03 <Aadil_Siddiqui> #HECRanking Rs71 Bil bdget alloctd 2 HEC is not in gud hands. v can imagne dat on which criteria #HEC is sending studnts abroad on Scholrshp

我想将6个字段读入一个DF,但将分隔符设置为空格会导致以下错误

pandas.errors.ParserError:标记数据时出错。C错误:第10行中预期有31个字段,SAW35

代码如下:

data = pd.read_csv("twitter_file_path.txt", sep=" ", header=None)
data.columns = ["seq", "date", "Hour", "GMT","userID","text"]

Tags: dataison错误not空格文本文件hec
1条回答
网友
1楼 · 发布于 2024-04-24 22:57:30

您可以使用文本中不存在的某些分隔符(如|)读取一列中的所有数据,然后对于新列,使用带有n参数且不带分隔符的^{},因为空格是默认分隔符:

data = pd.read_csv("twitter_file_path.txt", sep="|", names=['data'])
print (data)
                                                data
0  702377236289228800 2016-02-24 09:19:17 +03 <Aa...

data = data['data'].str.split(n=5, expand=True)
data.columns = ["seq", "date", "Hour", "GMT","userID","text"]
print (data)
                  seq        date      Hour  GMT            userID  \
0  702377236289228800  2016-02-24  09:19:17  +03  <Aadil_Siddiqui>   

                                                text  
0  #HECRanking Rs71 Bil bdget alloctd 2 HEC is no...  

相关问题 更多 >