如何使用Pandas导入messy.txt并删除时间戳?

2024-04-23 17:04:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试导入一个包含大量事务数据的txt文件。通常我可以在Excel中打开文件,然后另存为CSV,但文件太大,因此我一直在使用Python 3:

df = pd.read_csv("file_name", sep = "\s+", dtype = str)

这提供了一个稍微有用的数据帧,但是现在我对日期和时间戳有一些问题。你知道吗

在txt文件中,这些文件保存为:

2016-12-11 00:00:00.000 "XXXX"  "XXXX"  "XXXXX" "X"

X是其他数据。当我将这些数据导入Python时,我将日期作为索引,日期列中的时间戳后跟其他变量:

                VAR1.           VAR2.   VAR3.   VAR4.   VAR5. 
2016-12-11      00:00:00.000    XXXX    XXXX    XXXXX   X

在导入数据时,我尝试使用以下方法创建新索引:

df = pd.read_csv("file_name", sep = "\s+", dtype = str, index_col = False)

但这最终将VAR5从数据帧中推出,并将时间戳分配给VAR2。你知道吗

       VAR1.           VAR2.       VAR3.     VAR4.   VAR5. 
1   2016-12-11      00:00:00.000    XXXX    XXXX    XXXXX   

如果您能帮助我将txt文件中的数据导入python,删除时间戳,然后将datetime应用于第一列,我将不胜感激。你知道吗

txt文件在变量之间有一些大的空格,每个字符串都用“”封装,例如:

2016-12-11 00:00:00.000 "XXXX"  "XXX"   "XXXX"  "X"

谢谢!你知道吗


Tags: 文件csv数据nametxtdfread时间