我的目标是用Python解析一个文本文件,该文件没有标题,因此没有列名称和分隔符。原始文件的示例如下所示:
Apr 14, 2021 12:40:00 AM CEST INFO [purge.PurgeManager run] PURGE: Atom purge all data beginning (1 threads)
Apr 14, 2021 1:40:00 AM CEST INFO [purge.PurgeManager run] PURGE: Atom purge all data beginning (1 threads)
Apr 14, 2021 2:40:00 AM CEST INFO [purge.PurgeManager run] PURGE: Atom purge all data beginning (1 threads)
我试图将该文件导入Excel文件,但由于它没有分隔符,也没有固定的宽度,因此该行的每个值都包装在一个单元格(单元格A)中
现在,由于文件不是固定宽度或分隔的,如何从每行中提取日期(如您所见,这是动态宽度-行1长度Apr 14, 2021 12:40:00 AM CEST INFO
>;行2长度Apr 14, 2021 1:40:00 AM CEST INFO
)?除此之外,我对操纵其他列的值没有兴趣
我已经尝试将panda
库与read_csv()
和read_fwf()
一起使用,并且:
read_csv()
返回一个数据帧,其中有两列:列[0]-索引和列[1]-值(日期和其余部分)包装到一个列单元格中李>read_fwf()
:不能完全使用它,因为日期的宽度是动态的李>有没有办法用Python实现这一点?谢谢
您可以逐行读取文件并使用
str.split()
对其进行解析:印刷品:
相关问题 更多 >
编程相关推荐