Python解析没有分隔符和动态宽度值的文本文件

Apr 14, 2021 12:40:00 AM CEST INFO [purge.PurgeManager run] PURGE: Atom purge all data beginning (1 threads) Apr 14, 2021 1:40:00 AM CEST INFO [purge.PurgeManager run] PURGE: Atom purge all data beginning (1 threads) Apr 14, 2021 2:40:00 AM CEST INFO [purge.PurgeManager run] PURGE: Atom purge all data beginning (1 threads)

2条回答

网友

1楼 · 编辑于 2024-06-16 13:03:29

from datetime import datetime
date = []
with open("file.txt") as f:
    lines = f.readlines()
    for line in lines:
        date.append(datetime.strptime(line[:24].strip(), '%b %d, %Y %H:%M:%S %p'))
df = pd.DataFrame({"date":date})
df

网友

2楼 · 编辑于 2024-06-16 13:03:29

您可以逐行读取文件并使用str.split()对其进行解析：

import dateutil
import pandas as pd

data = []
with open("your_file.txt", "r") as f_in:
    for line in map(str.strip, f_in):
        if not line:
            continue
        line = line.split(maxsplit=6)
        date = " ".join(line[:6])
        status = line[-1].split(maxsplit=1)[0]
        rest = line[-1].split(maxsplit=1)[-1]
        data.append({"date": date, "status": status, "rest": rest})


tzmapping = {
    "CET": dateutil.tz.gettz("Europe/Berlin"),
    "CEST": dateutil.tz.gettz("Europe/Berlin"),
}

df = pd.DataFrame(data)
df["date"] = df["date"].apply(dateutil.parser.parse, tzinfos=tzmapping)
print(df)

印刷品：

                       date status                                               rest
0 2021-04-14 00:40:00+02:00   INFO  [purge.PurgeManager run] PURGE: Atom purge all...
1 2021-04-14 01:40:00+02:00   INFO  [purge.PurgeManager run] PURGE: Atom purge all...
2 2021-04-14 02:40:00+02:00   INFO  [purge.PurgeManager run] PURGE: Atom purge all...

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python解析没有分隔符和动态宽度值的文本文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >