使用pandas和regex清理txt数据

import pandas as pd import re regex = 'I?N?\d{6,7}-' df = pd.read_table('process data.txt', delim_whitespace=True, encoding='latin-1') df['merged'] = df['COMPAN'] + df['COMPANCOMPANNY,'] series = df['merged'] df1 = series.str.contains(regex) df['check'] = df1 df

1条回答

网友

1楼 · 发布于 2024-05-15 01:03:48

这可能不是你想要的，但可能会有帮助

我会在加载到数据帧之前对数据进行预处理。通过链接中的示例文件，我执行了以下操作：

import re
re_row = re.compile(r'^.*?\s+'
                    r'(?P<id>\d+).*\s+[\d,.]+\s+'
                    r'(?P<cost>[\d,.]+)\s+[\d,.]+\s+[\d,.]+\s+'
                    r'(?P<depr_res>[\d,.]+)\s+[\d,.]+$',
                    re.VERBOSE)

data = []
with open('process data.txt', 'r') as fin:
    for line in fin:
        if re_row.match(line):
            id, cost, depr_res = re_row.match(line).groups()
            data.append([int(id),
                         float(cost.replace(',', '')),
                         float(depr_res.replace(',', ''))])

df = pd.DataFrame(data, columns=['id', 'cost', 'depr_res'])

生成的帧看起来像

         id      cost  depr_res
0    123123  11448.08  11448.08
1    123124  23950.12  23950.12
2    123125  23950.12  23950.12
3    123126  11448.08  11448.08
4   1353000  17001.08  14830.16
5   1353001  17001.08  14830.16
6   1353002  17001.08  11688.19
7   1353003  17001.08  14566.06
8   1353004  17001.08   9194.67
9   1353005  17001.08  14830.16
10  1353006  17001.08  14830.16
...

这绝不是一个成熟的解决方案（！），但可能是一个工作的起点

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用pandas和regex清理txt数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >