使用正则表达式检查值的文本文件是否遵循约定

2条回答

网友

1楼 · 编辑于 2024-06-06 04:08:39

您可以使用pandas将文本文件加载到带有^{}的数据帧中，然后检查所有值是否为整数，以及2中的列数是否为：

import pandas as pd
from glob import glob

files = glob('/path/to/files/*.txt') #get a list of all txt files

for i in files:
    df = pd.read_csv(i, sep=' |\t', engine='python', header=None) #sep=' |\t' will process both space- and tab-delimited files
    if (df.dtypes == 'int64').all() and len(df.columns) == 2: #check if all values are integers and if the number of columns is 2
        #do something here

如何仅读取最后一段取决于文件的结构，如果第二段始终是第四行，您可以使用df[3:]访问它。如果没有模式，您可以这样提取第二段：

with open('filename.txt') as file:
    data = [[int(x) for x in i.strip().split()] for i in file.readlines()] #create list of lists of items in rows
    data = data[data.index([])+1:] #slice list after the empty row

网友

2楼 · 编辑于 2024-06-06 04:08:39

我设法做到了我最初打算做的事情

我使用了以下模式：

\n*(?:(?:[ \t]*\d+[ \t]+\d+[ \t]*\n)*(?:[ \t]*\d+[ \t]+\d+[ \t]*)\n\n)*(?P<last>(?:[ \t]*\d+[ \t]+\d+[ \t]*\n)*(?:[ \t]*\d+[ \t]+\d+[ \t\n]*))

它匹配包含由空格或制表符分隔的整数对（每行一对）的文本。该模式还允许成对组之间有一条白线（如我的示例中所示）。它还捕获名为last的组中的最后一组对

现在，这将匹配一个部分兼容的文件，这是我不想要的。诀窍是使用re.fullmatch()而不是re.match()。如果只有部分匹配，则此方法返回None

上述模式执行以下操作：

\n*与前导换行符匹配
(?:(?:[ \t]*\d+[ \t]+\d+[ \t]*\n)*(?:[ \t]*\d+[ \t]+\d+[ \t]*)\n\n)*与除最后一组对之外的所有对匹配（因此末尾的*）：
- (?:[ \t]*\d+[ \t]+\d+[ \t]*\n)*使用单行对或整数在0到无限次之间进行匹配，允许前导和尾随空格/制表符
- (?:[ \t]*\d+[ \t]+\d+[ \t]*)\n\n与一组对的最后一行正好匹配一次。这实际上是上述重复模式的基本情况
(?P<last>(?:[ \t]*\d+[ \t]+\d+[ \t]*\n)*(?:[ \t]*\d+[ \t]+\d+[ \t]*))遵循上面讨论的相同原理，将其作为最后一个重复非捕获组的基本情况。它允许无限量的尾随行
\n*与尾部换行符匹配

相关问题更多 >

编程相关推荐

热门问题

热门文章