Python:查找文本fi中多个单词的最接近匹配

2024-05-13 13:42:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要解析多个类似于one的财务报表.txt文件。txt文件没有标准格式。然而,它们有相似的标题。我的目标是提取.txt文件中以以下关键字['Item', '7', 'Management', 'Analysis']开头、以['Item', '8', 'Financial', 'Statements']结尾的部分。list matter和['Item', '7', 'Management', 'Analysis']中单词的顺序都在['Item', '8', 'Financial', 'Statements']之前。在

我想从以下几点开始:

fdir = open('C:\\0001193125-13-416534.txt','r')
lines = fdir.readlines()

并在lines中的每一行上循环,并使用^{}查找上述关键字。但是,我有两个问题:(1)如何使用difflib搜索多个单词?(2) 我知道difflib将简单地提取匹配词,但是我如何使用它来查找index(列表中的位置lines)中这些单词的确切位置呢?在

让我补充第三个问题:使用.readlines()是读取txt文件并开始搜索匹配词的适当方式,还是应该使用.read()?在


Tags: 文件txtanalysis关键字item单词onemanagement
1条回答
网友
1楼 · 发布于 2024-05-13 13:42:48

您可以在这里与f.read()一起使用re。在

read()返回一个字符串,而f.readlines()返回一个列表。在

import re
x=f.read()
print re.findall(r"Item(?:(?!Item).)*7(?:(?!Item|7).)*Management(?:(?!Item|7|Management).)*Analysis[\s\S]*Item(?:(?!Item).)*8(?:(?!Item|8).)*Financial(?:(?!Item|8|Financial).)*Statements",x)

相关问题 更多 >