使用Python提取文本中多次出现的字符串的周围字符

2024-04-28 05:36:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我有以下案文:

"At vero eos et accusamus et iusto valor maximo odio dignissimos ducimus qui blanditiis praesentium voluptatum deleniti atque corrupti quos dolores et quas molestias excepturi sint occaecati cupiditate non provident, similique sunt in culpa qui officia deserunt mollitia animi, id est laborum et dolorum fuga. Et harum quidem rerum facilis est et expedita distinctio. Nam libero tempore, cum soluta nobis est eligendi optio cumque nihil impedit quo minus id quod maxime placeat facere possimus, omnis voluptas assumenda est, omnis dolor repellendus. Temporibus valor maximo autem quibusdam et aut officiis debitis aut rerum necessitatibus saepe eveniet ut et voluptates repudiandae sint et molestiae non recusandae. Itaque earum rerum hic tenetur a sapiente delectus, ut aut reiciendis voluptatibus maiores alias consequatur aut perferendis doloribus asperiores repellat."

请注意,字符串

"valor maximo"

出现两次。 我想从每个字符中获取上一个和下一个50字符

结果应包含以下字符串:

"At vero eos et accusamus et iusto"
" odio dignissimos ducimus qui blanditiis praesenti"
"ssumenda est, omnis dolor repellendus. Temporibus "
"autem quibusdam et aut officiis debitis aut rerum "

可以是一个列表,字典,飞机文本,等等。我怎样才能做到这一点


Tags: atvaloretesteosveroautqui
2条回答

对于非正则表达式解决方案,请使用

def find_searchterm(word_list, searchterm, n_hood):
    results = []
    for i, _ in enumerate(word_list):
        if word_list[i:i + len(searchterm)] == searchterm:
            results.append(word_list[max(0, i - n_hood):min(i + n_hood + len(searchterm), len(word_list))])
    return results

用法:

word_list = "At vero eos et accusamus et iusto valor maximo odio dignissimos ducimus qui blanditiis praesentium voluptatum deleniti atque corrupti quos dolores et quas molestias excepturi sint occaecati cupiditate non provident, similique sunt in culpa qui officia deserunt mollitia animi, id est laborum et dolorum fuga. Et harum quidem rerum facilis est et expedita distinctio. Nam libero tempore, cum soluta nobis est eligendi optio cumque nihil impedit quo minus id quod maxime placeat facere possimus, omnis voluptas assumenda est, omnis dolor repellendus. Temporibus valor maximo autem quibusdam et aut officiis debitis aut rerum necessitatibus saepe eveniet ut et voluptates repudiandae sint et molestiae non recusandae. Itaque earum rerum hic tenetur a sapiente delectus, ut aut reiciendis voluptatibus maiores alias consequatur aut perferendis doloribus asperiores repellat.".split(" ")


searchterm = "valor maximo".split(" ")
n_hood = 50

res = find_searchterm(word_list, searchterm, n_hood)


print(res)

我想这样可以:

import re
keyword='valor maximo'
text = """At vero eos et accusamus et iusto valor maximo odio dignissimos ducimus qui blanditiis praesentium voluptatum deleniti atque corrupti quos dolores et quas molestias excepturi sint occaecati cupiditate non provident, similique sunt in culpa qui officia deserunt mollitia animi, id est laborum et dolorum fuga. Et harum quidem rerum facilis est et expedita distinctio. Nam libero tempore, cum soluta nobis est eligendi optio cumque nihil impedit quo minus id quod maxime placeat facere possimus, omnis voluptas assumenda est, omnis dolor repellendus. Temporibus valor maximo autem quibusdam et aut officiis debitis aut rerum necessitatibus saepe eveniet ut et voluptates repudiandae sint et molestiae non recusandae. Itaque earum rerum hic tenetur a sapiente delectus, ut aut reiciendis voluptatibus maiores alias consequatur aut perferendis doloribus asperiores repellat."""
matches = re.findall('(.{0,50}(%s).{0,50})' % keyword, text, re.DOTALL)
print(sum([match.split(keyword) for match, keyword in matches], []))

一般职能是:

def get_matches(text, keyword, size):
    matches = re.findall('(.{0,%d}(%s).{0,%d})' % (size, keyword, size), text, re.DOTALL)
    return sum([match.split(keyword) for match, keyword in matches], [])

相关问题 更多 >