Python regex来提取字符串的一部分

网友
1楼 · 编辑于 2024-05-16 03:58:32

你也可以用nltk来接近它，它是"concordance" method，灵感来自Calling NLTK's concordance - how to get text before/after a word that was used?：
A concordance view shows us every occurrence of a given word, together with some context.
import nltk def get_neighbors(input_text, word, before, after): text = nltk.Text(nltk.tokenize.word_tokenize(input_text)) concordance_index = nltk.ConcordanceIndex(text.tokens) offset = next(offset for offset in concordance_index.offsets(word)) return text.tokens[offset - before - 1: offset] + text.tokens[offset: offset + after + 1] text = u"Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum." print(get_neighbors(text, 'laboris', 5, 2))
在目标单词之前打印5个单词/标记，在目标单词之后打印2个单词/标记：
^{pr2}$

网友
2楼 · 编辑于 2024-05-16 03:58:32

If you still want regex.... def find_context(word_, n_before, n_after, string_): import re b= '\w+\W+' * n_before a= '\W+\w+' * n_after pattern = '(' + b + word_ + a + ')' print(re.search(pattern, string_).groups(1)[0]) find_context('laboris', 5, 2, st) veniam, quis nostrud exercitation ullamco laboris nisi ut find_context('culpa', 2, 2, st) sunt in culpa qui officia

网友
3楼 · 编辑于 2024-05-16 03:58:32

如果要拆分单词，可以使用slice()和split()函数。例如：

>>> text = "Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod
 tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, qu
is nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
 Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu
 fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in 
culpa qui officia deserunt mollit anim id est laborum.".split()

>>> n = text.index('laboris')
>>> s = slice(n - 5, n + 3)

>>> text[s]
['veniam,', 'quis', 'nostrud', 'exercitation', 'ullamco', 'laboris', 'nisi', 'ut']

相关问题更多 >

编程相关推荐

热门问题

热门文章