我想提取一个大字符串的一部分。在目标词之前和后面有一个词的上限。因此,提取的子串必须包含目标词及其前后的上限词。如果目标词靠近文本的开头或结尾,则前后部分可以包含较少的单词。在
a多个字符串
“Lorem ipsum悲哀地坐在阿梅特,献身于一位优秀的人才,他在劳动和工作中的时间安排。我是一个很小的人,我是一个普通人的实验室。这是一个令人愉快的节日,它是一个令人愉快的节日。除此之外,我们的工作不应受到惩罚。”
目标词:laboris
前面的单词:5
后面的单词
应返回['veniam, quis nostrud exercitation ullamco laboris nisi ut']
我想到了几种可能的模式,但都不管用。我想它也可以通过简单地从目标单词前后遍历字符串来完成。然而,regex肯定会让事情变得更简单。任何帮助都将不胜感激。在
你也可以用
nltk
来接近它,它是"concordance" method,灵感来自Calling NLTK's concordance - how to get text before/after a word that was used?:在目标单词之前打印5个单词/标记,在目标单词之后打印2个单词/标记:
^{pr2}$如果要拆分单词,可以使用
slice()
和split()
函数。例如:相关问题 更多 >
编程相关推荐