在单词后面的某些字符上查找并拆分

网友

1楼 · 编辑于 2024-05-13 21:19:49

似乎你想做标记化。试试nltk

http://text-processing.com/demo/tokenize/

from nltk.tokenize import TreebankWordTokenizer
splits = TreebankWordTokenizer().tokenize(text)

网友

2楼 · 编辑于 2024-05-13 21:19:49

您可以先在([.,](?=\s)|\s)上拆分，然后过滤掉空字符串或空白字符串：

In [16]: filter(lambda s: not re.match(r'\s*$', s) , re.split(r'([.,](?=\s)|\s)',  'Mr.Smith is a professor at Har
    ...: vard, and is a great guy.'))
Out[16]: 
['Mr.Smith',
 'is',
 'a',
 'professor',
 'at',
 'Harvard',
 ',',
 'and',
 'is',
 'a',
 'great',
 'guy.']

网友

3楼 · 编辑于 2024-05-13 21:19:49

你可以用

re.findall(r'\w+(?:\.\w+)*|[^\w\s]', s)

参见regex demo。你知道吗

细节

\w+(?:\.\w+)*-1+字字符，后跟0个或多个点，后跟1+字字符
|-或
[^\w\s]-除单词和空格字符以外的任何字符。你知道吗

Python demo：

import re
rx = r"\w+(?:\.\w+)*|[^\w\s]"
s = "Mr.Smith is a professor at Harvard, and is a great guy."
print(re.findall(rx, s))

输出：['Mr.Smith', 'is', 'a', 'professor', 'at', 'Harvard', ',', 'and', 'is', 'a', 'great', 'guy', '.']。你知道吗

这种方法可以进一步精确。例如，仅将字母、数字和下划线标记为标点符号：

re.findall(r'[+-]?\d*\.?\d+|[^\W\d_]+(?:\.[^\W\d_]+)*|[^\w\s]|_', s)

参见regex demo

相关问题更多 >

编程相关推荐

热门问题

热门文章

在单词后面的某些字符上查找并拆分

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >