假设我有一篇课文要学习。句子和段落的数量很重要,要保持原样(点触发句尾,换行触发新段落的开始)。假设我需要首先标记我的文本:
>>> from nltk import word_tokenize as tokenize
>>> tokenize('How\'s life? Aren\'t you feeling good\n bro?')
['How', "'s", 'life', '?', 'Are', "n't", 'you', 'feeling', 'good', 'bro', '?']
如您所见,输出是一个列表,它忽略了文字以外的任何信息。我可以试着做些类似的事情:
^{pr2}$但这还不够,因为段落结构已经丢失。有没有一种简单的方法可以使用NLTK的标记器来实现这一点?我宁愿不求助于另一个图书馆作为第一个解决办法。在
您可能需要更改标记器。nltk中包含了几种不同的方法。如果您想保留换行符的重要性,那么可以尝试一种面向行的标记器,或者考虑自己在换行符上拆分字符串,一次输入一个部分。这将使您能够以某种方式将新行重新混合到数据中。(例如,您可以在每一个换行处跟踪标记化输出的
len()
。)相关问题 更多 >
编程相关推荐