标记化,同时保留换行符和段落结构

2024-04-26 13:31:48 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有一篇课文要学习。句子和段落的数量很重要,要保持原样(点触发句尾,换行触发新段落的开始)。假设我需要首先标记我的文本:

>>> from nltk import word_tokenize as tokenize
>>> tokenize('How\'s life? Aren\'t you feeling good\n bro?')
['How', "'s", 'life', '?', 'Are', "n't", 'you', 'feeling', 'good', 'bro', '?']

如您所见,输出是一个列表,它忽略了文字以外的任何信息。我可以试着做些类似的事情:

^{pr2}$

但这还不够,因为段落结构已经丢失。有没有一种简单的方法可以使用NLTK的标记器来实现这一点?我宁愿不求助于另一个图书馆作为第一个解决办法。在


Tags: from标记文本you数量句子how段落
1条回答
网友
1楼 · 发布于 2024-04-26 13:31:48

您可能需要更改标记器。nltk中包含了几种不同的方法。如果您想保留换行符的重要性,那么可以尝试一种面向行的标记器,或者考虑自己在换行符上拆分字符串,一次输入一个部分。这将使您能够以某种方式将新行重新混合到数据中。(例如,您可以在每一个换行处跟踪标记化输出的len()。)

相关问题 更多 >