标记化，同时保留换行符和段落结构 - 问答 - Python中文网

标记化，同时保留换行符和段落结构

2024-04-26 13:31:48 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

假设我有一篇课文要学习。句子和段落的数量很重要，要保持原样（点触发句尾，换行触发新段落的开始）。假设我需要首先标记我的文本：

>>> from nltk import word_tokenize as tokenize
>>> tokenize('How\'s life? Aren\'t you feeling good\n bro?')
['How', "'s", 'life', '?', 'Are', "n't", 'you', 'feeling', 'good', 'bro', '?']

如您所见，输出是一个列表，它忽略了文字以外的任何信息。我可以试着做些类似的事情：

^{pr2}$

但这还不够，因为段落结构已经丢失。有没有一种简单的方法可以使用NLTK的标记器来实现这一点？我宁愿不求助于另一个图书馆作为第一个解决办法。在

Tags： from 标记文本 you 数量句子 how 段落

1条回答

网友

1楼 · 发布于 2024-04-26 13:31:48

您可能需要更改标记器。nltk中包含了几种不同的方法。如果您想保留换行符的重要性，那么可以尝试一种面向行的标记器，或者考虑自己在换行符上拆分字符串，一次输入一个部分。这将使您能够以某种方式将新行重新混合到数据中。（例如，您可以在每一个换行处跟踪标记化输出的len()。）

相关问题更多 >

编程相关推荐

热门问题

热门文章