使用nltk.tokenize.texttiling将文本分段？

5 投票

1 回答

8262 浏览

提问于 2025-04-18 15:36

我在寻找将文档分成段落的方法时，发现了texttiling，这是一种可能的解决方案。

这是我尝试使用它的结果。不过，我不太明白如何处理输出的结果。希望能得到你的帮助。

t = unidecode(doclist[0].decode('utf-8','ignore'))

nltk.tokenize.texttiling.TextTilingTokenizer(t)

输出结果：

<nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350>

自然语言处理 nltk 文本分析语料库 texttiling 文本分段分段算法

1 个回答

我现在也在研究这个问题，和你有同样的疑问，所以如果我说错了也别太在意。我觉得把我知道的分享出来是最好的... :)

我还不太确定，但我在这个错误报告中找到了一个使用TextTilingTokenizer的例子：

alice=nltk.corpus.gutenberg.raw('carroll-alice.txt')
ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(alice[140309 : ])

看起来你想把你的文本传给TextTilingTokenizer的tokenize方法。

回答于 2025-04-18 由 Python大师

分享举报