使用nltk.tokenize.texttiling将文本分段?

5 投票
1 回答
8262 浏览
提问于 2025-04-18 15:36

我在寻找将文档分成段落的方法时,发现了texttiling,这是一种可能的解决方案。

这是我尝试使用它的结果。不过,我不太明白如何处理输出的结果。希望能得到你的帮助。

t = unidecode(doclist[0].decode('utf-8','ignore'))

nltk.tokenize.texttiling.TextTilingTokenizer(t)

输出结果:

<nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350>

1 个回答

4

我现在也在研究这个问题,和你有同样的疑问,所以如果我说错了也别太在意。我觉得把我知道的分享出来是最好的... :)

我还不太确定,但我在这个错误报告中找到了一个使用TextTilingTokenizer的例子:

alice=nltk.corpus.gutenberg.raw('carroll-alice.txt')
ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(alice[140309 : ])

看起来你想把你的文本传给TextTilingTokenizer的tokenize方法。

撰写回答