使用nltk.tokenize.texttiling将文本分段?
我在寻找将文档分成段落的方法时,发现了texttiling,这是一种可能的解决方案。
这是我尝试使用它的结果。不过,我不太明白如何处理输出的结果。希望能得到你的帮助。
t = unidecode(doclist[0].decode('utf-8','ignore'))
nltk.tokenize.texttiling.TextTilingTokenizer(t)
输出结果:
<nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350>
1 个回答
4
我现在也在研究这个问题,和你有同样的疑问,所以如果我说错了也别太在意。我觉得把我知道的分享出来是最好的... :)
我还不太确定,但我在这个错误报告中找到了一个使用TextTilingTokenizer的例子:
alice=nltk.corpus.gutenberg.raw('carroll-alice.txt')
ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(alice[140309 : ])
看起来你想把你的文本传给TextTilingTokenizer的tokenize方法。