如何从文本文件创建自己的NLTK文本？ - 问答 - Python中文网

如何从文本文件创建自己的NLTK文本？

2024-05-16 12:50:04 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我是一名文学研究生，我读过O'Reilly的自然语言处理书（nltk.org/book）。它看起来非常有用。我在第1章中反复讨论了所有的示例文本和示例任务，比如一致性。我现在知道《白鲸》有多少次使用“鲸鱼”这个词了，问题是，我不知道如何根据自己的一篇文章来计算。我已经找到了关于如何创建自己的语料库的信息（O'Reilly书的第2章），但我不认为这正是我想要做的。换句话说，我希望能够

import nltk 
text1.concordance('yellow')

找出在我的文本中使用“黄色”这个词的地方。目前，我可以用示例文本来实现这一点，但不是我自己的。

我对python和编程很陌生，所以这些东西很令人兴奋，但也很混乱。

Tags： org 文本 import 信息示例文章一致性语料库

2条回答

网友

1楼 · 编辑于 2024-05-16 12:50:04

对于多个文件的结构化导入：

from nltk.corpus import PlaintextCorpusReader

# RegEx or list of file names
files = ".*\.txt"

corpus0 = PlaintextCorpusReader("/path/", files)
corpus  = nltk.Text(corpus0.words())

见：NLTK 3 book/第1.9节

网友

2楼 · 编辑于 2024-05-16 12:50:04

我自己找到了答案。真尴尬。或者很棒。

第3章：

f=open('my-file.txt','rU')
raw=f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)

做到了。

相关问题更多 >

编程相关推荐

热门问题

热门文章