在NLTK中创建自己的语料库的优势

2024-05-14 23:47:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我在Mysql表中有大量的文本。我想用NLTK工具箱对我的文本做一些统计分析和NLP。 我有两个选择:

  1. 一次从DB表中提取所有文本(如果需要,可以将它们放入一个文件中)并使用NLTK函数
  2. 提取文本并将其转换为可与NLTK一起使用的“语料库”。在

后者看起来相当复杂,我还没有找到真正描述如何使用它的文章,我只找到了这个:Creating a MongoDB backed corpus reader它使用MongoDB作为它的数据库,代码非常复杂,而且还需要了解MongoDB。另一方面,前者看起来很简单,但是会导致从数据库中提取文本的开销。在

现在的问题是,语料库在NLTK中的优势是什么?换句话说,如果我接受挑战,深入研究覆盖NTLK方法,以便它可以从MySQL数据库中读取,那么这样的麻烦值得吗?把我的文本转换成语料库是否会给我一些我用普通NLTK函数做不到的事情(或者困难重重)?在

另外,如果你知道如何将MySQL连接到NLTK,请告诉我。 谢谢


Tags: 文件函数文本creating数据库dbnlpmongodb
1条回答
网友
1楼 · 发布于 2024-05-14 23:47:52

好吧,我看了很多书才找到答案。 在NLTK中,有一些非常有用的功能,如搭配、搜索、公共上下文,类似的功能可以用于保存为语料库的文本。你自己去实现它们需要相当长的时间。如果从数据库中选择我的文本并放入一个文件并使用nltk.Text函数,那么我就可以使用前面提到的所有函数,而无需编写太多代码行,甚至不必重写方法,以便连接到MySql。这里是获取更多信息的链接: nltk.Text

相关问题 更多 >

    热门问题