在Python中提取和处理5grams。NLTK API或替代方案?

2024-06-08 16:45:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我想用一个关键字从google5grams中提取自然语言。然后我需要清除停止词(介词、代词等)的结果。接下来我想用一个数字替换“语言”结果。我有一个excel文件,里面有大量的单词和相应的分数。最后我想做一个(双面重复)方差分析。你知道吗

我从culturomics为python2.x找到了这个有用的脚本,它完成了第一步。我的输入是“gemstone\u NOUN”(仅用于名词的通配符函数)。此输入需要重复以覆盖大多数其他内容词,即“gemstone\u VERB”“…*\u ADJ”“…*\u ADV”。每个输入的输出是tsv file。在第3行中,我有结果和语言词类别的关键字。因此,我需要去掉关键字和单词类别,并以可访问的方式存储所有结果,以便进一步处理。存储在python数组中?你知道吗

另一种可能性是使用NLTK包中的concordance function来检索所需的单词。然后使用clean stop word函数(有人告诉我这个函数存在)用数字替换单词。但我没有追求这个选择。你知道吗

在我继续之前,我想我应该问问。有没有其他脚本可以利用?对于Python来说,哪种方法更好?你知道吗

我期待着检索40个关键字的结果,这给了我200个字从谷歌5grams。理想情况下,我想适应和应用Twitter和其他辅助数据的脚本。 非常感谢!你知道吗


Tags: 文件函数脚本语言数字关键字单词excel
1条回答
网友
1楼 · 发布于 2024-06-08 16:45:31

我将使用选项A(调整现有的cultureomics脚本)和/或Alvas建议。concordance函数只读取.txt和.xml文件(因此实际上无法读取URL输入),并且只允许单个单词输入。这可能是最新的未来。根据这个discussion,似乎有一个多字输入的图形解决方案。我当然可以尝试使用concordance crawler(虽然还没有深入研究)来收集数据,将结果写入一个兼容的文件,然后开始分析。但这在脚本中又增加了一个步骤,我不相信它的用法。你知道吗

相关问题 更多 >