显式语义分析

esa-wiki的Python项目详细描述


ESA维基

基于wikipedia的显式语义分析

这是一个python库,包含以下代码:1)基于wikipedia中的数据构造语义解释器;2)将其应用于各种文本。

要构造解释器,首先从http://dumps.wikimedia.org/enwiki/

  1. 然后以下载的文件作为参数运行python3 -m esa_wiki.xml_parse <file>。这将输出一些临时文件,其中包含有关遇到的单词、链接和文章的信息。

  2. 接下来,运行python3 -m esa_wiki.generate_indices以生成与遇到的唯一单词和项目对应的索引列表

  3. 最后,运行python3 -m esa_wiki.matrix_builder构造一个非常大的稀疏解释矩阵。每一行对应一个唯一的单词,每一列对应一个“概念”,即一篇维基百科文章,每一项都是文章J中单词I的TF-IDF分数。矩阵保存在单独的块中以节省内存。

medium_wiki.xml可以用作演示/测试的示例文件,因为它只包含前100篇左右的维基百科文章。

然后,cunning_linguistics.py包含执行文本分析的类,并获取用于分析的tweets。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java将Map<String,String>传递给需要Map<String,Object>   java在循环中使用字符串而不是StringBuilder是否会造成内存损失?   jnlp如何更新java控制台JRE?   java更改、修改和重新打包CXFAPI源文件   JavaFXJava应用程序在Fedora上运行一段时间后关闭   使用来自不同类的方法的java   java如何通过ant脚本在linux中使用subst?   java在使用camunda modeler进行base64编码/解码时出错   获取java。netbeans、weblogic和fastswap设置为true时的lang.NoSuchMethodError   java如何提高FinalizerThread在GC中收集对象的优先级   java检测具有相同根的单词   netbeans crud应用程序中的java错误