显式语义分析
esa-wiki的Python项目详细描述
ESA维基
基于wikipedia的显式语义分析
这是一个python库,包含以下代码:1)基于wikipedia中的数据构造语义解释器;2)将其应用于各种文本。
要构造解释器,首先从http://dumps.wikimedia.org/enwiki/
然后以下载的文件作为参数运行
python3 -m esa_wiki.xml_parse <file>
。这将输出一些临时文件,其中包含有关遇到的单词、链接和文章的信息。接下来,运行
python3 -m esa_wiki.generate_indices
以生成与遇到的唯一单词和项目对应的索引列表最后,运行
python3 -m esa_wiki.matrix_builder
构造一个非常大的稀疏解释矩阵。每一行对应一个唯一的单词,每一列对应一个“概念”,即一篇维基百科文章,每一项都是文章J中单词I的TF-IDF分数。矩阵保存在单独的块中以节省内存。
medium_wiki.xml可以用作演示/测试的示例文件,因为它只包含前100篇左右的维基百科文章。
然后,cunning_linguistics.py包含执行文本分析的类,并获取用于分析的tweets。