将维基百科文章编码为向量的工具。
wikivector的Python项目详细描述
维基矢量
将维基百科文章编码为向量的工具。在
安装
要获得最新的稳定版本:
pip install wikivector
要获取开发版本:
^{pr2}$导出Wikipedia文本
首先,运行WikiExtractor 在维基百科的垃圾堆里。这将生成一个包含许多 子目录和每个子目录中的文本文件。下一步,建造 包含提取文本数据中所有项目列表的头文件:
wiki_header wiki_dir header_file
其中wiki_dir
是WikiExtractor
的输出路径。
header_file
将是一个带有每篇文章标题的CSV文件
以及可以在其中找到它的文件。在
要提取特定的文章,请编写一个包含两列的CSV文件:“item” 和“头衔”。每个项目的“标题”必须与文章完全匹配 维基百科垃圾堆里的标题。要提取每个项目的文本:
export_articles header_file map_file output_dir
其中map_file
是包含项目的CSV文件,output_dir
是
您要将文本文件与每个项目的文章一起保存的位置。在
通用句子编码器
导出文章后,可以计算向量嵌入 对于每个项目使用通用句子编码器。在
embed_articles map_file text_dir h5_file
这将读取一个指定项池的映射文件(只有“item”字段是 并在hdf5文件中输出向量。读取向量,在 Python:
fromwikivectorimportvectorvectors,items=vector.load_vectors(h5_file)
引文
如果您使用wiki2vec,请引用以下文章:
Morton,NW*,Zippi,EL*,Noh,S,Preston,AR.修订版。著名人物和地点的语义知识在海马体中以不同的网络形式呈现。*作者贡献均等
- 项目
标签: