将维基百科文章编码为向量的工具。

wikivector的Python项目详细描述


维基矢量

将维基百科文章编码为向量的工具。在

安装

要获得最新的稳定版本:

pip install wikivector

要获取开发版本:

^{pr2}$

导出Wikipedia文本

首先,运行WikiExtractor 在维基百科的垃圾堆里。这将生成一个包含许多 子目录和每个子目录中的文本文件。下一步,建造 包含提取文本数据中所有项目列表的头文件:

wiki_header wiki_dir header_file

其中wiki_dirWikiExtractor的输出路径。 header_file将是一个带有每篇文章标题的CSV文件 以及可以在其中找到它的文件。在

要提取特定的文章,请编写一个包含两列的CSV文件:“item” 和“头衔”。每个项目的“标题”必须与文章完全匹配 维基百科垃圾堆里的标题。要提取每个项目的文本:

export_articles header_file map_file output_dir

其中map_file是包含项目的CSV文件,output_dir是 您要将文本文件与每个项目的文章一起保存的位置。在

通用句子编码器

导出文章后,可以计算向量嵌入 对于每个项目使用通用句子编码器。在

embed_articles map_file text_dir h5_file

这将读取一个指定项池的映射文件(只有“item”字段是 并在hdf5文件中输出向量。读取向量,在 Python:

fromwikivectorimportvectorvectors,items=vector.load_vectors(h5_file)

引文

如果您使用wiki2vec,请引用以下文章:

Morton,NW*,Zippi,EL*,Noh,S,Preston,AR.修订版。著名人物和地点的语义知识在海马体中以不同的网络形式呈现。*作者贡献均等

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Play Framework 2.1中的简单搜索?   java:Springbeans的真正工作原理   java不能从字符串中提取数字   不同管道中的java共享ExecutionHandler   在Java中,如何为扩展comparator的类实现多个comparator方法?   通用混沌Java   java问题:从自定义类获取要添加到驱动程序类的形状   java如何利用HikariCP和Hibernate?   eclipse如何执行Java应用程序?   用户界面Java Swing:如何将JLabel的文本绑定到JTable选定行中的列?   java替换JPanel元素而不添加到面板的末尾?   java Sets根据action命令在按钮组中选择了特定的jradiobutton   在java中如何将从控制台添加的字符串中的元素添加到列表中   处理未在浏览器上运行的Java签名小程序   java如何在我的安卓应用程序中单击任意按钮时禁用音频音调?   编码如何在Java中将十六进制转换为utf8编码的字符串   java JSF Spring安全集成问题   java如何更正Oracle for Windows中的字符?   java Spark结构化流媒体:当前批次落后   java Hibernate根据最匹配的条件排序结果