词向量

word-vectors的Python项目详细描述


字向量

Build Status

用于加载字向量的快速光库。

文件类型

手套

一个简单的矢量文件,它是纯文本文件。每一行是一个单词,后跟向量,每个分量(和单词)由一个空格分隔。

这既慢又不占用空间。

字2vec

一种简单的二进制格式,其中第一行是vocab中的项数和向量的大小。下一行是一个单词,后面跟着一个向量,作为一个由空格分隔的二进制字符串。

这种格式很紧凑,但速度很慢,因为每次需要读取一个字节才能找到每个单词的结尾。

致密

这是新格式。它是一个二进制文件,前12个字节是单词的vocab大小、向量大小和最大长度(无符号、小尾数、整数)。然后单词和向量跟随单词填充到最大长度,然后是向量。

这种格式比word2vec格式稍大一点,但速度更快,因为可以快速计算每个项的位置。它还允许多线程读取。此格式比常规手套格式小。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JPanel不会对键绑定做出反应   当时间大于零时,不得在UI线程上调用java Await   JTextArea的java线程安全。追加   Java用户输入的字和行计数器   java以spreedsheat格式将数据保存到文件中   java构造函数的意义是什么?   java findViewById返回null,尽管组件的ID存在   java如何向按钮添加图像   java如何中断ExecutorService的线程   java如何将属性(例如枚举)绑定到不同类型的组件属性(例如每个枚举的映像)?   随机森林分类器的java实现   html使用java连接到一个站点并发布,HTTP状态代码200   从类访问属性时发生java编译错误   Java自动填充ArrayList,搜索更好的选项