词向量
word-vectors的Python项目详细描述
字向量
用于加载字向量的快速光库。
文件类型
手套
一个简单的矢量文件,它是纯文本文件。每一行是一个单词,后跟向量,每个分量(和单词)由一个空格分隔。
这既慢又不占用空间。
字2vec
一种简单的二进制格式,其中第一行是vocab中的项数和向量的大小。下一行是一个单词,后面跟着一个向量,作为一个由空格分隔的二进制字符串。
这种格式很紧凑,但速度很慢,因为每次需要读取一个字节才能找到每个单词的结尾。
致密
这是新格式。它是一个二进制文件,前12个字节是单词的vocab大小、向量大小和最大长度(无符号、小尾数、整数)。然后单词和向量跟随单词填充到最大长度,然后是向量。
这种格式比word2vec格式稍大一点,但速度更快,因为可以快速计算每个项的位置。它还允许多线程读取。此格式比常规手套格式小。