词向量

word-vectors的Python项目详细描述


字向量

Build Status

用于加载字向量的快速光库。

文件类型

手套

一个简单的矢量文件,它是纯文本文件。每一行是一个单词,后跟向量,每个分量(和单词)由一个空格分隔。

这既慢又不占用空间。

字2vec

一种简单的二进制格式,其中第一行是vocab中的项数和向量的大小。下一行是一个单词,后面跟着一个向量,作为一个由空格分隔的二进制字符串。

这种格式很紧凑,但速度很慢,因为每次需要读取一个字节才能找到每个单词的结尾。

致密

这是新格式。它是一个二进制文件,前12个字节是单词的vocab大小、向量大小和最大长度(无符号、小尾数、整数)。然后单词和向量跟随单词填充到最大长度,然后是向量。

这种格式比word2vec格式稍大一点,但速度更快,因为可以快速计算每个项的位置。它还允许多线程读取。此格式比常规手套格式小。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java爬虫获取外部网站搜索结果   java Bluestack未连接到eclipse   java如何从ConstraintViolationException Hibernamte获取数据库字段名   HttpResponse HttpResponse=httpClient引发java运行时错误。执行(httpPost);   Jama中矩阵的java点积和叉积   java有什么方法可以唯一地识别可扩展设备吗?   java我需要用*来写我的名字,但我不断遇到一个错误,我对编码很陌生   java变量是在内部类中访问的。需要被宣布为最终决定。但我不想宣布最终结果   java如何缩短base64图像字符串,Android?   JavaSpringMVC:计划方法不自动触发   图形学习Java 2D API的好资源是什么?   如何在java中对方法进行排队   java JavaFX多行   java Selenium无法在[链接]上找到基于CSS元素的密码字段元素http://www.cartasi.it/gtwpages/index.jsp   Java中的equals()和hashCode()契约   软删除情况下的java Hibernate二级缓存   java为什么这段代码要两次调用这些方法?