用于不同单词嵌入实现的加载程序和保存程序。

WordEmbeddingLoader的Python项目详细描述


……-*-编码:utf-8;-*-


不同“嵌入单词”实现的加载程序和保存程序<;https://en.wikipedia.org/wiki/word_embedding>;`。这个项目的动机是,为不同的预训练单词嵌入文件编写加载程序是很麻烦的。此项目提供了一个简单的界面,用于加载不同格式的预训练单词嵌入文件。

…代码::python

from word_embedding_loader import wordembedding

嵌入任意格式的文件
wv.save('path/to/save.txt','word2vec',binary=false)



>此项目当前支持以下格式:

*`glove<;https://nlp.stanford.edu/projects/glove/>;``用于单词表示的全局向量,作者:Jeffrey Pennington,Richard Socher,Christopher D.Manning,斯坦福大学nlp group.
*`word2vec<;https://code.google.com/archive/p/word2vec/>;`` ux,由mikolov提供。
-text(使用``-binary 0``选项(默认值)创建)
-binary(使用`-binary 1``选项创建)
*`gensim<;https://radimrehurek.com/gensim/>;`'s``models.word2vec``模块(coming)
*原始hdfs格式:一个以性能为中心的选项,用于加载和保存单词嵌入(coming)



有时,您需要将外部程序与自己选择的单词嵌入文件结合起来。这个项目还提供了一个简单的可执行文件,可以将一个单词嵌入格式转换为另一种格式。代码::bash

编码(encoding)此项目对vocab进行解码。由用户决定和解码字节。

…代码::python

decoded_vocab={k.decode('latin-1'):v代表k,v代表wv.vocab.iteritems()}




……注:

pretrained word2vec的编码是拉丁文-1。预训练手套的编码是utf-8




development
它将尝试重建`.pyx``模块。

`` bash
development\we=1 python setup.py test
```

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何为ConcurrentHashMap使用并设置适当的并发级别?   java泛型方法,运行时错误,   java在页面上显示加载的图像   java Paypal定期直接支付问题   java如何延迟重新绘制组件   JavaSpringBoot+Hibernate如何维护@Transient字段   java在其方法中获取关于类的信息   在java中将别名添加到枚举   java如何解决向google报告成绩时“需要重新连接客户端”的问题   清晰的java图像背景   java未找到适合JDateChooser的构造函数(字符串、字符串、字符)   java LRU缓存实现。某些测试用例的代码失败   if语句Java嵌套的if/Else条件   java JSoup“wrap”并非每次都按预期工作   Java Spring引导循环依赖于一个环境   ssl证书无法通过Java和IntelliJ连接到SOAP服务   带整数验证的Java扫描器   java在Flex中呈现具有动态列的datagrid   java Android:通过用户选择的选项将文件上载到服务器   子类中的java抛出错误、异常和运行时异常