用于不同单词嵌入实现的加载程序和保存程序。
WordEmbeddingLoader的Python项目详细描述
……-*-编码:utf-8;-*-
不同“嵌入单词”实现的加载程序和保存程序<;https://en.wikipedia.org/wiki/word_embedding>;`。这个项目的动机是,为不同的预训练单词嵌入文件编写加载程序是很麻烦的。此项目提供了一个简单的界面,用于加载不同格式的预训练单词嵌入文件。
…代码::python
from word_embedding_loader import wordembedding
嵌入任意格式的文件
wv.save('path/to/save.txt','word2vec',binary=false)
>此项目当前支持以下格式:
*`glove<;https://nlp.stanford.edu/projects/glove/>;``用于单词表示的全局向量,作者:Jeffrey Pennington,Richard Socher,Christopher D.Manning,斯坦福大学nlp group.
*`word2vec<;https://code.google.com/archive/p/word2vec/>;`` ux,由mikolov提供。
-text(使用``-binary 0``选项(默认值)创建)
-binary(使用`-binary 1``选项创建)
*`gensim<;https://radimrehurek.com/gensim/>;`'s``models.word2vec``模块(coming)
*原始hdfs格式:一个以性能为中心的选项,用于加载和保存单词嵌入(coming)
有时,您需要将外部程序与自己选择的单词嵌入文件结合起来。这个项目还提供了一个简单的可执行文件,可以将一个单词嵌入格式转换为另一种格式。代码::bash
编码(encoding)此项目对vocab进行解码。由用户决定和解码字节。
…代码::python
decoded_vocab={k.decode('latin-1'):v代表k,v代表wv.vocab.iteritems()}
……注:
pretrained word2vec的编码是拉丁文-1。预训练手套的编码是utf-8
development
它将尝试重建`.pyx``模块。
`` bash
development\we=1 python setup.py test
```
不同“嵌入单词”实现的加载程序和保存程序<;https://en.wikipedia.org/wiki/word_embedding>;`。这个项目的动机是,为不同的预训练单词嵌入文件编写加载程序是很麻烦的。此项目提供了一个简单的界面,用于加载不同格式的预训练单词嵌入文件。
…代码::python
from word_embedding_loader import wordembedding
嵌入任意格式的文件
wv.save('path/to/save.txt','word2vec',binary=false)
>此项目当前支持以下格式:
*`glove<;https://nlp.stanford.edu/projects/glove/>;``用于单词表示的全局向量,作者:Jeffrey Pennington,Richard Socher,Christopher D.Manning,斯坦福大学nlp group.
*`word2vec<;https://code.google.com/archive/p/word2vec/>;`` ux,由mikolov提供。
-text(使用``-binary 0``选项(默认值)创建)
-binary(使用`-binary 1``选项创建)
*`gensim<;https://radimrehurek.com/gensim/>;`'s``models.word2vec``模块(coming)
*原始hdfs格式:一个以性能为中心的选项,用于加载和保存单词嵌入(coming)
有时,您需要将外部程序与自己选择的单词嵌入文件结合起来。这个项目还提供了一个简单的可执行文件,可以将一个单词嵌入格式转换为另一种格式。代码::bash
编码(encoding)此项目对vocab进行解码。由用户决定和解码字节。
…代码::python
decoded_vocab={k.decode('latin-1'):v代表k,v代表wv.vocab.iteritems()}
……注:
pretrained word2vec的编码是拉丁文-1。预训练手套的编码是utf-8
development
它将尝试重建`.pyx``模块。
`` bash
development\we=1 python setup.py test
```