自然语言处理(NLP)实用程序:字嵌入(Word2Vec、Glove、FastText,…)和预处理转换器,与Scikit学习管道兼容。
zeugma的Python项目详细描述
Zeugma
自然语言处理(NLP)实用程序:与scikit-learn Pipelines兼容的字嵌入(Word2Vec、Glove、FastText,…)和预处理转换器。
安装
使用pip install zeugma安装包。
示例
嵌入转换器可以与下载的嵌入一起使用(它们 所有这些都带有默认的嵌入url)或经过训练。
预处理嵌入件
作为示例,使用GloVe预训练嵌入计算句子what is zeugma和的余弦相似性。
>>> from zeugma.embeddings import EmbeddingTransformer
>>> glove = EmbeddingTransformer('glove')
>>> embeddings = glove.transform(['what is zeugma', 'a figure of speech'])
>>> from sklearn.metrics.pairwise import cosine_similarity
>>> cosine_similarity(embeddings)[0, 1]
0.8721696
培训嵌入
要训练自己的word2vec嵌入,请使用Gensim sklearn API。
微调嵌入
嵌入式微调(用预加载值训练嵌入式)将在未来实现。