用张量流估计和数据集实现word2vec
tf-word2vec的Python项目详细描述
word2vec
这是基于tensorflow的word2vec的重新实现 Estimators和 Datasets
安装
在git克隆之后:
python3 setup.py install
获取数据
您可以在此处下载英语维基百科的示例:
wget http://129.194.21.122/~kabbach/enwiki.20190120.sample10.0.balanced.txt.7z
训练字2vec
w2v train \ --data /absolute/path/to/enwiki.20190120.sample10.0.balanced.txt \ --outputdir /absolute/path/to/word2vec/models \ --alpha 0.025 \ --neg 5\ --window 2\ --epochs 5\ --size 300\ --min-count 50\ --sample 1e-5 \ --train-mode skipgram \ --t-num-threads 20\ --p-num-threads 25\ --keep-checkpoint-max 3\ --batch 1\ --shuffling-buffer-size 10000\ --save-summary-steps 10000\ --save-checkpoints-steps 100000\ --log-step-count-steps 10000