基于计数的分布语义模型生成
counterix的Python项目详细描述
计数器
一个生成基于计数的PPMI加权SVD分布语义模型的小工具箱。在
安装
pip install counterix
或者,在git克隆之后:
^{pr2}$使用
生成
要从标记化的语料库生成原始计数矩阵,请运行:
counterix generate \ --corpus /abs/path/to/corpus/txt/file \ --min-count frequency_threshold \ --win-size window_size
如果没有设置--output
参数,输出文件将保存到corpus目录中。在
重量
要使用PPMI对原始计数模型进行称重,请运行:
counterix weigh --model /abs/path/to/raw/count/npz/model
SVD
要在PPMI加权模型上应用SVD,k=10000,请运行:
counterix svd \
--model /abs/path/to/ppmi/npz/model \
--dim singular_vectors_final_dim
要控制SVD期间使用的线程数,请使用env OMP_NUM_THREADS=1
运行counterix
- 项目
标签: