使用gibbs采样执行潜在dirichlet分配的python库。
topic-modelling-tools-fast的Python项目详细描述
#主题建模工具 基于gibbs抽样的潜dirichlet分配主题建模。 这个版本的软件包使用GNU科学库来存储随机数 生成,提供比numpy更快的性能。
斯蒂芬·汉森,stephen.hansen@economics.ox.ac.uk 牛津大学经济学副教授
python/cython代码,用于清理文本并通过折叠gibbs采样估计lda,如griffiths和steyvers(2004)所述。
使用此库的教程脚本和笔记本,以及一些 示例数据,可在以下位置找到: https://github.com/sekhansen/text-mining-tutorial
##安装说明
这个版本的包要求gnu科学库(gsl)是 安装。您可以从ftp://ftp.gnu.org/gnu/gsl/或 对于使用自制程序的Mac OSX,可以执行brew安装gsl。如果你有康达, 请安装GSL。
(对于不需要gsl(但速度稍慢)的版本,请签出 此存储库的“master”分支,或pip install topic modeling tools)
如果您已经安装了gsl、python和pip,pip install topic-modeling-tools\u gsl 应该有用。该包依赖于其他一些python库,如 Numpy和NLTK,但这应该由PIP负责。
唯一的另一个要求是,需要构建一个C++编译器来构建这个程序集。 代码。对于MacOSX,您可以下载Xcode命令行工具, 而对于Windows,您可以下载VisualStudioC++编译器。