未提供项目说明
lda-classification的Python项目详细描述
lda_分类
用scikit-learn兼容的包装器立即训练一个LDA模型。在
- 预处理文档
- 训练LDA
- 评估你的LDA模型
- 提取文档向量
- 选择信息最丰富的功能
- 把你的文件分类
只需几行代码,就可以完全兼容sklearn
的Transformer API。在
安装:
如果要通过Pypi安装,请使用以下命令:
pip install lda_classification
如果要从源文件安装:
git clone https://github.com/FeryET/lda_classification.git
cd lda_classification/
python setup.py install
要求:
^{pr2}$可选:
如果您想使用这个包自动选择特性,还可以安装xgboost
来使用util类。在
xgboost == 1.1.1 (Optional)
示例:
fromlda_classification.modelimportGensimLDAVectorizerfromlda_classification.preprocessimportSpacyCleanerfromlda_classification.utilsimportXGBoostFeatureSelector# docs, labels = FETCH YOUR DATASET # y = ENCODED_LABELSdocs=SpacyCleaner().transform(docs)X=GensimLDAVectorizer(200,return_dense=False).fit_transform(docs)X_transform=XGBoostFeatureSelector().fit_transform(X,y)
还有一个dataloader
类和BaseData
类
以便自动从磁盘读取数据文件。延伸
BaseData
并在子类和
将其输入DataReader
,以简化数据集的获取。在
- 项目
标签: