未提供项目说明

lda-classification的Python项目详细描述


lda_分类

用scikit-learn兼容的包装器立即训练一个LDA模型。在

  • 预处理文档
  • 训练LDA
  • 评估你的LDA模型
  • 提取文档向量
  • 选择信息最丰富的功能
  • 把你的文件分类

只需几行代码,就可以完全兼容sklearn的Transformer API。在


安装:

如果要通过Pypi安装,请使用以下命令:

pip install lda_classification

如果要从源文件安装:

git clone https://github.com/FeryET/lda_classification.git
cd lda_classification/
python setup.py install

要求:

^{pr2}$
可选:

如果您想使用这个包自动选择特性,还可以安装xgboost来使用util类。在

xgboost == 1.1.1 (Optional)

示例:

fromlda_classification.modelimportGensimLDAVectorizerfromlda_classification.preprocessimportSpacyCleanerfromlda_classification.utilsimportXGBoostFeatureSelector# docs, labels = FETCH YOUR DATASET # y = ENCODED_LABELSdocs=SpacyCleaner().transform(docs)X=GensimLDAVectorizer(200,return_dense=False).fit_transform(docs)X_transform=XGBoostFeatureSelector().fit_transform(X,y)

还有一个dataloader类和BaseData类 以便自动从磁盘读取数据文件。延伸 BaseData并在子类和 将其输入DataReader,以简化数据集的获取。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java与Groovy正则表达式匹配混淆   java控制台未定义为JSNI   主目录中的java指针异常   java如何获取hashmap中的arrayList的大小   ApachePOI用于文本,Java代码中的word doc(.docx)中没有进行追加   Ruby对象到Java对象   JavaSpringJPA哈希集只返回一个值   Java在执行由配置了精确类路径参数的mavenjarpluin生成的可执行jar时无法找到依赖项   java我试图在画布上写一个文本,但什么也没发生   java HTTP 404源服务器找不到目标资源的当前表示形式,或者不愿意透露存在该表示形式。不起作用   java提取小数点后的最后一个数字   oop Java:无法访问对象的元素   PHP URL中RecyclerView中的java句柄空异常   不调用OnCreateViewHolder的java Update RecyclerView适配器项