会话和文本摘要等模块
heidi的Python项目详细描述
用于对话和文本摘要等的python模块 令人兴奋的特点。
features由本模块提供:
- 文本分段使用:
- texttiling带block score
- texttiling和vocabulary简介
- 会话摘要使用:
- 簇秩
- 文本摘要使用:
- textrank
- 随机
安装
确保有Python2.7/3.3+和pip(Windows,Linux) 安装。简单运行(首选方式):
$ [sudo] pip install readless
或者对于开发中的最新版本:
$ [sudo] pip install git+git://github.com/adichat/read-less.git
无读api
您可以像在项目中使用库一样使用readless。
使用ClusterRank算法快速总结对话:
# -*- coding: utf8 -*-fromreadless.Summarizationimportclusterranksummarizer=clusterrank.ClusterRank()pathToFile="C:/conversation.in"summary=summarizer.summarizeFile(pathToFile)
用于使用文本平铺算法分割文本:
# -*- coding: utf8 -*-fromreadless.Segmentationimporttexttilingsegmentation=texttiling.TextTiling()pathToFile="C:/conversation.in"segmentedText=segmentation.segmentFile(pathToFile)
有关其他api功能的详细列表,请参见**ReadLess Documentation**。