从文档集合中自动提取关键字

Distiller的Python项目详细描述


蒸馏器
==


格式。



要求
----


Distiller使用[自然语言工具包](http://www.nltk.org/)


>您需要下载两个NLtk包:

>;>;导入NLtk
>;>;nltk.downloader()
downloader>;d
下载哪个包(l=list;x=cancel)?
identifier>;maxent_treebank_pos_tagger
downloader>;d
下载哪个包(l=list;x=cancel)?
identifier>;stopwords




installation
----






-


>;distiller.distiller import distiller
>;Distiller=Distiller(数据、目标、选项)



参数
——


\data


json格式的文档集合所在文件的路径。

{
“元数据”:{
“基本URL”:“文档的源URL(如果有)

'文档':[
{
'id':'文档的唯一标识符(如果有的话)',
'正文':'单个文本块中的整个文档正文。',
},…
]
}


文档。

三元组:文档中单词三元组的列表及其被检测为密钥对的频率。

docmap:文档ID到其各自关键字n-grams的映射,以及其他统计信息。

keymap:关键字到它们出现在文档中的文档的映射。



#预处理期间的词干标记
“lemmatize”:false,
“tfidf_cutoff”:0.001,
用于术语freq/doc freq score的截止值
“pos_list”:[“nn”,“nnp”],
“pos white list”用于筛选候选人从候选项中筛选出
}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java泛型重写抽象方法并具有子类的返回类型   Java中的字符串反转字符,同时保留一些字符   java将系统时间与我获取它的时间进行比较   java解析ODATA URL以在准备entityset之前读取ID值   java中的有界通配符下界泛型即使在传递超类时也不会编译   c#Java的JVM和Java的内部工作方式有什么不同。NET的CLR?   java如何在windows7上指定JDK的版本?   Java:列出单个目录中的所有文件(1020000+)   java使用Logback和Lombok   安卓谷歌玩java。lang.NullPointerException   使用RSA的解密结果在普通Java和Android中有所不同   具有默认连接池的java Spring引导   java我如何在一个坏的测试环境中前进?