从文档集合中自动提取关键字

Distiller的Python项目详细描述


蒸馏器
==


格式。



要求
----


Distiller使用[自然语言工具包](http://www.nltk.org/)


>您需要下载两个NLtk包:

>;>;导入NLtk
>;>;nltk.downloader()
downloader>;d
下载哪个包(l=list;x=cancel)?
identifier>;maxent_treebank_pos_tagger
downloader>;d
下载哪个包(l=list;x=cancel)?
identifier>;stopwords




installation
----






-


>;distiller.distiller import distiller
>;Distiller=Distiller(数据、目标、选项)



参数
——


\data


json格式的文档集合所在文件的路径。

{
“元数据”:{
“基本URL”:“文档的源URL(如果有)

'文档':[
{
'id':'文档的唯一标识符(如果有的话)',
'正文':'单个文本块中的整个文档正文。',
},…
]
}


文档。

三元组:文档中单词三元组的列表及其被检测为密钥对的频率。

docmap:文档ID到其各自关键字n-grams的映射,以及其他统计信息。

keymap:关键字到它们出现在文档中的文档的映射。



#预处理期间的词干标记
“lemmatize”:false,
“tfidf_cutoff”:0.001,
用于术语freq/doc freq score的截止值
“pos_list”:[“nn”,“nnp”],
“pos white list”用于筛选候选人从候选项中筛选出
}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
无JPA的纯Hibernate ORM java SpringBoot配置   安卓会生成一组唯一的java数字   java我的自定义阵列列表每次启动时都会崩溃我不确定为什么会一直崩溃   Java继承;将子类传递给超类的抽象方法   java从没有if语句的数组中获取instanceof type   java中使用对象的温度转换   存储库接口的JavaSpringDataMongoDBeanXML配置   java JAXWS为iBM websphere、iBM web服务客户端添加寻址   数组试图返回Java中两个对象的面积之和   apache Spark java:columnNameOfCorruptRecord和badRecordsPath在加载csv时不工作   java无法创建。txt文件   java Hibernate与MySQL插入查询不一致   不考虑java Hazelcast分布式地图的最大大小   bash Java如何在父进程中设置环境变量