树状图原型语篇生成器

DPD的Python项目详细描述


树状图原型语篇分析

根据[Harris,1954]和[Rubenstein and Goodenough,1965],自然语言中的单词是在语言环境(如句子、段落)中构造的,在这种情况下,具有相似含义的单词往往共享相似的上下文。这一假设被称为分布假设,它表明一个语料库通常由各种话语语境构成,每一个语境都是一组扩展的语言环境,传达相似/相关的概念和话题。尽管这一理论出现于1954年的语言学领域,但最近在许多其他领域,如认知科学(如[McDonald and Ramscar,2001])和自然语言处理(如[Mikolov et al.,2013a])受到了越来越多的关注。这个假设是我们方法的基本原则。我们的方法旨在将一个大的语料库建模为一组所谓的dp语篇,然后将它们作为典型的演讲进行研究。要做到这一点,核心步骤是建立一个共享相似的非草书上下文的单词群。这是通过字嵌入和子空间聚类实现的,但也可以使用其他数据挖掘技术。然后,采用层次聚类算法,将簇内词表示为树状图原型语篇(dp语篇)。最后,dp语篇表现出足够的可理解性,可以用charaudeau的方法进行研究,也可以用其他的语篇分析方法进行分析。

安装

安装生成器的最简单方法是使用python的包安装程序pip。 键入命令:

pip install DPD

教程

查看jupyter笔记本教程tutorials/tutorial1.ipynb了解基本用法说明

许可证

本项目属于GNU通用公共许可(2007年6月29日第3版)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
orm如何在Java中实现规范化映射?   java以编程方式修改Xtext生成的Mwe2工作流   java正在覆盖外部文件中的现有数据,如何停止?   java在ANTLR BNF语法符号中epsilon的等价物是什么?   java如何使用Hibernate@Anyrelated注释?   代码生成生成java类并在运行时加载它   java Maven无法在本地jar文件中收集依赖项   java NetBeans IDE 8.2不显示错误消息   java Selenium web驱动程序找不到元素   java如何修复“拒绝访问属性”invoke“”的权限?   JavaApacheJClouds,从比日期更早的blob中删除blob的最佳方法   java如何比较和排序树集中的项目?   使用JavaSpring和无头/解耦CMS   java使用swagercodegen在不同的类中生成端点   Java外部Keylistener没有响应