树状图原型语篇生成器
DPD的Python项目详细描述
树状图原型语篇分析
根据[Harris,1954]和[Rubenstein and Goodenough,1965],自然语言中的单词是在语言环境(如句子、段落)中构造的,在这种情况下,具有相似含义的单词往往共享相似的上下文。这一假设被称为分布假设,它表明一个语料库通常由各种话语语境构成,每一个语境都是一组扩展的语言环境,传达相似/相关的概念和话题。尽管这一理论出现于1954年的语言学领域,但最近在许多其他领域,如认知科学(如[McDonald and Ramscar,2001])和自然语言处理(如[Mikolov et al.,2013a])受到了越来越多的关注。这个假设是我们方法的基本原则。我们的方法旨在将一个大的语料库建模为一组所谓的dp语篇,然后将它们作为典型的演讲进行研究。要做到这一点,核心步骤是建立一个共享相似的非草书上下文的单词群。这是通过字嵌入和子空间聚类实现的,但也可以使用其他数据挖掘技术。然后,采用层次聚类算法,将簇内词表示为树状图原型语篇(dp语篇)。最后,dp语篇表现出足够的可理解性,可以用charaudeau的方法进行研究,也可以用其他的语篇分析方法进行分析。
安装
安装生成器的最简单方法是使用python的包安装程序pip
。
键入命令:
pip install DPD
教程
查看jupyter笔记本教程tutorials/tutorial1.ipynb
了解基本用法说明
许可证
本项目属于GNU通用公共许可(2007年6月29日第3版)