了解不同类型语料库的语言特点
adaptationism的Python项目详细描述
###上次更新时间:2018年7月1日 #适应性定义为…
“现在普遍认为有机体的每一个特征都是进化适应某一特定功能的结果的信念或假设。”(p)
我们对语言的使用没有什么不同。我们不断发展自己的特定群体语言(以及学习其他群体和个人的语言),发展的催化剂根植于他们所服务的功能。
- 与任何学术研究一样,我从维基百科上获取的这篇文章定义了改编的特性,包括:
- 这个特征是早期形态的变异。
- 这种特性是通过基因的传递而遗传的。
- 这种特性提高了繁殖的成功率。
- 我将对这个想法进行的最后一个比喻性的比较是,和上面所有的一样,语言(和语言的特征):
- 可以从更广泛的父语言的变体中派生出来,
- 是通过我们所参与的群体、社区和经历而遗传的,并且
- 该特性通过语言增强了实现描述性和/或可操作结果的成功性。
##那么这个包裹实际上是为了……?*
- “适应性”旨在帮助回答以下三个问题:
- 使用语言描述旅程或体验的特征,
- 语言的使用与另一组、更广泛的(父)组或同一组的子集的区别,最后,
- 在某些事件后更改其语言的使用。
我希望通过开发这个包来填补的空白不是只是一组工具,而是一个解释和操作框架。
##你的路线图是什么?
- 我对这个包的路线图是一个金字塔(3层)结构,从:
- (级别1)单词和短语的描述性特征,to…
- (2级)元语言相关特征(即词性、极性、词性模式、命名实体等)的分析和描述,最后
- (级别3)文本的描述性统计(字长、语句长度、语料库长度、平均长度等)。
- 我主要花时间分析注释…此包可以分析的[corpora](https://wiki.apache.org/spamassassin/PluralOfCorpus)类型包括:
- 评论
- 聊天/文本对话
- 书籍
- 演讲
对于不同类型的语料库的完整列表,[请查看](https://weblearn.ox.ac.uk/access/content/group/3a217dfd-a8cd-4034-8564-c27a58f89b9b/Handouts/CorpusTypes.pdf)。
我是怎么想到这个主意的
这个包有一些来源…主要来自NLTK上未应答的堆栈溢出帖子。当我继续添加到我自己的路线图中时,我将添加从中获得灵感的so帖子集。
- 当前TA问题列表: