用于预处理的库。
cophi的Python项目详细描述
用于处理文本数据的库
cophi
是一个用于处理、建模和处理文本语料库的python库。您可以使用高级api轻松地对文本文件集合进行管道传输:
corpus,metadata=cophi.corpus(directory="british-fiction-corpus",filepath_pattern="**/*.txt",encoding="utf-8",lowercase=True,token_pattern=r"\p{L}+\p{P}?\p{L}+")
您还可以将DARIAH-DKPro-Wrapper插入此管道以对文本进行元素化,或者只保留某些单词类型
Check out the introducing Jupyter notebook.
开始
要安装最新的stable版本:
$ pip install cophi
要安装最新的development版本:
$ pip install --upgrade git+https://github.com/cophi-wue/cophi-toolbox.git@testing
< H2>可用复杂性测度
(p)也有许多复杂的度量来衡量(文学)文本的词汇丰富度。使用样本大小和词汇大小的度量:
- 类型令牌比率ttr
- 吉劳德的R
- 赫丹的C
- 杜加斯特的k
- MAAS'A2
- 杜加斯特的u
- 图尔达瓦在
- 深色的w
- 卡罗尔的CTTR
- 夏天的
使用部分频谱的测量:
- 荣誉勋章h
- 西切尔的
- 米夏的m
使用整个频谱的测量:
- 熵s
- 尤尔的K
- 辛普森的D
- 赫丹的vm
概率模型参数:
- 奥洛夫z