用于预处理的库。

cophi的Python项目详细描述


用于处理文本数据的库

cophi是一个用于处理、建模和处理文本语料库的python库。您可以使用高级api轻松地对文本文件集合进行管道传输:

corpus,metadata=cophi.corpus(directory="british-fiction-corpus",filepath_pattern="**/*.txt",encoding="utf-8",lowercase=True,token_pattern=r"\p{L}+\p{P}?\p{L}+")

您还可以将DARIAH-DKPro-Wrapper插入此管道以对文本进行元素化,或者只保留某些单词类型

Check out the introducing Jupyter notebook.

开始

要安装最新的stable版本:

$ pip install cophi

要安装最新的development版本:

$ pip install --upgrade git+https://github.com/cophi-wue/cophi-toolbox.git@testing
< H2>可用复杂性测度 (p)也有许多复杂的度量来衡量(文学)文本的词汇丰富度。

使用样本大小和词汇大小的度量:

  • 类型令牌比率ttr
  • 吉劳德的R
  • 赫丹的C
  • 杜加斯特的k
  • MAAS'A2
  • 杜加斯特的u
  • 图尔达瓦在
  • 深色的w
  • 卡罗尔的CTTR
  • 夏天的

使用部分频谱的测量:

  • 荣誉勋章h
  • 西切尔的
  • 米夏的m

使用整个频谱的测量:

  • 熵s
  • 尤尔的K
  • 辛普森的D
  • 赫丹的vm

概率模型参数:

  • 奥洛夫z

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java能否使用OpenJPA将一个实体持久化到多个持久化单元?   java如何访问当前按下的键   java singleton是否意味着哈希代码总是返回相同的值?   inputstream无法在Java中同时使用STDIN和STDERR读取程序输出   java运行时有多贵。getRuntime()与获取内存度量相结合   java AndroidStudio ListView适配器更新   java小程序请求未扩展实时会话   java是设置布尔值所必需的关键部分?   java比较两个字符串,并突出显示发现的不匹配项   java带抽屉布局,无论哪个屏幕处于活动状态,如何在按下后退键时关闭应用程序?   爪哇:颜色有什么区别。黑色和彩色。黑色   Velocity模板中子类的java访问方法   java如何快速学习Drools或其他规则引擎   从Java应用程序访问时缓存数据库查询结果   java cassandra nodetool JPLISAgent。c错误   java我正在解析一个没有pubDate的RSS提要,有没有其他方法可以确定一个项目是何时发布的?