Orange 3数据挖掘软件包的可文本加载项。

Orange3-Textable的Python项目详细描述


textable是一个开源插件,提供高级文本分析功能 Orange Canvas数据挖掘的功能 软件包(本身是开源的)。请看下面的example以查看 典型的动作。

这个项目的网站是http://textable.io。它拥有一个 recipes帮助您开始 可发短信。

文档位于http://orange3-textable.readthedocs.io/和 您可以通过https://textable.freshdesk.com/或电子邮件获得进一步的支持 到support@textable.io

Orange Textable是由LangTech Sarl代表department of language and information sciences (SLI)University of Lausanne设计和实现的(参见CreditsHow to cite Orange Textable

功能

基本文本分析

  • 使用正则表达式分割字母、单词、句子等或全文查询
  • 使用正则表达式从许多输入格式中提取注释
  • 导入内嵌XML标记(例如TEI)
  • 根据用户定义的列表包括/排除段(停止列表)
  • 基于频率的滤波器段
  • 轻松生成随机文本样本

高级文本分析

  • 协调和搭配,也基于注释
  • 段分布、文档项矩阵、转换矩阵等
  • 同现表,也在不同类型的段之间
  • 通过treetagger进行元素化和词性标记
  • <>语言的复杂性度量,包括词的平均长度、词汇多样性等。
  • 许多先进的数据挖掘算法:聚类、分类、因子分析等。

文本重新编码

  • 支持Unicode的预处理功能,例如从古希腊语文本中删除重音符号
  • 使用regex重新编码和重构文本,例如将csv重写为xml

扩展性

  • 处理数百个文本文件
  • 使用python脚本进行自定义文本处理或访问外部工具:nltk、pattern、gensim等。

互操作性

  • 从键盘、文件或URL导入文本
  • 处理任何原始文本格式:txt、html、xml、csv等。
  • 支持多种文本编码,包括Unicode
  • 将结果导出为文本文件或复制粘贴
  • 轻松地与Orange的文本挖掘插件进行交互

方便访问

  • 用户友好的视觉界面
  • 一系列常用案例的现成配方
  • 大量文档
  • 支持和社区论坛

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Spring框架服务单元测试   在Java中遍历hashmaps的hashmap以检索字符串值   如何使用CodeQL检查Java注释是否具有特定属性?   java为什么在Spring Boot中访问此资源而不是登录弹出窗口需要始终获得完全身份验证   处理将多集计数转换为列表的过程   java另一个线性布局,没有出现按钮   eclipse Java映像加载未显示在jar中   java Junit类无法加载基本测试类ApplicationContext   java如何在main中使用my getvalues()方法打印列表   java Sonar,S128:切换案例应该以无条件的“中断”语句结束,而不是继续   java从socket读取字符串错误连接重置错误   java使用新数据刷新任意图表饼图   java通过异步运行lambda访问方法参数   java错误的结果一旦我处理try and catch