Orange 3数据挖掘软件包的可文本加载项。
Orange3-Textable的Python项目详细描述
textable是一个开源插件,提供高级文本分析功能 Orange Canvas数据挖掘的功能 软件包(本身是开源的)。请看下面的example以查看 典型的动作。
这个项目的网站是http://textable.io。它拥有一个 recipes帮助您开始 可发短信。
文档位于http://orange3-textable.readthedocs.io/和 您可以通过https://textable.freshdesk.com/或电子邮件获得进一步的支持 到support@textable.io
Orange Textable是由LangTech Sarl代表department of language and information sciences (SLI)在University of Lausanne设计和实现的(参见CreditsHow to cite Orange Textable)
功能
基本文本分析
- 使用正则表达式分割字母、单词、句子等或全文查询
- 使用正则表达式从许多输入格式中提取注释
- 导入内嵌XML标记(例如TEI)
- 根据用户定义的列表包括/排除段(停止列表)
- 基于频率的滤波器段
- 轻松生成随机文本样本
高级文本分析
- 协调和搭配,也基于注释
- 段分布、文档项矩阵、转换矩阵等
- 同现表,也在不同类型的段之间
- 通过treetagger进行元素化和词性标记 <>语言的复杂性度量,包括词的平均长度、词汇多样性等。
- 许多先进的数据挖掘算法:聚类、分类、因子分析等。
文本重新编码
- 支持Unicode的预处理功能,例如从古希腊语文本中删除重音符号
- 使用regex重新编码和重构文本,例如将csv重写为xml
扩展性
- 处理数百个文本文件
- 使用python脚本进行自定义文本处理或访问外部工具:nltk、pattern、gensim等。
互操作性
- 从键盘、文件或URL导入文本
- 处理任何原始文本格式:txt、html、xml、csv等。
- 支持多种文本编码,包括Unicode
- 将结果导出为文本文件或复制粘贴
- 轻松地与Orange的文本挖掘插件进行交互
方便访问
- 用户友好的视觉界面
- 一系列常用案例的现成配方
- 大量文档
- 支持和社区论坛