Orange2.7数据挖掘软件包的可文本加载项。
Orange-Textable的Python项目详细描述
orange textable是一个开源插件,提供高级文本分析功能 Orange Canvas数据挖掘的功能 软件包(本身是开源的)。它本质上允许用户构建 数据表在文本数据的基础上,通过灵活直观 接口请看下面的example以查看 典型的动作
橙色文本框特别提供以下功能:
- 从键盘、文件或url导入文本数据
- 支持各种编码,包括Unicode
- 标准预处理和自定义重新编码(基于正则表达式)
- 各种文本单元(字母、单词等)的分割和注释
- 能够提取和利用XML编码的注释
- 自动、随机或任意选择单位子集
- 使用一致性和搭配表的单元上下文检查 频率和复杂性测度的计算< < /LI>
- 重编码文本数据和表导出
这个项目的主页是http://langtech.ch/textable
文档位于:http://orange-textable.readthedocs.org/
Orange Textable是由LangTech Sarl代表department of language and information sciences (SLI)在University of Lausanne设计和实现的(参见CreditsHow to cite Orange Textable)