工具、包装纸等…专注于文本处理的数据科学

rosetta的Python项目详细描述


rosetta
====


专注于文本处理的数据科学工具。

*专注于“中等数据”,即数据太大,不能适应内存,但太小,不需要使用集群。
*与现有的科学Python堆栈集成,以及选择外部工具。
BR/>实例
-
BR/> *参见“示例/目录”。
*这些[文档](http://pythonhosted.org/rosetta/examples)包含示例输出的绘图。



packages
--


对文件进行筛选(从stdin读取/写入stdout)。
*重点关注流处理和csv文件。


稀疏格式
*ML工具的帮助程序(例如,VowPal Wabbit、Gensim,等等…)
*其他通用实用工具

`工作流`
*高级包装器,它们帮助我们实现了工作流,并提供了代码使用的其他示例

`建模`
*通用ml建模实用工具

安装
----
请查看[rosettarepo][rosettarepo]的主分支。然后,(只要你有‘pip’)。


cd rosetta
make
make test

因此,您当然可以随时执行“pip uninstall”。

然后



pip-pip-install rosetta-x.x.x.tar.gz








/>35 35 35 35 35<<
















>开发
















一个[问题](https://github.com/columbia applied data science/rosetta/issues)

在做这个之前,阅读[contribution.md](contribution.md)

*catdoc*

测试
---
从基本repo目录'rosetta/`,您可以使用


make test


文档运行所有测试
---


发布文档位于[pypi]上(http://pythonhosted.org/rosetta)。这不是自动更新的。



history
----
*rosetta*指的是【rosetta stone】(http://en.wikipedia.org/wiki/rosetta嫒u stone),这是200多年前发现的古埃及石碑。这块石碑包含三种不同语言的碎片文本,揭示其含义被认为是我们理解古埃及文明的关键。我们希望这个项目能为个人提供必要的工具来处理和发掘当今不断增长的文本数据。

[rosettarepo]:https://github.com/columbia-applied-data-science/rosetta

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
IntelliJ中的java默认Maven项目结构不一致   java我希望链接(在帖子和页面上)在一些访问者加载时被自动点击   java如何使用单独的方法隐藏JButton并在新类中调用   java KStream leftJoin KStream具有相同的密钥   java图像在垂直滚动窗格视图端口中消失   java从指定的起始点开始以n的增量填充数组   java JLabel和JTextField不在swing表单中应用   java springboot mongo如果没有映像,请使用现有映像   类似C++映射的java容器   java如何在没有Valgrind错误的情况下调用JNI_CreateJavaVM?   java如何在安卓中运行后台服务   java onPostExecute不运行