mdp是一个python库,用于通过将广泛使用的机器学习算法组合到管道和网络中来构建复杂的数据处理软件。

MD的Python项目详细描述


数据处理模块化工具包(mdp)包是一个库 广泛使用的数据处理算法,以及 将它们组合在一起形成管道,以构建更复杂的 数据处理软件。

mdp被设计成按原样使用和作为 科学数据处理发展。

从用户的角度来看,mdp包含一个units的集合, 哪个处理数据。例如,这些算法包括 有监督和无监督学习,校长和独立 成分分析和分类。

这些单元可以链接到数据处理流中,以创建 管道以及更复杂的前馈网络 建筑。给定一组输入数据,mdp负责训练 以正确的顺序执行网络中的所有节点 在节点之间传递中间数据。这允许用户 将复杂算法指定为一系列简单的数据处理 台阶。

可用算法的数量正在稳步增加,包括 信号处理方法(主成分分析,独立 组件分析、慢特征分析)、流形学习方法 ([Hessian]局部线性嵌入),几个分类器, 概率方法(因素分析,rbm),数据预处理 方法和许多其他方法。

已特别注意使计算在以下方面有效率 速度和记忆。为了减少内存占用,可以 使用成批数据执行学习。对于大型数据集,它是 也可以指定mdp应该使用单精度浮点 点数而不是双精度的。最后,计算 可以使用parallel子包进行并行化,该子包提供 基本节点和流程的并行实现。

从开发人员的角度来看,mdp是一个框架,它使 新的有监督和无监督学习算法的实现 简单明了。基本类Node处理乏味的 像数字类型和维度检查这样的任务,将 开发人员可以自由地专注于学习的实施 以及执行阶段。由于公共接口,节点 自动与库的其他部分集成,可以使用 与其他节点一起在网络中。

一个节点可以有多个训练阶段,甚至是一个待定的 阶段数。多个训练阶段意味着训练数据 对同一节点多次显示。这使得 需要收集一些统计信息的算法的实现 进行实际培训前的全部投入,以及其他 需要在训练阶段迭代直到收敛 符合标准。可以使用 输入数据的块(如果块被指定为iterable)。而且, 可以选择启用崩溃恢复,这将保存 故障情况下的流程,以便日后检查。

mdp是在开源bsd许可下发布的。一直以来 写在神经科学理论研究的背景下,但是 在任何可训练数据的情况下都是有用的 使用处理算法。它在用户方面很简单, 各种现成的算法,以及 实现的节点也使它成为一个有用的教育工具。

http://mdp-toolkit.sourceforge.net

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java泛型重写抽象方法并具有子类的返回类型   Java中的字符串反转字符,同时保留一些字符   java将系统时间与我获取它的时间进行比较   java解析ODATA URL以在准备entityset之前读取ID值   java中的有界通配符下界泛型即使在传递超类时也不会编译   c#Java的JVM和Java的内部工作方式有什么不同。NET的CLR?   java如何在windows7上指定JDK的版本?   Java:列出单个目录中的所有文件(1020000+)   java使用Logback和Lombok   安卓谷歌玩java。lang.NullPointerException   使用RSA的解密结果在普通Java和Android中有所不同   具有默认连接池的java Spring引导   java我如何在一个坏的测试环境中前进?