一个非分布式的基于numpy的分析模块,主要负责处理、分组和过滤来自不同来源的数据。bops还具有map reduce功能。

bops的Python项目详细描述


bops是一个基于numpy的分析模块,主要关注操作、分组和 过滤来自不同来源的数据。bops还具有map reduce功能。 虽然有些数据集需要分布式map reduce作业,但是 作者的观点是大多数人没有。防喷器在 不牺牲速度或简单性的数据分组。

bops与numpy紧密集成,生成一个非常快速的分析包。 该模块有一个主要的数据处理类,称为“bop”。波普斯是 最初以“布尔操作”命名。这个模块已经大大扩展了 在初始过滤之上包括map reduce和数据分组 能力。

bops希望初始化时使用二维数据结构以及 数据的属性(即列名)。数据包含在 一个“bop”,它可以被过滤(“select”功能),分组在 多列('groupby'函数)和排序('orderby'函数)。

“选择”功能允许您对数据的多个方面进行筛选 通过操作numpy布尔数组。“groupby”函数可以将数据分组到 相似的属性。但是,与sql中的“group by”函数不同, bops“”groupby“”函数返回在组中找到的数据以及 组的唯一标识符。在这些函数之上,bop还包含 sort函数,称为“orderby”,它允许程序员对数据进行排序 在多个列上。

这些函数在数据分析中提供了巨大的能力,主要是通过分组 多个属性上的数据,然后返回要操作的结果。这个 强度被添加的map reduce功能放大。map函数 允许程序员基于自定义逻辑聚合数据。一个简单的例子 将按性别和年龄(30岁,40岁,…)分组 数据集中的行。reduce函数将在找到的每个组上运行 地图功能。使用相同的示例,可以使用内置的len或sum python中的函数作为reduce函数生成性别直方图 以及年龄组。

给予程序员能力并消除限制是bop的目标 以帮助数据分析。

更改v0.4.1-0.5

  • Added aliases:
  • float: np.float_
  • int: np.int_
  • bool: np.bool_
  • str: np.str_
  • unicode: np.unicode_
  • complex: np.complex_
  • 将“mapreduce”和“mapreducebatch”函数的默认expand选项更改为true。这是为了符合groupby函数,以便expand选项在模块中匹配。

邮件列表

已创建邮件列表以支持使用此模块。你可以加入 接着讨论Google groups。这里可以讨论任何错误、问题和增强。

bops的目标是成为一流的数据分析模块,但只有在您的帮助下,这个模块才能真正成为伟大的。请加入讨论。欢迎您的输入以及任何建议的功能、补丁或修复。

google代码

该模块现在位于google代码:http://code.google.com/p/bops/

可以在那里提交问题、bug和建议的增强。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何下载多个。java中的PDF文件   linux Java打开文件,形成实际用户主页~/   java如何在时间线内维护TableView选择?   java Hibernate注释@Where vs@WhereJoinTable   Java读/写访问异常FileNotFoundException(访问被拒绝)   继承在Java中是否可以扩展最后一个类?   Android HttpClient使用java使应用程序崩溃。lang.OutOfMemoryError:pthread_create   java为什么即使我在proguardproject中添加了jar文件,也会出现这种错误。txt?   如果添加JButton,swing Java FocusListener和KeyListener将无法工作   java使用solrj检索json格式的SolrDocument   使用Microsoft Visual Studio代码进行Java编程   java NoClassDefFoundError:org/apache/log4j/Logger   哈希集中包含相等对象的java   java中的参数化构造函数是否需要有一个主体?   java类似于NetBeans不必要的代码检测器   Java实践问题   java Blackberry“[projectname].调试文件丢失”和“I/O错误:找不到程序”jar