Python中的plyr或dplyr

网友

1楼 · 编辑于 2024-04-25 13:34:17

可以简单地使用Python中的dplyr。

rpy2（随rpy2-2.7.0一起引入）中有一个到dplyr的接口，允许您编写如下内容：

dataf = (DataFrame(mtcars).
         filter('gear>3').
         mutate(powertoweight='hp*36/wt').
         group_by('gear').
         summarize(mean_ptw='mean(powertoweight)'))

有一个example in the documentation。医生的这部分也是一本笔记本。查找页面顶部附近的链接。

这个问题的另一个答案是比较R的dplyr和pandas（见@lgallen）。在rpy2与dplyr的接口中，相同的R-one-liner-chaining dplyr语句所写的基本相同。

R:

flights %>%
   group_by(year, month, day) %>%
   select(arr_delay, dep_delay) %>%
   summarise(
      arr = mean(arr_delay, na.rm = TRUE),
      dep = mean(dep_delay, na.rm = TRUE)
      ) %>%
   filter(arr > 30 | dep > 30)

Python+rpy2:

(DataFrame(flights).
 group_by('year', 'month', 'day').
 select('arr_delay', 'dep_delay').
 summarize(arr = 'mean(arr_delay, na.rm=TRUE)',
           dep = 'mean(dep_delay, na.rm=TRUE)').
 filter('arr > 30 | dep > 30'))

网友

2楼 · 编辑于 2024-04-25 13:34:17

我也是R的dplyr的忠实粉丝，我正在努力提高我对熊猫的认识。既然你没有什么特别的问题，我建议你看看下面的帖子，它分解了整个介绍性的dplyr小插曲，并展示了如何利用熊猫完成所有这些。

例如，作者演示了在R中使用管道运算符链接：

 flights %>%
   group_by(year, month, day) %>%
   select(arr_delay, dep_delay) %>%
   summarise(
      arr = mean(arr_delay, na.rm = TRUE),
      dep = mean(dep_delay, na.rm = TRUE)
       ) %>%
   filter(arr > 30 | dep > 30)

以下是熊猫的实施：

flights.groupby(['year', 'month', 'day'])
   [['arr_delay', 'dep_delay']]
   .mean()
   .query('arr_delay > 30 | dep_delay > 30')

关于如何在原来的岗位上与熊猫实施类似dplyr的操作还有很多比较。 http://nbviewer.ipython.org/gist/TomAugspurger/6e052140eaa5fdb6e8c0

网友

3楼 · 编辑于 2024-04-25 13:34:17

我认为您正在寻找agg function，它应用于groupby对象。

从文档中：

In [48]: grouped = df.groupby('A')

In [49]: grouped['C'].agg([np.sum, np.mean, np.std])
Out[49]: 
          sum      mean       std
A                                
bar  0.443469  0.147823  0.301765
foo  2.529056  0.505811  0.96

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中的plyr或dplyr

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >