查找和选择pandas DataFram中列的最频繁数据

file['DirViento'] Fecha 2011-01-01 ENE 2011-01-02 ENE 2011-01-03 ENE 2011-01-04 NNE 2011-01-05 ENE 2011-01-06 ENE 2011-01-07 ENE 2011-01-08 ENE 2011-01-09 NNE 2011-01-10 ENE 2011-01-11 ENE 2011-01-12 ENE 2011-01-13 ESE 2011-01-14 ENE 2011-01-15 ENE ... 2011-12-17 ENE 2011-12-18 ENE 2011-12-19 ENE 2011-12-20 ENE 2011-12-21 ENE 2011-12-22 ENE 2011-12-23 ENE 2011-12-24 ENE 2011-12-25 ENE 2011-12-26 ESE 2011-12-27 ENE 2011-12-28 NE 2011-12-29 ENE 2011-12-30 NNE 2011-12-31 ENE Name: DirViento, Length: 290, dtype: object

file['DirViento'].groupby(lambda x: x.month).value_counts() 1 ENE 23 NNE 6 E 1 ESE 1 2 ENE 21 NNO 3 NNE 2 NE 1 3 ENE 21 OSO 1 ESE 1 SSE 1 4 ENE 21 NNE 2 ESE 1 NNO 1 6 ENE 15 ESE 2 SSE 2 ONO 1 E 1 7 ENE 22 ONO 1 OSO 1 NE 1 NNE 1 NNO 1 8 ENE 23 NNE 5 NE 1 ONO 1 ESE 1 9 ENE 17 NNE 7 ONO 2 NE 1 E 1 ESE 1 NNO 1 10 ENE 16 NNE 2 ESE 2 NNO 2 ONO 1 NE 1 E 1 11 ENE 13 NNE 2 ESE 2 ONO 1 12 ENE 26 NNE 3 NE 1 ESE 1 Length: 54, dtype: int64

3条回答

网友

1楼 · 编辑于 2024-05-16 05:18:02

这并不像它可能（应该）那么简单。

正如您可能知道的，统计术语中最常用的值是“mode”，Numpy没有内置的函数，但是scipy有。按如下方式导入：

from scipy.stats.mstats import mode

它不仅仅返回最常见的值as you can read about in the docs，因此定义一个函数很方便，它使用mode来获得最常见的值。

f = lambda x: mode(x, axis=None)[0]

现在，不要使用value_counts()，而是使用apply(f)。下面是一个例子：

In [20]: DataFrame([1,1,2,2,2,3], index=[1,1,1,2,2,2]).groupby(level=0).apply(f)
Out[20]: 
1    1.0
2    2.0
dtype: object

更新：Scipy的mode不适用于字符串。对于字符串数据，需要定义一个更通用的模式函数。This answer应该能做到。

网友

2楼 · 编辑于 2024-05-16 05:18:02

Pandas 0.15.2有一个DataFrame.mode()方法。这对像我这样的人来说可能是有用的。

这是the docs。

编辑：对于值：

DataFrame.mode()[0]

网友

3楼 · 编辑于 2024-05-16 05:18:02

对于整个数据帧，您可以使用：
```
dataframe.mode()
```
对于特定列：
```
dataframe.mode()['Column'][0]
```

第二种情况在估算价值时更有用。

相关问题更多 >

编程相关推荐

热门问题

热门文章