如何估计密度函数并计算其峰值？

import pandas as pd import numpy as np import pylab as pl import scipy.stats df = pd.read_csv('D:\dataset.csv') pdf = scipy.stats.kde.gaussian_kde(df) x = np.linspace((df.min()-1),(df.max()+1), len(df)) y = pdf(x) pl.plot(x, y, color = 'r') pl.hist(data_column, normed= True) pl.show(block=True)

1条回答

网友

1楼 · 发布于 2024-05-23 06:13:51

我认为需要区分非参数密度（在scipy.stats.kde中实现的密度）和参数密度（在StackOverflow question中提到的密度）。要说明这两者之间的区别，请尝试以下代码。

import pandas as pd
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt

np.random.seed(0)
gaussian1 = -6 + 3 * np.random.randn(1700)
gaussian2 = 4 + 1.5 * np.random.randn(300)
gaussian_mixture = np.hstack([gaussian1, gaussian2])

df = pd.DataFrame(gaussian_mixture, columns=['data'])

# non-parametric pdf
nparam_density = stats.kde.gaussian_kde(df.values.ravel())
x = np.linspace(-20, 10, 200)
nparam_density = nparam_density(x)

# parametric fit: assume normal distribution
loc_param, scale_param = stats.norm.fit(df)
param_density = stats.norm.pdf(x, loc=loc_param, scale=scale_param)

fig, ax = plt.subplots(figsize=(10, 6))
ax.hist(df.values, bins=30, normed=True)
ax.plot(x, nparam_density, 'r-', label='non-parametric density (smoothed by Gaussian kernel)')
ax.plot(x, param_density, 'k--', label='parametric density')
ax.set_ylim([0, 0.15])
ax.legend(loc='best')

enter image description here

从图中，我们看到非参数密度只是直方图的一个平滑版本。在直方图中，对于一个特定的观察点，我们使用一个条来表示它（把所有概率质量放在那个单点上，{}，其他地方为零），而在非参数密度估计中，我们使用钟形曲线（高斯核）来表示那个点（分布在它的邻域上）。结果是一条平滑的密度曲线。这个内部高斯核与你对底层数据的分布假设无关。它的唯一目的是平滑。

为了得到非参数密度的模式，我们需要进行穷举搜索，因为密度不能保证具有单模式。如上面的例子所示，如果拟牛顿优化算法从[5,10]开始，它很可能以局部最优点而不是全局最优点结束。

# get mode: exhastive search
x[np.argsort(nparam_density)[-1]]

相关问题更多 >

编程相关推荐

热门问题

热门文章