在Python中，如何计算给定分布示例列表的值的概率？问题的回答

在Python中，如何计算给定分布示例列表的值的概率？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

由于您似乎没有考虑特定的分布，但您可能有很多数据样本，我建议使用非参数密度估计方法。您描述的数据类型之一（时间单位为毫秒）显然是连续的，用于连续随机变量概率密度函数（PDF）的非参数估计的一种方法是您已经提到的直方图。但是，正如您将在下面看到的，<a href="https://en.wikipedia.org/wiki/Kernel_density_estimation" rel="noreferrer">Kernel Density Estimation (KDE)</a>可能更好。您描述的第二类数据（序列中的字符数）是离散类型的。在这里，核密度估计也很有用，可以看作是一种平滑技术，适用于没有足够数量的样本来处理离散变量的所有值的情况。 <h2>估计密度</h2> 下面的示例演示如何首先从2个高斯分布的混合中生成数据样本，然后应用核密度估计来查找概率密度函数： <pre><code>import numpy as np import matplotlib.pyplot as plt import matplotlib.mlab as mlab from sklearn.neighbors import KernelDensity # Generate random samples from a mixture of 2 Gaussians # with modes at 5 and 10 data = np.concatenate((5 + np.random.randn(10, 1), 10 + np.random.randn(30, 1))) # Plot the true distribution x = np.linspace(0, 16, 1000)[:, np.newaxis] norm_vals = mlab.normpdf(x, 5, 1) * 0.25 + mlab.normpdf(x, 10, 1) * 0.75 plt.plot(x, norm_vals) # Plot the data using a normalized histogram plt.hist(data, 50, normed=True) # Do kernel density estimation kd = KernelDensity(kernel='gaussian', bandwidth=0.75).fit(data) # Plot the estimated densty kd_vals = np.exp(kd.score_samples(x)) plt.plot(x, kd_vals) # Show the plots plt.show() </code></pre> 这将生成以下绘图，其中真实分布显示为蓝色，直方图显示为绿色，使用KDE估计的PDF显示为红色： <a href="https://i.stack.imgur.com/OIlKy.png" rel="noreferrer"><img src="https://i.stack.imgur.com/OIlKy.png" alt="Plot"/></a> 如您所见，在这种情况下，由直方图近似的PDF不是很有用，而KDE提供了更好的估计。然而，对于大量的数据样本和适当的仓位大小选择，直方图也可能产生一个很好的估计。 在KDE情况下可以调整的参数是内核和带宽。可以将内核看作是估计PDF的构建块，Scikit Learn中提供了几个内核函数：gaussian、tophat、epanechnikov、exponential、linear、cosine。改变带宽允许您调整偏差-方差权衡。较大的带宽将导致增加的偏差，这是好的，如果你有较少的数据样本。带宽越小，方差越大（估计中包含的样本越少），但如果有更多的样本可用，则估计效果越好。 <h2>计算概率</h2> 对于PDF，概率是通过计算一系列值上的积分得到的。正如您所注意到的，这将导致特定值的概率为0。 Scikit Learn似乎没有用于计算概率的内置函数。然而，很容易估计PDF在一个范围内的积分。我们可以在这个范围内对PDF进行多次求值，并将得到的值乘以每个求值点之间的步长。在下面的示例中，通过步骤<code>step</code>获得<code>N</code>样本。 <pre><code># Get probability for range of values start = 5 # Start of the range end = 6 # End of the range N = 100 # Number of evaluation points step = (end - start) / (N - 1) # Step size x = np.linspace(start, end, N)[:, np.newaxis] # Generate values in the range kd_vals = np.exp(kd.score_samples(x)) # Get PDF values for each x probability = np.sum(kd_vals * step) # Approximate the integral of the PDF print(probability) </code></pre> 请注意，<code>kd.score_samples</code>生成数据样本的对数似然性。因此，需要<code>np.exp</code>来获得可能性。 同样的计算也可以使用内置的SciPy积分方法进行，这样会得到更精确的结果： <pre><code>from scipy.integrate import quad probability = quad(lambda x: np.exp(kd.score_samples(x)), start, end)[0] </code></pre> 例如，对于一次运行，第一个方法将概率计算为<code>0.0859024655305</code>，而第二个方法生成<code>0.0850974209996139</code>。

在Python中，如何计算给定分布示例列表的值的概率？

1 个回答

相关Python问题