<p>由于您似乎没有考虑特定的分布,但您可能有很多数据样本,我建议使用非参数密度估计方法。您描述的数据类型之一(时间单位为毫秒)显然是连续的,用于连续随机变量概率密度函数(PDF)的非参数估计的一种方法是您已经提到的直方图。但是,正如您将在下面看到的,<a href="https://en.wikipedia.org/wiki/Kernel_density_estimation" rel="noreferrer">Kernel Density Estimation (KDE)</a>可能更好。您描述的第二类数据(序列中的字符数)是离散类型的。在这里,核密度估计也很有用,可以看作是一种平滑技术,适用于没有足够数量的样本来处理离散变量的所有值的情况。</p>
<h2>估计密度</h2>
<p>下面的示例演示如何首先从2个高斯分布的混合中生成数据样本,然后应用核密度估计来查找概率密度函数:</p>
<pre><code>import numpy as np
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
from sklearn.neighbors import KernelDensity
# Generate random samples from a mixture of 2 Gaussians
# with modes at 5 and 10
data = np.concatenate((5 + np.random.randn(10, 1),
10 + np.random.randn(30, 1)))
# Plot the true distribution
x = np.linspace(0, 16, 1000)[:, np.newaxis]
norm_vals = mlab.normpdf(x, 5, 1) * 0.25 + mlab.normpdf(x, 10, 1) * 0.75
plt.plot(x, norm_vals)
# Plot the data using a normalized histogram
plt.hist(data, 50, normed=True)
# Do kernel density estimation
kd = KernelDensity(kernel='gaussian', bandwidth=0.75).fit(data)
# Plot the estimated densty
kd_vals = np.exp(kd.score_samples(x))
plt.plot(x, kd_vals)
# Show the plots
plt.show()
</code></pre>
<p>这将生成以下绘图,其中真实分布显示为蓝色,直方图显示为绿色,使用KDE估计的PDF显示为红色:</p>
<p><a href="https://i.stack.imgur.com/OIlKy.png" rel="noreferrer"><img src="https://i.stack.imgur.com/OIlKy.png" alt="Plot"/></a></p>
<p>如您所见,在这种情况下,由直方图近似的PDF不是很有用,而KDE提供了更好的估计。然而,对于大量的数据样本和适当的仓位大小选择,直方图也可能产生一个很好的估计。</p>
<p>在KDE情况下可以调整的参数是<em>内核</em>和<em>带宽</em>。可以将内核看作是估计PDF的构建块,Scikit Learn中提供了几个内核函数:gaussian、tophat、epanechnikov、exponential、linear、cosine。改变带宽允许您调整偏差-方差权衡。较大的带宽将导致增加的偏差,这是好的,如果你有较少的数据样本。带宽越小,方差越大(估计中包含的样本越少),但如果有更多的样本可用,则估计效果越好。</p>
<h2>计算概率</h2>
<p>对于PDF,概率是通过计算一系列值上的积分得到的。正如您所注意到的,这将导致特定值的概率为0。</p>
<p>Scikit Learn似乎没有用于计算概率的内置函数。然而,很容易估计PDF在一个范围内的积分。我们可以在这个范围内对PDF进行多次求值,并将得到的值乘以每个求值点之间的步长。在下面的示例中,通过步骤<code>step</code>获得<code>N</code>样本。</p>
<pre><code># Get probability for range of values
start = 5 # Start of the range
end = 6 # End of the range
N = 100 # Number of evaluation points
step = (end - start) / (N - 1) # Step size
x = np.linspace(start, end, N)[:, np.newaxis] # Generate values in the range
kd_vals = np.exp(kd.score_samples(x)) # Get PDF values for each x
probability = np.sum(kd_vals * step) # Approximate the integral of the PDF
print(probability)
</code></pre>
<p>请注意,<code>kd.score_samples</code>生成数据样本的对数似然性。因此,需要<code>np.exp</code>来获得可能性。</p>
<p>同样的计算也可以使用内置的SciPy积分方法进行,这样会得到更精确的结果:</p>
<pre><code>from scipy.integrate import quad
probability = quad(lambda x: np.exp(kd.score_samples(x)), start, end)[0]
</code></pre>
<p>例如,对于一次运行,第一个方法将概率计算为<code>0.0859024655305</code>,而第二个方法生成<code>0.0850974209996139</code>。</p>