擅长:python、mysql、java
<p><strong>其他指标</strong></p>
<ol>
<li><p>肘部法:计算每个K的解释方差百分比,然后选择曲线图开始平缓的K。(这里有一个很好的描述<a href="https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set" rel="nofollow noreferrer">https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set</a>)。显然,如果你有k==数据点的数量,你可以解释100%的方差。问题是,解释的方差改进从哪里开始趋于平稳。</p></li>
<li><p>信息论:如果你能计算出一个给定K的可能性,那么你可以使用AIC,AICc,或BIC(或任何其他信息论方法)。E、 对于AICc,它只是平衡了当你增加K时可能性的增加和你需要的参数数量的增加。实际上,你所要做的就是选择最小化AICc的K。</p></li>
<li><p>通过运行其他方法(比如DBSCAN),您可能会对大致合适的K有一种感觉,这些方法可以为您提供集群数量的估计值。虽然我还没有看到用这种方法来估计K,而且像这样依赖它可能是不可取的。但是,如果DBSCAN在这里也给了您少量的集群,那么您的数据可能有一些您可能不欣赏的地方(即,没有您期望的集群那么多)。</p></li>
</ol>
<p><strong>取样量</strong></p>
<p>看起来你已经从你的情节中回答了这个问题:无论你的样本是什么,你在剪影得分上得到的模式都是一样的。因此,这种模式对抽样假设似乎非常稳健。</p>