擅长:python、mysql、java
<p>我的包<a href="http://luispedro.org/software/milk" rel="nofollow" title="milk homepage">milk</a>很容易处理此问题:</p>
<pre><code>import milk
import numpy as np
data = np.random.rand(50000,7)
%timeit milk.kmeans(data, 300)
1 loops, best of 3: 14.3 s per loop
</code></pre>
<p>我想知道你是否打算写50万个数据点,因为5万个数据点并不是那么多。如果是这样的话,milk需要更长的时间(大约700秒),但是仍然可以很好地处理它,因为它不会分配除数据和质心之外的任何内存。</p>