Numpy、Pandas和Sklearn中的多维缩放拟合（值错误）

import numpy as np import pandas as pd from sklearn import manifold from sklearn.metrics import euclidean_distances seed = np.random.RandomState(seed=3) data = pd.read_csv('data/big-file.csv') # start small dont take all the data, # its about 200k records subset = data[:10000] similarities = euclidean_distances(subset) mds = manifold.MDS(n_components=2, max_iter=3000, eps=1e-9, random_state=seed, dissimilarity="precomputed", n_jobs=1) pos = mds.fit(similarities).embedding_

Traceback (most recent call last): File "demo/mds-demo.py", line 18, in <module> pos = mds.fit(similarities).embedding_ File "/Users/dwilliams/Desktop/Anaconda/lib/python2.7/site-packages/sklearn/manifold/mds.py", line 360, in fit self.fit_transform(X, init=init) File "/Users/dwilliams/Desktop/Anaconda/lib/python2.7/site-packages/sklearn/manifold/mds.py", line 395, in fit_transform eps=self.eps, random_state=self.random_state) File "/Users/dwilliams/Desktop/Anaconda/lib/python2.7/site-packages/sklearn/manifold/mds.py", line 242, in smacof eps=eps, random_state=random_state) File "/Users/dwilliams/Desktop/Anaconda/lib/python2.7/site-packages/sklearn/manifold/mds.py", line 73, in _smacof_single raise ValueError("similarities must be symmetric") ValueError: similarities must be symmetric

2条回答

网友

1楼 · 编辑于 2024-05-13 17:34:55

刚才也有同样的问题。另一个我认为更有效的解决方案是只计算上三角矩阵的距离，然后复制到下半部分。

可以使用scipy执行以下操作：

from scipy.spatial.distance import squareform,pdist                                                              
similarities = squareform(pdist(data,'speuclidean'))

网友

2楼 · 编辑于 2024-05-13 17:34:55

我遇到了同样的问题；结果发现，我的数据是一个np.float32数组，浮点精度降低导致距离矩阵不对称。在运行MDS之前，我将数据转换为np.float64来解决这个问题。

下面是一个使用随机数据来说明问题的示例：

import numpy as np
from sklearn.manifold import MDS
from sklearn.metrics import euclidean_distances
from sklearn.datasets import make_classification

data, labels = make_classification()
mds = MDS(n_components=2)

similarities = euclidean_distances(data.astype(np.float64))
print np.abs(similarities - similarities.T).max()
# Prints 1.7763568394e-15
mds.fit(data.astype(np.float64))
# Succeeds

similarities = euclidean_distances(data.astype(np.float32))
print np.abs(similarities - similarities.T).max()
# Prints 9.53674e-07
mds.fit(data.astype(np.float32))
# Fails with "ValueError: similarities must be symmetric"

相关问题更多 >

编程相关推荐

热门问题

热门文章