Pysp中SparseVector到DenseVector的转换

1条回答

网友

1楼 · 发布于 2024-04-20 02:23:15

火花2.0.2+

您应该能够迭代SparseVectors。见：SPARK-17587。

火花<；2.0.2

~~好吧，第一种情况非常有趣，但总体行为看起来根本不像一个bug。~~如果您查看DenseVector构造函数，它只考虑两种情况。

ar是一个^{}对象（0<；=x<；256范围内的不可变整数序列）
否则我们只需调用np.array(ar, dtype=np.float64)

SparseVector显然不是一个bytes对象，因此当将其传递给构造函数时，它将使用一个用于np.array调用的object参数。如果你检查^{} docs，你会发现object应该

An array, any object exposing the array interface, an object whose __array__ method returns an array, or any (nested) sequence.

您可以检查SparseVector是否不符合上述条件。它不是Pythonsequence type并且：

>>> sv = SparseVector(5, {4: 1.})
>>> isinstance(sv, np.ndarray)
False
>>> hasattr(sv, "__array_interface__")
False
>>> hasattr(sv, "__array__")
False
>>> hasattr(sv, "__iter__")
False

如果要将SparseVector转换为DenseVector，可能应该使用toArray方法：

DenseVector(sv.toArray())

编辑：

我认为这种行为解释了DenseVector(SparseVector(...))在某些情况下可能起作用的原因：

>>> [x for x in SparseVector(5, {0: 1.})]
[1.0]
>>> [x for x in SparseVector(5, {4: 1.})]
Traceback (most recent call last):
...
ValueError: Index 5 out of bounds.

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pysp中SparseVector到DenseVector的转换

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >