Pandas unstack问题：ValueError:索引包含重复项，无法重塑

In [37]: e.set_index(['id', 'date', 'location'], inplace=True) In [38]: e Out[38]: value id date location id1 2014-12-12 loc1 16.86 2014-12-11 loc1 17.18 2014-12-10 loc1 17.03 2014-12-09 loc1 17.28

In [39]: e.unstack('location') --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-39-bc1e237a0ed7> in <module>() ----> 1 e.unstack('location') ... C:\Anaconda\envs\sandbox\lib\site-packages\pandas\core\reshape.pyc in _make_selectors(self) 143 144 if mask.sum() < len(self.index): --> 145 raise ValueError('Index contains duplicate entries, ' 146 'cannot reshape') 147 ValueError: Index contains duplicate entries, cannot reshape

3条回答

网友

1楼 · 编辑于 2024-05-16 11:19:47

有一个更简单的方法来解决这个问题。

获得ValueError: Index contains duplicate entries, cannot reshape的原因是，一旦取消对“Location”的堆栈，则剩余的索引列“id”和“date”组合不再是唯一的。

您可以通过保留默认索引列（row#）来避免这种情况，并且在使用“id”、“date”和“location”设置索引时，将其添加到“append”模式而不是默认覆盖模式。

所以使用

e.set_index(['id', 'date', 'location'], append=True)

完成此操作后，索引列仍将具有默认索引以及设置的索引。并且unstack将起作用。

告诉我结果如何。

网友

2楼 · 编辑于 2024-05-16 11:19:47

我有这样的问题。在我的例子中，问题是在数据中-我的列“information”包含一个唯一的值，它导致了错误

更新：若要更正工作“枢轴”对（id_user，information），不能有重复项

有效：

df2 = pd.DataFrame({'id_user':[1,2,3,4,4,5,5], 
'information':['phon','phon','phone','phone1','phone','phone1','phone'], 
'value': [1, '01.01.00', '01.02.00', 2, '01.03.00', 3, '01.04.00']})
df2.pivot(index='id_user', columns='information', values='value')

它不起作用：

df2 = pd.DataFrame({'id_user':[1,2,3,4,4,5,5], 
'information':['phone','phone','phone','phone','phone','phone','phone'], 
'value': [1, '01.01.00', '01.02.00', 2, '01.03.00', 3, '01.04.00']})
df2.pivot(index='id_user', columns='information', values='value')

来源：https://stackoverflow.com/a/37021196/6088984

网友
3楼 · 编辑于 2024-05-16 11:19:47

下面是一个示例DataFrame，它有相同索引的重复值。问题是，您想将它们聚合还是保留为多行？

In [11]: df
Out[11]:
   0  1  2      3
0  1  2  a  16.86
1  1  2  a  17.18
2  1  4  a  17.03
3  2  5  b  17.28

In [12]: df.pivot_table(values=3, index=[0, 1], columns=2, aggfunc='mean')  # desired?
Out[12]:
2        a      b
0 1
1 2  17.02    NaN
  4  17.03    NaN
2 5    NaN  17.28

In [13]: df1 = df.set_index([0, 1, 2])

In [14]: df1
Out[14]:
           3
0 1 2
1 2 a  16.86
    a  17.18
  4 a  17.03
2 5 b  17.28

In [15]: df1.unstack(2)
ValueError: Index contains duplicate entries, cannot reshape

一种解决方案是reset_index（回到df）并使用pivot_table。

In [16]: df1.reset_index().pivot_table(values=3, index=[0, 1], columns=2, aggfunc='mean')
Out[16]:
2        a      b
0 1
1 2  17.02    NaN
  4  17.03    NaN
2 5    NaN  17.28

另一个选项（如果不想聚合）是附加一个虚拟级别，取消堆栈，然后删除该虚拟级别。。。

相关问题更多 >

编程相关推荐

热门问题

热门文章