如何解决python中透视表的错误

! wget https://www.dropbox.com/s/z4zoofdgdrxe01r/movies.csv ! wget https://www.dropbox.com/s/f328xczt6vju6hi/ratings.csv import pandas as pd df_movies = pd.read_csv('movies.csv') df_ratings = pd.read_csv('ratings.csv') df_merged=pd.merge(df_movies, df_ratings, how='inner')

--------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-74-ad6b3a589ea8> in <module>() ----> 1 df_merged.pivot(index='movieId', columns='title', values='rating') 5 frames /usr/local/lib/python3.6/dist-packages/pandas/core/reshape/reshape.py in _make_selectors(self) 177 178 if mask.sum() < len(self.index): --> 179 raise ValueError("Index contains duplicate entries, cannot reshape") 180 181 self.group_index = comp_index ValueError: Index contains duplicate entries, cannot reshape

1条回答

网友

1楼 · 发布于 2024-05-16 03:07:28

获取组计数的最直接的方法是使用pandas 1.1中引入的DataFrame.value_counts()方法。对于pandas的早期版本，可以通过使用Series.value_counts()方法获得类似的结果。其他替代方案包括DataFrame.gropuby()和DataFrame.pivot_table()。如果您希望使用多个条件聚合数据，而不仅仅是计算项目数，那么这些条件可能是首选条件

设置

import pandas as pd

df_merged = pd.DataFrame({'movie id': [1, 1, 1, 1, 1, 6, 6, 6, 6, 6], 
                  'title': ['Toy Story (1995)', 'Toy Story (1995)', 'Toy Story (1995)','Toy Story (1995)', 'Toy Story (1995)', 'Heat (1995)', 'Heat (1995)', 'Heat (1995)', 'Heat (1995)', 'Heat (1995)'], 
                  'rating': [4.0, 4.0, 4.5, 2.5, 4.5, 5.0, 5.0, 3.0, 3.0, 5.0]})

值\u计数（）

要获得投票数，请使用.value_counts()计算项目数：

df_merged.value_counts('title')

这将返回一个新的系列，其中电影的标题作为索引，每部电影的收视率作为值

Heat (1995)         5
Toy Story (1995)    5
Name: title, dtype: int64

对于pandas 1.1之前的版本，您可以对一个系列使用.value_counts()来获得类似的结果：

df_merged['title'].value_counts()

groupby

另一种方法是将.gropuby()与.size()一起使用：

df_merged.groupby('title').size()

透视表（）

这也可以使用.pivot_table()方法完成：

df_merged.pivot_table(values='rating', index=['title'], aggfunc='count')

将生成一个数据帧作为输出：

               rating
title   
Heat (1995)         5
Toy Story (1995)    5

如果您想使用多个标准（例如，评分数量和平均（平均）评分）进行汇总，那么pivot_table方法可能非常有用：

df_merged.pivot_table(values='rating', index=['title'], aggfunc=('count','mean'))

                  count  mean
title                        
Heat (1995)           5   4.2
Toy Story (1995)      5   3.9

相关问题更多 >

编程相关推荐

热门问题

热门文章