如何轉換 DataFrame

1条回答

网友

1楼 · 发布于 2024-05-26 11:10:48

我们首先回答第一个问题：

问题1

Why do I get ValueError: Index contains duplicate entries, cannot reshape

发生这种情况的原因是pandas试图用重复的条目重新索引columns或index对象。可以使用各种方法来执行轴心点。其中一些不太适合当有重复的键被要求在其中旋转时。例如。考虑一下pd.DataFrame.pivot。我知道有重复的条目共享row和col值：

df.duplicated(['row', 'col']).any()

True

所以当我使用

df.pivot(index='row', columns='col', values='val0')

我知道上面提到的错误。事实上，当我尝试执行相同的任务时，会遇到相同的错误：

df.set_index(['row', 'col'])['val0'].unstack()

下面是一个我们可以用来转换的习惯用法列表

^{}+^{}
- 对任何类型的枢轴都是很好的通用方法
- 指定将构成一个分组依据中的透视行级别和列级别的所有列。然后，选择要聚合的其余列和要执行聚合的函数。最后，您unstack要在列索引中的级别。
^{}
- 一个美化版的groupby具有更直观的API。对许多人来说，这是首选的方法。是开发人员的预期方法。
- 指定行级别、列级别、要聚合的值以及要执行聚合的函数。
^{}+^{}
- 对某些人来说方便直观（包括我自己）。无法处理重复的分组键。
- 与groupby范例类似，我们指定最终将成为行或列级别的所有列，并将这些列设置为索引。然后unstack列中所需的级别。如果剩余的索引级别或列级别不唯一，则此方法将失败。
^{}
- 与set_index非常相似，因为它共享重复密钥限制。API也非常有限。它只接受index、columns、values的标量值。
- 类似于pivot_table方法，我们选择要在其上进行透视的行、列和值。但是，我们不能聚合，如果行或列不是唯一的，则此方法将失败。
^{}
- 这是pivot_table的一个专门版本，以最纯粹的形式是执行多个任务的最直观的方式。
^{}+^{}
- 这是一项非常先进的技术，虽然很模糊，但速度很快。它不能在任何情况下都使用，但当它可以使用并且您使用起来很舒服时，您将获得性能奖励。
^{}+^{}
- 我用这个来巧妙地做交叉表。

实例

接下来的每个答案和问题我要做的是使用pd.DataFrame.pivot_table来回答。然后我将提供执行相同任务的替代方案。

问题3

How do I pivot df such that the col values are columns, row values are the index, mean of val0 are the values, and missing values are 0?

pd.DataFrame.pivot_table

fill_value默认情况下未设置。我倾向于适当地设置它。在本例中，我将其设置为0。注意，我跳过了问题2，因为它与此答案相同，没有fill_value

aggfunc='mean'是默认值，我不需要设置它。我把它写得很清楚。

df.pivot_table(
    values='val0', index='row', columns='col',
    fill_value=0, aggfunc='mean')

col   col0   col1   col2   col3  col4
row                                  
row0  0.77  0.605  0.000  0.860  0.65
row2  0.13  0.000  0.395  0.500  0.25
row3  0.00  0.310  0.000  0.545  0.00
row4  0.00  0.100  0.395  0.760  0.24

pd.DataFrame.groupby

df.groupby(['row', 'col'])['val0'].mean().unstack(fill_value=0)

pd.crosstab

pd.crosstab(
    index=df['row'], columns=df['col'],
    values=df['val0'], aggfunc='mean').fillna(0)

问题4

Can I get something other than mean, like maybe sum?

pd.DataFrame.pivot_table

df.pivot_table(
    values='val0', index='row', columns='col',
    fill_value=0, aggfunc='sum')

col   col0  col1  col2  col3  col4
row                               
row0  0.77  1.21  0.00  0.86  0.65
row2  0.13  0.00  0.79  0.50  0.50
row3  0.00  0.31  0.00  1.09  0.00
row4  0.00  0.10  0.79  1.52  0.24

pd.DataFrame.groupby

df.groupby(['row', 'col'])['val0'].sum().unstack(fill_value=0)

pd.crosstab

pd.crosstab(
    index=df['row'], columns=df['col'],
    values=df['val0'], aggfunc='sum').fillna(0)

问题5

Can I do more that one aggregation at a time?

注意，对于pivot_table和crosstab，我需要传递可调用的列表。另一方面，groupby.agg能够为有限数量的特殊函数获取字符串。groupby.agg也会使用我们传递给其他人的相同的可调用函数，但它通常更为有效ficient可以利用字符串函数名来提高效率。

pd.DataFrame.pivot_table

df.pivot_table(
    values='val0', index='row', columns='col',
    fill_value=0, aggfunc=[np.size, np.mean])

     size                      mean                           
col  col0 col1 col2 col3 col4  col0   col1   col2   col3  col4
row                                                           
row0    1    2    0    1    1  0.77  0.605  0.000  0.860  0.65
row2    1    0    2    1    2  0.13  0.000  0.395  0.500  0.25
row3    0    1    0    2    0  0.00  0.310  0.000  0.545  0.00
row4    0    1    2    2    1  0.00  0.100  0.395  0.760  0.24

pd.DataFrame.groupby

df.groupby(['row', 'col'])['val0'].agg(['size', 'mean']).unstack(fill_value=0)

pd.crosstab

pd.crosstab(
    index=df['row'], columns=df['col'],
    values=df['val0'], aggfunc=[np.size, np.mean]).fillna(0, downcast='infer')

问题6

Can I aggregate over multiple value columns?

pd.DataFrame.pivot_table我们通过了values=['val0', 'val1']但是我们可以完全忽略它

df.pivot_table(
    values=['val0', 'val1'], index='row', columns='col',
    fill_value=0, aggfunc='mean')

      val0                             val1                          
col   col0   col1   col2   col3  col4  col0   col1  col2   col3  col4
row                                                                  
row0  0.77  0.605  0.000  0.860  0.65  0.01  0.745  0.00  0.010  0.02
row2  0.13  0.000  0.395  0.500  0.25  0.45  0.000  0.34  0.440  0.79
row3  0.00  0.310  0.000  0.545  0.00  0.00  0.230  0.00  0.075  0.00
row4  0.00  0.100  0.395  0.760  0.24  0.00  0.070  0.42  0.300  0.46

pd.DataFrame.groupby

df.groupby(['row', 'col'])['val0', 'val1'].mean().unstack(fill_value=0)

问题7

Can Subdivide by multiple columns?

pd.DataFrame.pivot_table

df.pivot_table(
    values='val0', index='row', columns=['item', 'col'],
    fill_value=0, aggfunc='mean')

item item0             item1                         item2                   
col   col2  col3  col4  col0  col1  col2  col3  col4  col0   col1  col3  col4
row                                                                          
row0  0.00  0.00  0.00  0.77  0.00  0.00  0.00  0.00  0.00  0.605  0.86  0.65
row2  0.35  0.00  0.37  0.00  0.00  0.44  0.00  0.00  0.13  0.000  0.50  0.13
row3  0.00  0.00  0.00  0.00  0.31  0.00  0.81  0.00  0.00  0.000  0.28  0.00
row4  0.15  0.64  0.00  0.00  0.10  0.64  0.88  0.24  0.00  0.000  0.00  0.00

pd.DataFrame.groupby

df.groupby(
    ['row', 'item', 'col']
)['val0'].mean().unstack(['item', 'col']).fillna(0).sort_index(1)

问题8

Can Subdivide by multiple columns?

pd.DataFrame.pivot_table

df.pivot_table(
    values='val0', index=['key', 'row'], columns=['item', 'col'],
    fill_value=0, aggfunc='mean')

item      item0             item1                         item2                  
col        col2  col3  col4  col0  col1  col2  col3  col4  col0  col1  col3  col4
key  row                                                                         
key0 row0  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.86  0.00
     row2  0.00  0.00  0.37  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.50  0.00
     row3  0.00  0.00  0.00  0.00  0.31  0.00  0.81  0.00  0.00  0.00  0.00  0.00
     row4  0.15  0.64  0.00  0.00  0.00  0.00  0.00  0.24  0.00  0.00  0.00  0.00
key1 row0  0.00  0.00  0.00  0.77  0.00  0.00  0.00  0.00  0.00  0.81  0.00  0.65
     row2  0.35  0.00  0.00  0.00  0.00  0.44  0.00  0.00  0.00  0.00  0.00  0.13
     row3  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.28  0.00
     row4  0.00  0.00  0.00  0.00  0.10  0.00  0.00  0.00  0.00  0.00  0.00  0.00
key2 row0  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.40  0.00  0.00
     row2  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.00  0.13  0.00  0.00  0.00
     row4  0.00  0.00  0.00  0.00  0.00  0.64  0.88  0.00  0.00  0.00  0.00  0.00

pd.DataFrame.groupby

df.groupby(
    ['key', 'row', 'item', 'col']
)['val0'].mean().unstack(['item', 'col']).fillna(0).sort_index(1)

pd.DataFrame.set_index因为键集对于行和列都是唯一的

df.set_index(
    ['key', 'row', 'item', 'col']
)['val0'].unstack(['item', 'col']).fillna(0).sort_index(1)

问题9

Can I aggregate the frequency in which the column and rows occur together, aka "cross tabulation"?

pd.DataFrame.pivot_table

df.pivot_table(index='row', columns='col', fill_value=0, aggfunc='size')

    col   col0  col1  col2  col3  col4
row                               
row0     1     2     0     1     1
row2     1     0     2     1     2
row3     0     1     0     2     0
row4     0     1     2     2     1

pd.DataFrame.groupby

df.groupby(['row', 'col'])['val0'].size().unstack(fill_value=0)

pd.crosstab
```
pd.crosstab(df['row'], df['col'])
```

pd.factorize+np.bincount

# get integer factorization `i` and unique values `r`
# for column `'row'`
i, r = pd.factorize(df['row'].values)
# get integer factorization `j` and unique values `c`
# for column `'col'`
j, c = pd.factorize(df['col'].values)
# `n` will be the number of rows
# `m` will be the number of columns
n, m = r.size, c.size
# `i * m + j` is a clever way of counting the 
# factorization bins assuming a flat array of length
# `n * m`.  Which is why we subsequently reshape as `(n, m)`
b = np.bincount(i * m + j, minlength=n * m).reshape(n, m)
# BTW, whenever I read this, I think 'Bean, Rice, and Cheese'
pd.DataFrame(b, r, c)

      col3  col2  col0  col1  col4
row3     2     0     0     1     0
row2     1     2     1     0     2
row0     1     0     1     2     1
row4     2     2     0     1     1

pd.get_dummies

pd.get_dummies(df['row']).T.dot(pd.get_dummies(df['col']))

      col0  col1  col2  col3  col4
row0     1     2     0     1     1
row2     1     0     2     1     2
row3     0     1     0     2     0
row4     0     1     2     2     1

问题10

How do I convert a DataFrame from long to wide by pivoting on ONLY two columns?

第一步是为每一行指定一个数字-这个数字将是数据透视结果中该值的行索引。这是使用^{}完成的：

df2.insert(0, 'count', df.groupby('A').cumcount())
df2

   count  A   B
0      0  a   0
1      1  a  11
2      2  a   2
3      3  a  11
4      0  b  10
5      1  b  10
6      2  b  14
7      0  c   7

第二步是使用新创建的列作为调用^{}的索引。

df2.pivot(*df)
# df.pivot(index='count', columns='A', values='B')

A         a     b    c
count                 
0       0.0  10.0  7.0
1      11.0  10.0  NaN
2       2.0  14.0  NaN
3      11.0   NaN  NaN

问题11

How do I flatten the multiple index to single index after pivot

如果columns使用字符串join键入object

df.columns = df.columns.map('|'.join)

否则format

df.columns = df.columns.map('{0[0]}|{0[1]}'.format)

网友

2楼 · 发布于 2024-05-26 11:10:48

 def to_explode(ttype,df, by):
    # Filter dtypes and split into column names and type description
    cols, dtypes = zip(*((c, t) for (c, t) in df.dtypes if c not in by))
    # Create and explode an array of (column_name, column_value) structs
    kvs = explode(array([
      struct(lit(c).alias(ttype+"Period"), col(c).alias(ttype+"Value"))
          for c in cols])).alias("kvs")
    # print(kvs)
    return df.select(by + [kvs]).select(by +
                    ["kvs."+ttype+"Period", "kvs."+ttype+"Value"])

设置

问题

问题1

实例

问题3

问题4

问题5

问题6

问题7

问题8

问题9

问题10

问题11

相关问题更多 >

编程相关推荐

热门问题

热门文章