计算数据框中特定列的成对差值

5 投票

2 回答

2273 浏览

提问于 2025-04-17 16:38

我有一个数据表，里面记录了我看到某个物品从Item1转到Item2的次数。比如说，从A到B有一次转移，从A到C有两次转移，从C到A有一次转移。

    Item1   Item2   Moves
  1  A       B       1
  2  A       C       2
  3  B       D       3
  4  C       A       1
  5  C       B       5
  6  D       B       4
  7  D       C       1

我想计算两个物品之间的差异，所以我想创建一个新的数据表，内容会是这样的：

    Item1   Item2   Moves
  1  A       B       1
  2  A       C       1
  3  B       D      -1
  4  C       B       5
  5  D       C       1

有没有人知道怎么用Pandas来做到这一点？我想我需要在前两列上进行索引，但我对Pandas还很陌生，遇到了很多困难。谢谢！

补充说明：不能有重复的物品对。比如说，不能出现a到b的转移两次（但b到a的转移可以出现多次）。

数据处理数据分析 pandas 数据框数据表成对差值转移次数

2 个回答

这里有一种方法可以做到：

首先，创建一行，只包含Item1和Item2的字符串。

In [11]: df['Items'] = df.apply(lambda row: row['Item1'] + row['Item2'], axis=1)

In [12]: df
Out[12]: 
  Item1 Item2  Moves Items
1     A     B      1    AB
2     A     C      2    AC
3     B     D      3    BD
4     C     A      1    CA
5     C     B      5    CB
6     D     B      4    DB
7     D     C      1    DC

如果Items是按字母顺序排列的，就保持不变；如果不是，就交换它们的位置，并把Moves取反：

In [13]: df[['Items','Moves']] = df.apply(lambda row: (row[['Items', 'Moves']])
                                                       if row['Items'][0] <= row['Items'][1]
                                                       else (row['Items'][::-1], -row['Moves']),
                                          axis=1)

In [14]: df
Out[14]: 
  Item1 Item2  Moves Items
1     A     B      1    AB
2     A     C      2    AC
3     B     D      3    BD
4     C     A     -1    AC
5     C     B     -5    BC
6     D     B     -4    BD
7     D     C     -1    CD

In [15]: g = df.groupby('Items')

In [16]: g.sum()
Out[16]: 
       Moves
Items       
AB         1
AC         1
BC        -5
BD        -1
CD        -1

这已经差不多了，可能对你来说已经足够了。

为了得到想要的最终输出，一种比较简单的方法可以是：

In [17]: df1 = g.first() # the first row in each group

In [18]: df1.Moves = g.sum()

In [19]: df2 = df1.reset_index(drop=True)

In [20]: df2
Out[20]: 
  Item1 Item2  Moves
0     A     B      1
1     A     C      1
2     C     B     -5
3     B     D     -1
4     D     C     -1

但是，请注意，取反的部分并不是完全正确（对于那些顺序不对的情况，比如DC而不是CD）：

In [21]: df2.Moves = df2.apply(lambda row: row['Moves']
                                            if row['Item1'] <= row['Item2']
                                            else -row['Moves'],
                                axis=1)

In [22]: df2
Out[22]: 
  Item1 Item2  Moves
0     A     B      1
1     A     C      1
2     C     B      5
3     B     D     -1
4     D     C      1

回答于 2025-04-17 由 Python大师

分享举报

我相信有人可以把这个简化成更少的代码行，但我把它写得比较长，是为了让大家更清楚发生了什么。简单来说，就是根据'Item1'和'Item2'的字母顺序，把数据分成两部分。如果'Item1'在字母表中排在'Item2'之前，就放在一部分。然后把'Item1'和'Item2'的位置调换，同时把'Moves'的值变成相反的。最后把这两部分再合在一起，并使用groupby函数来汇总这些行。

>>> df
  Item1 Item2  Moves
0     A     B      1
1     A     C      2
2     B     D      3
3     C     A      1
4     C     B      5
5     D     B      4
6     D     C      1
>>> swapidx = df['Item1'] < df['Item2']
>>> df1 = df[swapidx]
>>> df2 = df[swapidx^True]
>>> df1
  Item1 Item2  Moves
0     A     B      1
1     A     C      2
2     B     D      3
>>> df2
  Item1 Item2  Moves
3     C     A      1
4     C     B      5
5     D     B      4
6     D     C      1
>>> df2[['Item1', 'Item2']] = df2[['Item2', 'Item1']]
>>> df2['Moves'] = df2['Moves']*-1
>>> df2
  Item1 Item2  Moves
3     A     C     -1
4     B     C     -5
5     B     D     -4
6     C     D     -1
>>> df3 = df1.append(df2)
>>> df3.groupby(['Item1', 'Item2'], as_index=False).sum()
  Item1 Item2  Moves
0     A     B      1
1     A     C      1
2     B     C     -5
3     B     D     -1
4     C     D     -1

回答于 2025-04-17 由 Python大师

分享举报

计算数据框中特定列的成对差值

2 个回答

撰写回答