以所需的形式获取数据

Value Date Ticket Source Result 0.939531371 3/1/2018 T1 Source1 1 0.951619897 3/1/2018 T2 Source1 1 0.952681914 3/1/2018 T3 Source1 0 0.957009407 3/1/2018 T4 Source2 1 0.962669466 3/1/2018 T5 Source2 0 0.963068552 3/1/2018 T6 Source3 1 0.963480195 3/1/2018 T7 Source4 1 0.951296258 3/2/2018 T11 Source5 1 0.962434762 3/2/2018 T12 Source5 1 0.950224149 3/2/2018 T13 Source5 1 0.961191873 3/2/2018 T14 Source5 1 0.952584896 3/2/2018 T15 Source5 0 0.962093595 3/2/2018 T16 Source5 1 0.975999737 3/2/2018 T17 Source5 1

2条回答

网友

1楼 · 编辑于 2024-05-15 02:30:30

您可以使用pivot_table和一个自定义聚合函数来获取第一列。和groupby添加“Result”列。你知道吗

import numpy as np
import pandas as pd

df2 = df.sort_values('Value').pivot_table(
        index='Date', 
        columns='Source',
        values='Value',
        aggfunc = lambda x: (x*np.arange(len(x), 0, -1)).sum()/np.arange(len(x), 0, -1).cumsum()[-1]).fillna(0)

df2['Result'] = df.groupby('Date').Result.apply(lambda x: x.sum()/np.size(x))

输出：

Source     Source1   Source2   Source3  Source4   Source5    Result
Date                                                               
3/1/2018  0.945753  0.958896  0.963069  0.96348  0.000000  0.714286
3/2/2018  0.000000  0.000000  0.000000  0.00000  0.955507  0.857143

网友

2楼 · 编辑于 2024-05-15 02:30:30

您可能忘记在加权平均计算中使用括号：

> 0.93=[(0.939531370722655*3) +(0.951619897215127*2)+(1*0.952681914218488)]/(3+2+1)

另外，请尝试使用"Value"上的pivot表和自定义聚合函数：

def func(series) : 
  s = series.sort_values().reset_index(drop=True).reset_index()
  return s.apply(lambda x : (len(s) - x["index"]) * x["Value"] /sum(np.arange(1, len(s) + 1)), axis=1).sum()

上面的函数计算一系列的加权平均值：

首先对值进行排序，并按排序顺序重置索引。你知道吗
然后计算加权平均值。你知道吗

然后按如下方式调用此聚合函数：

df1 = df.pivot_table(index="Date", columns="Source", aggfunc={"values" : func})

+     +     +     +     +    -+     +
|          |  Value   |          |          |         |          |
+     +     +     +     +    -+     +
| Source   | Source1  | Source2  | Source3  | Source4 | Source5  |
| Date     |          |          |          |         |          |
+     +     +     +     +    -+     +
| 3/1/2018 | 0.945753 | 0.958896 | 0.963069 | 0.96348 | NaN      |
| 3/2/2018 | NaN      | NaN      | NaN      | NaN     | 0.955507 |
+     +     +     +     +    -+     +

那么对于整个结果：

df2 = df.pivot_table(index="Date",  values="Result", aggfunc="mean")

退货

+     +     +
|          |  Result  |
+     +     +
| Date     |          |
| 3/1/2018 | 0.714286 |
| 3/2/2018 | 0.857143 |
+     +     +

最后，您可以连接两个数据帧以获得所需的数据帧：

df1.columns = df1.columns.droplevel()
df2.columns = ["Overall_Result" ]
dfResult = pd.concat([df1, df2], axis=1)

即

+     +        +     +     +     +    -+     +
|          | Overall_Result | Source1  | Source2  | Source3  | Source4 | Source5  |
+     +        +     +     +     +    -+     +
| Date     |                |          |          |          |         |          |
| 3/1/2018 |       0.714286 | 0.945753 | 0.958896 | 0.963069 | 0.96348 | NaN      |
| 3/2/2018 |       0.857143 | NaN      | NaN      | NaN      | NaN     | 0.955507 |
+     +        +     +     +     +    -+     +

输出：

相关问题更多 >

编程相关推荐

热门问题

热门文章