如何处理Pandas的非变性数据？

df = pd.DataFrame(data={"obs":[["test1","test2"],"test1"], "result":[[101,103],200]},index=["subj1","subj2"]) df obs result subj1 [test1, test2] [101, 103] subj2 test1 200

1条回答

网友

1楼 · 发布于 2024-05-12 20:34:58

在你的例子中，我认为subj不是一个好的索引。我建议使用数值增量索引或多索引。以后更容易处理。举个例子：

df = pd.DataFrame(
    data={
        'subj':["subj1","subj1", "subj1", "subj1", "subj2", "subj2","subj2", "subj2", "subj3", "subj3"] ,
        "obs":["test1","test2","test2","test1",'test1','test1','test2','test2','test1','test2'],
        "result":[101,103,105,110, 203,159,193,285,400,543] 
    }
)
df
    subj    obs  result
0  subj1  test1     101
1  subj1  test2     103
2  subj1  test2     105
3  subj1  test1     110
4  subj2  test1     203
5  subj2  test1     159
6  subj2  test2     193
7  subj2  test2     285
8  subj3  test1     400
9  subj3  test2     543

让我们考虑一下，您要计算每个唯一主题的平均结果。因为所有数据点都有自己的行，所以可以使用panda的函数：groupby和mean。你知道吗

df.groupby('subj').mean()
       result
subj         
subj1  104.75
subj2  210.00
subj3  471.50

或者如果你想计算每个主题和对象的平均值

df.groupby(['subj','obs']).mean()
             result
subj  obs          
subj1 test1   105.5
      test2   104.0
subj2 test1   181.0
      test2   239.0
subj3 test1   400.0
      test2   543.0

如果您在从excel导入数据后遇到列表中的数据点，我建议您编写一个函数，将1中的n行和跨1个轴的apply行组合起来

希望有帮助！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何处理Pandas的非变性数据？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >