在Python Pandas数据框中以低成本添加时间序列强度的方法

Question

我正在尝试用Python的Pandas.DataFrame来计算（并绘制）一些函数在不同时间改变状态的总和。举个例子：

假设我们有3个人，他们的状态可以是：a) 什么都不拿，b) 拿着一个5磅的重物，c) 拿着一个10磅的重物。随着时间的推移，这些人会拿起重物或放下重物。我想要绘制他们所持重物的总重量。因此，给定：

我最初的尝试：

import pandas as ps
import math
import numpy as np

person1=[3,0,10,10,10,10,10]
person2=[4,0,20,20,25,25,40]
person3=[5,0,5,5,15,15,40]
allPeopleDf=ps.DataFrame(np.array(zip(person1,person2,person3)).T)
allPeopleDf.columns=['count','start1', 'end1', 'start2', 'end2', 'start3','end3']
allPeopleDfNoCount=allPeopleDf[['start1', 'end1', 'start2', 'end2', 'start3','end3']]
uniqueTimes=sorted(ps.unique(allPeopleDfNoCount.values.ravel()))
possibleStates=[-1,0,1,2] #extra state 0 for initialization
stateData={}
comboStates={}
#initialize dict to add up all of the stateData
for time in uniqueTimes:
    comboStates[time]=0.0
allPeopleDf['track']=-1
allPeopleDf['status']=-1
numberState=len(possibleStates)

starti=-1
endi=0
startState=0
for i in range(3):
    starti=starti+2
    print starti
    endi=endi+2
    for time in uniqueTimes:
        def helper(row):
            start=row[starti]
            end=row[endi]
            track=row[7]
            if start <= time and time < end:
                return possibleStates[i+1]
            else:
                return possibleStates[0]
        def trackHelp(row):
            status=row[8]
            track=row[7]    
            if track<=status:
                return status
            else:
                return track
        def Multiplier(row):
            x=row[8]
            if x==0:
                return 0.0*row[0]
            if x==1:
                return 5.0*row[0]
            if x==2:
                return 10.0*row[0]
            if x==-1:#numeric place holder for non-contributing
                return 0.0*row[0]    
        allPeopleDf['status']=allPeopleDf.apply(helper,axis=1)
        allPeopleDf['track']=allPeopleDf.apply(trackHelp,axis=1)
        stateData[time]=allPeopleDf.apply(Multiplier,axis=1).sum()
    for k,v in stateData.iteritems():
        comboStates[k]=comboStates.get(k,0)+v
print allPeopleDf
print stateData
print comboStates

随着时间的推移，所持重物的图像可能看起来像这样：

enter image description here

而随时间变化的强度总和可能看起来像下面的黑线：

enter image description here

这条黑线的坐标点定义为：(0,0磅)，(5,0磅)，(5,5磅)，(15,5磅)，(15,10磅)，(20,10磅)，(20,15磅)，(25,15磅)，(25,20磅)，(40,20磅)。不过，我比较灵活，不一定要把这个总强度线定义为一组坐标点。可以通过以下方式找到独特的时间点： print list(set(uniqueTimes).intersection(allNoCountT[1].values.ravel())).sort() ，但我想不出一个好的方法来获取对应的强度值。

我一开始用一个非常复杂的函数来拆分每个人的图表，这样所有人都有相同的开始和结束时间（尽管有很多没有状态变化的开始和结束时间），然后我可以把所有的“时间块”加起来。这很麻烦；一定有更简洁的Pandas方法来处理这个。如果有人能给我建议或者指向我可能错过的其他相关内容，我会很感激！

如果我这个简单的例子不够清楚，另一个例子可能是绘制钢琴发出的声音强度：有很多音符在不同的时间以不同的强度被演奏。我想要的是钢琴在一段时间内的强度总和。虽然我的例子很简单，但我需要一个更适合钢琴曲的解决方案：每个音键有成千上万的离散强度级别，并且在一首曲子中有很多音键在贡献。

编辑--实现mgab提供的解决方案：

import pandas as ps
import math
import numpy as np

person1=['person1',3,0.0,10.0,10.0,10.0,10.0,10.0]
person2=['person2',4,0,20,20,25,25,40]
person3=['person3',5,0,5,5,15,15,40]
allPeopleDf=ps.DataFrame(np.array(zip(person1,person2,person3)).T)
allPeopleDf.columns=['id','intensity','start1', 'end1', 'start2', 'end2', 'start3','end3']
allPeopleDf=ps.melt(allPeopleDf,id_vars=['intensity','id'])
allPeopleDf.columns=['intensity','id','timeid','time']
df=ps.DataFrame(allPeopleDf).drop('timeid',1)
df[df.id=='person1'].drop('id',1) #easier to visualize one id for check
df['increment']=df.groupby('id')['intensity'].transform( lambda x: x.sub(x.shift(), fill_value= 0 ))

TypeError: unsupported operand type(s) for -: 'str' and 'int'

结束编辑

数据可视化数据分析 pandas 时间序列图表绘制离散数据状态变化强度计算

在Python Pandas数据框中以低成本添加时间序列强度的方法

2 个回答

编辑：应用问题中提供的具体数据

撰写回答