timeseries索引数据帧的最后2列标识物理进程的开始(“a”或“AA”或“AAA”)、结束(“F”或“FF”或“FFF”)和持续时间(开始和结束之间的行数),它们如下所示:
A-F序列或它们之间的n序列是可变长度的。在
如何识别这些模式,并为每个模式计算相应行的其他列的平均值?
我非常努力地想做的是:
import pandas as pd
import xlrd
##### EXCEL LOAD
filepath= 'H:\\CCGT GE startup.xlsx'
df = pd.read_excel(filepath,sheet_name='Sheet1',header=0,skiprows=0,parse_cols='A:CO',index_col=0)
df = df.sort_index() # set increasing time index, source data is time decreasing
gas=[]
for i,row in df.iterrows():
if df['FLAG STARTUP TG1'] is not 'n':
while 'F' not in df['FLAG STARTUP TG1']:
gas.append(df['PORTATA GREZZA TG1 - m3/h'])
gas.append(i)
但是脚本在第一个if(与'n'条件不匹配并一直追加同一行,我配对)时卡住了。另外,我的方法在排除最后一个“F”行时也是错误的,它仍然属于同一个进程,应该被视为它的一部分!在
另外,前1000行df在这里http://www.filedropper.com/ccgtgestartup1000
p.p.s.除了不起作用外,我的方法也错误地排除了最后一行“F”,它仍然属于同一个进程,应该被视为它的一部分!在
p.p.p.s.这两列指的是两个不同的进程/机器,它们是不相关的(稍后会有更多的讨论),我想对这两个列做同样的分析(它们将引用不同列的平均值)。第一个“A”字符串标记进程的开始,并重复到最后一个用“F”字符串标记的时间戳。在原始文件中,时间戳是递减的,这就是我使用sort_index()方法的原因。字符串长度取决于其他列的值,但明显的标志列相关性仅存在于3个字符字符串“AAA”和“FFF”中,因为只有当两个进程以彼此的+-1时间戳开始时才会发生这种情况。在
这就是我如何设法得到想要的结果的方法(注意,我后来决定只有单个字符'A'>;'F'序列才有意义)
任何在迭代中进行计算并避免所有“准备工作”的改进和建议都是受欢迎的。在
相关问题 更多 >
编程相关推荐