pandas数据帧列中可变长模式的检测

import pandas as pd import xlrd ##### EXCEL LOAD filepath= 'H:\\CCGT GE startup.xlsx' df = pd.read_excel(filepath,sheet_name='Sheet1',header=0,skiprows=0,parse_cols='A:CO',index_col=0) df = df.sort_index() # set increasing time index, source data is time decreasing gas=[] for i,row in df.iterrows(): if df['FLAG STARTUP TG1'] is not 'n': while 'F' not in df['FLAG STARTUP TG1']: gas.append(df['PORTATA GREZZA TG1 - m3/h']) gas.append(i)

1条回答

网友

1楼 · 发布于 2024-04-27 03:17:42

这就是我如何设法得到想要的结果的方法（注意，我后来决定只有单个字符'A'>；'F'序列才有意义）

import pandas as pd
import numpy as np

##### EXCEL LOAD
filepath= 'H:\\CCGT GE startup.xlsx'

df = pd.read_excel(filepath,sheet_name='Sheet1',header=0,skiprows=0,parse_cols='A:CO',index_col=0)
df = df.sort_index() # set increasing time index, source data is time decreasing

tg1 = pd.DataFrame(index=df.index.copy(),columns=['counter','flag','gas','p','raw_p','tv_p','lhv','fs'])
k = 0 
for i,row in df.iterrows():
        if 'A' == str(row['FLAG STARTUP TG1']):
          tg1.ix[i,'flag']=row['FLAG STARTUP TG1']
          tg1.ix[i,'gas']=row['Portata gas naturale']
          tg1.ix[i,'counter']=k
          tg1.ix[i,'fs']=row['1FIRED START COUNT  -  N°']
          tg1.ix[i,'p']=row['POTENZA ATTIVA  MONTANTE 1 SU 400 KV  -  MW']
          tg1.ix[i,'raw_p']=row['POTENZA ATTIVA  MONTANTE 1 SU 15 KV  -  MW']
          tg1.ix[i,'tv_p']=row['POTENZA ATTIVA  MONTANTE TV  -  MW']
          tg1.ix[i,'lhv']=row['LHV -  MJ/Sm3']

        elif 'F' == str(row['FLAG STARTUP TG1']):
          tg1.ix[i,'flag']=row['FLAG STARTUP TG1']
          tg1.ix[i,'gas']=row['Portata gas naturale']
          tg1.ix[i,'counter']=k
          tg1.ix[i,'fs']=row['1FIRED START COUNT  -  N°']
          tg1.ix[i,'p']=row['POTENZA ATTIVA  MONTANTE 1 SU 400 KV  -  MW']
          tg1.ix[i,'raw_p']=row['POTENZA ATTIVA  MONTANTE 1 SU 15 KV  -  MW']
          tg1.ix[i,'tv_p']=row['POTENZA ATTIVA  MONTANTE TV  -  MW']
          tg1.ix[i,'lhv']=row['LHV -  MJ/Sm3']
          k+=1 

tg1 = tg1.dropna(axis=0)
tg1 = tg1[tg1['gas'] != 0] #data where gas flow measurement is missing is dropped
tg1 = tg1.convert_objects(convert_numeric=True)

#timestamp count for each startup for duration calculation
counts = pd.DataFrame(tg1['counter'].value_counts(),columns=['duration'])
counts['start']=counts.index
counts = counts.set_index(np.arange(len(tg1['counter'].value_counts())))

tg1 = tg1.merge(counts,how='inner',left_on='counter',right_on='start')
 # filter out non pertinent startups (too long or too short)

tg1 = tg1[tg1['duration'].isin([6,7])]

#calculate thermal input per start (process)
table = tg1.groupby(['counter']).mean()
table['t_in']=table.apply((lambda row: row['gas']*row['duration']*0.25*row['lhv']/3600),axis=1)

任何在迭代中进行计算并避免所有“准备工作”的改进和建议都是受欢迎的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章