如何将循环中的值存储到数据帧中？

def calculate (allFiles): result = pd.DataFrame(columns = ['Date','Mid Ebb Total','Mid Flood Total','Mid Ebb Control','Mid Flood Control']) total_Mid_Ebb = 0 total_Mid_Flood = 0 total_Mid_EbbControl = 0 total_Mid_FloodControl = 0 for file_ in allFiles: xls = pd.ExcelFile(file_) df = xls.parse('General Impact') Mid_Ebb = df[df['Tidal Mode'] == "Mid-Ebb"] #filter Mid_Ebb_control = df[df['Station'].isin(['C1','C2','C3'])] #filter control Mid_Flood = df[df['Tidal Mode'] == "Mid-Flood"] #filter Mid_Flood_control = df[df['Station'].isin(['C1','C2','C3', 'SR2'])] #filter control total_Mid_Ebb += Mid_Ebb.Station.nunique() #count unique stations = sample number total_Mid_Flood += Mid_Flood.Station.nunique() total_Mid_EbbControl += Mid_Ebb_control.Station.nunique() total_Mid_FloodControl += Mid_Flood_control.Station.nunique() Mid_Ebb_withoutControl = total_Mid_Ebb - total_Mid_EbbControl Mid_Flood_withoutControl = total_Mid_Flood - total_Mid_FloodControl print('Ebb Tide: The total number of sample is {}. Number of sample without control station is {}. Number of sample in control station is {}'.format(total_Mid_Ebb, Mid_Ebb_withoutControl, total_Mid_EbbControl)) print('Flood Tide: The total number of sample is {}. Number of sample without control station is {}. Number of sample in control station is {}'.format(total_Mid_Flood, Mid_Flood_withoutControl, total_Mid_FloodControl))

3条回答

网友

1楼 · 编辑于 2024-05-13 22:37:38

我相信您需要在循环中将标量追加到元组列表中，然后使用DataFrame构造函数。result数据帧中的最后计数差异：

def calculate (allFiles):

    data = []
    for file_ in allFiles:
        xls = pd.ExcelFile(file_)
        df = xls.parse('General Impact')
        Mid_Ebb = df[df['Tidal Mode'] == "Mid-Ebb"] #filter 
        Mid_Ebb_control = df[df['Station'].isin(['C1','C2','C3'])] #filter control
        Mid_Flood = df[df['Tidal Mode'] == "Mid-Flood"] #filter
        Mid_Flood_control = df[df['Station'].isin(['C1','C2','C3', 'SR2'])] #filter control
        total_Mid_Ebb = Mid_Ebb.Station.nunique() #count unique stations = sample number
        total_Mid_Flood = Mid_Flood.Station.nunique()
        total_Mid_EbbControl = Mid_Ebb_control.Station.nunique()
        total_Mid_FloodControl = Mid_Flood_control.Station.nunique()
        data.append((total_Mid_Ebb, 
                     total_Mid_Flood, 
                     total_Mid_EbbControl, 
                     total_Mid_FloodControl))

    cols=['total_Mid_Ebb','total_Mid_Flood','total_Mid_EbbControl','total_Mid_FloodControl']

    result = pd.DataFrame(data, columns=cols)
    result['Mid_Ebb_withoutControl'] = result.total_Mid_Ebb - result.total_Mid_EbbControl
    result['Mid_Flood_withoutControl']=result.total_Mid_Flood-result.total_Mid_FloodControl

    #if want check all totals
    total = result.sum()
    print (total)


    return result

网友

2楼 · 编辑于 2024-05-13 22:37:38

注意这不会按要求为每个文件生成一行，但它更多的是关于Pandas在此类问题中的一般用法的评论-读取所有数据然后使用Pandas文件进行处理通常比在不同的情况下编写自己的循环更容易。

我认为你在这里用熊猫不是惯用的方式。我认为这样做可以节省大量代码并获得更容易理解的结果：

controlstations = ['C1', 'C2', 'C3', 'SR2']
df = pd.concat(pd.read_excel(file_, sheetname='General Impact') for file_ in files)
df['Control'] = df.Station.isin(controlstations)
counts = df.groupby(['Control', 'Tidal Mode']).Station.agg('nunique')

所以在这里，您首先将所有的excel文件读入一个数据框，然后添加一个列来指示它是否是控制站，然后使用groupby来计算不同的组合。

counts是一个具有二维索引的系列（对于某些合成数据）：

Control  Tidal Mode
False    Mid-Ebb       2
         Mid-Flood     2
True     Mid-Ebb       2
         Mid-Flood     2

您可以这样访问函数中的值：

total_Mid_Ebb = counts['Mid-Ebb'].sum()
total_Mid_Ebb_Control = counts['Mid-Ebb', True]
total_Mid_Flood = counts['Mid-Flood'].sum()
total_Mid_Flood_Control = counts['Mid-Flood', True]

之后，您可以轻松地将它们添加到数据帧：

import datetime
today = datetime.datetime.today()
totals = [total_Mid_Ebb, total_Mid_Flood, total_Mid_Ebb_Control, total_Mid_Flood_Control]
result = pd.DataFrame(data=[totals], columns=['Mid Ebb Total', 'Mid Flood Total', 'Mid Ebb Control', 'Mid Flood Control'],
                       index=[today])

网友

3楼 · 编辑于 2024-05-13 22:37:38

下面是在循环的每次迭代之后加载数据帧中每列数据的示例。虽然这不是唯一的方法，但它有助于更好地理解概念。

必要的进口

import pandas as pd
from random import randint

首先定义一个由5列组成的空数据框以匹配您的问题

df = pd.DataFrame(columns=['A','B','C','D','E'])

接下来，我们遍历for循环并使用randint()生成值，然后一次向每个列添加一个值，每个列一直以“a”开头，一直到“E”

for i in range(5): #add 5 rows of data
    df.loc[i, ['A']] = randint(0,99)
    df.loc[i, ['B']] = randint(0,99)
    df.loc[i, ['C']] = randint(0,99)
    df.loc[i, ['D']] = randint(0,99)
    df.loc[i, ['E']] = randint(0,99)

我们得到一个有5行填充的DF。

>>> df
    A   B   C   D   E
0   4  74  71  37  90
1  41  80  77  81   8
2  14  16  82  98  89
3   1  77   3  56  91
4  34   9  85  44  19

希望以上的帮助和您能够为您的需要量身打造。

相关问题更多 >

编程相关推荐

热门问题

热门文章