数据帧使用前面的行生成变量

Index Date Sender Recipient Quantity Type ------------------------------------------------------------------------ 79XT 26-03-19 Adam Tiffany 72 Box 57ZY 14-03-19 Josh Ross 13 Snack 29UQ 19-03-19 Adam Alex 60 Fruit 56PY 06-03-19 Lucy Alex 29 Book 41BR 28-03-19 Josh Steve 33 Snack

Index Date Sender Recipient Quantity Type Days Since Days Since Cumulative Quantity Increase First Shipment Previous Shipment First Shipment Quantity from Previous Shipment to This Recipient? --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 79XT 26-03-19 Adam Tiffany 72 Box 7 62 1792 12 0 57ZY 14-03-19 Josh Ross 13 Snack NaN NaN 13 NaN 1 29UQ 19-03-19 Adam Alex 60 Fruit 5 55 1730 -7 1 56PY 06-03-19 Lucy Alex 29 Book 23 32 88 -4 0 41BR 28-03-19 Josh Steve 33 Snack 14 14 46 20 1

2条回答

网友

1楼 · 编辑于 2024-05-14 09:33:50

我在你的问题中看到了多个子问题

最后发生看看这个方法：Getting days since last occurence in Pandas DataFrame? 讨论了计算效率
首次出现：

df = df.merge(df.groupby("sender").agg(first_occurence_date=("Date","min"))["sender", "first_occurrence_date"], on="sender", how="left")
# Computationally likely inefficient, and doesn't solve multiple file-issue immediately.

计算效率高的解决方案：为了快速阅读，考虑使用^ {CD1}}作为一种有效的存储格式。此操作的标准会更改，因此始终保留.csv作为备份。您可以像这样df.to_feather("filename")编写一个文件作为feather

考虑用Pandas Docs: pd.Factorize()中描述的{{CD4}}来对字符串进行分解。我在这上面没有看到基准，但比较^ {CD5>}要比^ {CD6>}快。

<>最后，考虑建立一个小的SqLeTe3数据库，读取各个文件并存储它们。否则，获取第一个匹配项将是一件痛苦的事情，因为您必须不断覆盖旧值并多次执行计算代价高昂的操作

网友

2楼 · 编辑于 2024-05-14 09:33:50

这里我有一个不同的方法。我会尽力的

将所有csv转换为parquet（最终看到这个answer）更改dtypes。至少

df['Date'] = df['Date'].astype("M8")

或

df['Date'] = pd.to_datetime(df['Date'])

由发送方重新进行分区。我假设所有拼花文件都在processed文件夹中

import dask.dataframe as dd
df = dd.read_parquet('processed')
df.to_parquet('processed2', partition_on='Sender')

现在您在每个Sender=username中都有许多文件，您应该将它们合并到一个文件中
现在可以为每个Sender=username创建函数

def fun(df):
    df = df.sort_values("Date")
    df["Day Since Prev Shipment"] = df["Date"].diff().dt.days
    df["Day Since First Shipment"](df["Date"] - df["Date"].min()).dt.days
    df["Cumulative Quantity"] = df["Quantity"].cumsum() 
    df["Quantity difference"] = df["Quantity"].diff()
    grp = df.groupby("Recipient")["Date"].min().reset_index(name="First Shipment")
    df = pd.merge(df, grp, how="left", on="Recipient")
    df["First Shipment"] = (df["Date"]==df["First Shipment"]).astype("int8")
    return df

相关问题更多 >

编程相关推荐

热门问题

热门文章