Python应用在Pandas合并时经常OOM崩溃

Question

我有一个轻量级的Python应用程序，它应该完成一个非常简单的任务，但由于内存不足（OOM）而不断崩溃。

应用程序的功能

从.parquet文件加载数据到数据框（dataframe）
使用stockstats包计算指标
将新计算的数据合并到原始数据框中，以便在一个数据框中同时包含OHCL和SUPERTREND -> 在这里崩溃
将数据框存储为.parquet文件

崩溃的位置

df = pd.merge(df, st, on=['datetime'])

使用的技术

Python 3.10
pandas~=2.1.4
stockstats~=0.4.1
Kubernetes 1.28.2-do.0（在Digital Ocean上运行）

奇怪的是，数据框非常小（df.size是208446，文件大小是1.00337 MB，内存使用量是1.85537 MB）。

测量结果

import os

file_stats = os.stat(filename)
file_size = file_stats.st_size / (1024 * 1024)  # 1.00337 MB

df_mem_usage = dataframe.memory_usage(deep=True)
df_mem_usage_print = round(df_mem_usage.sum() / (1024 * 1024), 6   # 1.85537 MB

df_size = dataframe.size  # 208446

部署信息

应用程序通过Helm部署到Kubernetes，设置了以下资源

resources:
  limits:
    cpu: 1000m
    memory: 6000Mi
  requests:
    cpu: 1000m
    memory: 1000Mi

~~我使用的是4个虚拟CPU和8GB内存的节点，并且节点没有性能压力。~~我创建了一个专用节点池，配置为8个虚拟CPU和16GB的节点，但问题依旧。

kubectl top node test-pool
NAME              CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%
test-pool-j8t3y   38m          0%     2377Mi          17%

Pod信息

kubectl describe pod xxx
...
    State:          Waiting
      Reason:       CrashLoopBackOff
    Last State:     Terminated
      Reason:       OOMKilled
      Exit Code:    137
      Started:      Sun, 24 Mar 2024 16:08:56 +0000
      Finished:     Sun, 24 Mar 2024 16:09:06 +0000
...

这是来自Grafana的CPU和内存消耗情况。我知道很短的内存或CPU峰值很难看到，但从长期来看，应用程序并没有消耗很多RAM。另一方面，根据我的经验，我们在内存更少的容器上使用相同的pandas操作，数据框要大得多，但没有问题。

我该如何解决这个问题？还有什么我应该调试的，以防止内存不足？

数据和代码示例

原始数据框（命名为df）

              datetime   open   high    low  close        volume
0  2023-11-14 11:15:00  2.185  2.187  2.171  2.187  19897.847314
1  2023-11-14 11:20:00  2.186  2.191  2.183  2.184   8884.634728
2  2023-11-14 11:25:00  2.184  2.185  2.171  2.176  12106.153954
3  2023-11-14 11:30:00  2.176  2.176  2.158  2.171  22904.354082
4  2023-11-14 11:35:00  2.171  2.173  2.167  2.171   1691.211455

新数据框（命名为st）。
注意：如果trend_orientation = 1 => st_lower = NaN，如果-1 => st_upper = NaN

              datetime   supertrend_ub  supertrend_lb    trend_orientation    st_trend_segment
0  2023-11-14 11:15:00   0.21495        NaN              -1                   1
1  2023-11-14 11:20:00   0.21495        NaN              -10                  1
2  2023-11-14 11:25:00   0.21495        NaN              -11                  1
3  2023-11-14 11:30:00   0.21495        NaN              -12                  1
4  2023-11-14 11:35:00   0.21495        NaN              -13                  1

代码示例

import pandas as pd
import multiprocessing
import numpy as np
import stockstats


def add_supertrend(market):
    try:
        # Read data from file
        df = pd.read_parquet(market, engine="fastparquet")

        # Extract date columns
        date_column = df['datetime']

        # Convert to stockstats object
        st_a = stockstats.wrap(df.copy())
        # Generate supertrend
        st_a = st_a[['supertrend', 'supertrend_ub', 'supertrend_lb']]

        # Add back datetime columns
        st_a.insert(0, "datetime", date_column)

        # Add trend orientation using conditional columns
        conditions = [
            st_a['supertrend_ub'] == st_a['supertrend'],
            st_a['supertrend_lb'] == st_a['supertrend']
        ]
        
        values = [-1, 1]
        st_a['trend_orientation'] = np.select(conditions, values)

        # Remove not required supertrend values
        st_a.loc[st_a['trend_orientation'] < 0, 'st_lower'] = np.NaN
        st_a.loc[st_a['trend_orientation'] > 0, 'st_upper'] = np.NaN

        # Unwrap back to dataframe
        st = stockstats.unwrap(st_a)

        # Ensure correct date types are used
        st = st.astype({
            'supertrend': 'float32',
            'supertrend_ub': 'float32',
            'supertrend_lb': 'float32',
            'trend_orientation': 'int8'
        })
        # Add trend segments
        st_to = st[['trend_orientation']]
        st['st_trend_segment'] = st_to.ne(st_to.shift()).cumsum()
        
        # Remove trend value
        st.drop(columns=['supertrend'], inplace=True)

        # Merge ST with DF
        df = pd.merge(df, st, on=['datetime'])
        
        # Write back to parquet
        df.to_parquet(market, compression=None)
    except Exception as e:
        # Using proper logger in real code
        print(e)
        pass


def main():
    # Using fixed market as example, in real code market is fetched
    market = "BTCUSDT"
    # Using multiprocessing to free up memory after each iteration
    p = multiprocessing.Process(target=add_supertrend, args=(market,))
    p.start()
    p.join()


if __name__ == "__main__":
    main()

Dockerfile

FROM python:3.10

ENV PYTHONFAULTHANDLER=1 \
    PYTHONHASHSEED=random \
    PYTHONUNBUFFERED=1 \
    PYTHONPATH=.

# Adding vim
RUN ["apt-get", "update"]

# Get dependencies
COPY requirements.txt .
RUN pip3 install -r requirements.txt

# Copy main app
ADD . .
CMD main.py

可能的解决方案/尝试的方法

❌: 尝试过；没有成功
: 一个我打算测试的想法
: 没有完全解决问题，但对解决方案有所帮助
✅: 可行的解决方案

Lukasz Tracewski的建议

使用节点压力驱逐来测试Pod是否能够在节点上分配足够的内存

我已经做了：

创建了新的节点池：8vCPU + 16 GB RAM
确保只有我的Pod（和一些系统Pod）会部署在这个节点上（使用容忍和亲和性）
进行了压力测试，没有出现内存不足或其他错误

...
          image: "polinux/stress"
          command: ["stress"]
          args: ["--vm", "1", "--vm-bytes", "5G", "--vm-hang", "1"]
...

kubectl top node test-pool-j8t3y
NAME              CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%
test-pool-j8t3y   694m         8%     7557Mi          54%

节点描述

  Namespace                   Name                                   CPU Requests  CPU Limits  Memory Requests  Memory Limits  Age
  ---------                   ----                                   ------------  ----------  ---------------  -------------  ---
  kube-system                 cilium-24qxl                           300m (3%)     0 (0%)      300Mi (2%)       0 (0%)         43m
  kube-system                 cpc-bridge-proxy-csvvg                 100m (1%)     0 (0%)      75Mi (0%)        0 (0%)         43m
  kube-system                 csi-do-node-tzbbh                      0 (0%)        0 (0%)      0 (0%)           0 (0%)         43m
  kube-system                 disable-systemd-upgrade-timer-mqjsk    0 (0%)        0 (0%)      0 (0%)           0 (0%)         43m
  kube-system                 do-node-agent-dv2z2                    102m (1%)     0 (0%)      80Mi (0%)        300Mi (2%)     43m
  kube-system                 konnectivity-agent-wq5p2               0 (0%)        0 (0%)      0 (0%)           0 (0%)         43m
  kube-system                 kube-proxy-gvfrv                       0 (0%)        0 (0%)      125Mi (0%)       0 (0%)         43m
  scanners                    data-gw-enrich-d5cff4c95-bkjkc         100m (1%)     1 (12%)     1000Mi (7%)      6000Mi (43%)   2m33s

Pod没有因为内存不足而崩溃。所以很可能问题出在代码的某个地方。

详细的内存监控

我在多个点插入了内存测量。我使用psutil测量数据框的大小和内存使用情况。

import psutil

total = round(psutil.virtual_memory().total / 1000 / 1000, 4)
used = round(psutil.virtual_memory().used / 1000 / 1000, 4)
pct = round(used / total * 100, 1)
logger.info(f"[Current memory usage is: {used} / {total} MB ({pct} %)]")

内存使用情况

在从文件读取数据之前
- RAM: 938.1929 MB
在数据框加载后
- df_mem_usage: 1.947708 MB
- RAM: 954.1181 MB
在生成ST之后
- ST数据框的df_mem_usage: 1.147757 MB
- RAM: 944.9226 MB
在数据框合并之前
- df_mem_usage: 945.4223 MB

❌ 不使用`multiprocessing`

为了“重置”每次迭代的内存，我使用了multiprocessing。但是我想确保这不会造成问题。我已经去掉了它，直接调用add_supertrend。但结果还是内存不足，所以我认为这不是问题所在。

真实数据

根据Lukasz Tracewski的建议，我分享了导致内存不足崩溃的真实数据。由于它们是parquet格式，我无法使用像pastebin这样的服务，所以我使用了GDrive。这个文件夹将用于分享与这个问题相关的其他内容。

GDrive文件夹

❌ 升级pandas到`2.2.1`

有时候简单的包升级可能会有所帮助，所以我决定尝试将pandas升级到2.2.1，同时将fastparquet升级到2024.2.0（更新的pandas需要更新的fastparquet）。pyarrow也升级到了15.0.0。

在最初的几次迭代中似乎有效，但之后又崩溃了，出现内存不足。

❌ 使用Dask

我记得在处理复杂的数据框操作时，我曾使用过Dask。所以我也尝试在这种情况下使用它。但没有成功，还是内存不足。使用的版本是dask 2024.3.1。

import dask.dataframe as dd
# mem usage 986.452 MB
ddf1 = dd.from_pandas(df)
# mem usage 1015.37 MB
ddf2 = dd.from_pandas(st)
# mem usage 1019.50 MB
df_dask = dd.merge(ddf1, ddf2, on='datetime')
# mem usage 1021.56 MB
df = df_dask.compute() <- here it crashes ¯\_(ツ)_/¯

重复的时间戳

在用Dask调查数据时，我注意到datetime列中有重复记录。这显然是不对的，时间戳必须是唯一的。我认为这可能导致了问题。我会进一步调查。

df.tail(10)
             datetime   open   high     low   close         volume
0 2024-02-26 02:55:00  0.234  0.238  0.2312  0.2347  103225.029408
0 2024-02-26 02:55:00  0.234  0.238  0.2312  0.2347  103225.029408
0 2024-02-26 02:55:00  0.234  0.238  0.2312  0.2347  103225.029408
0 2024-02-26 02:55:00  0.234  0.238  0.2312  0.2347  103225.029408
0 2024-02-26 02:55:00  0.234  0.238  0.2312  0.2347  103225.029408
0 2024-02-26 02:55:00  0.234  0.238  0.2312  0.2347  103225.029408
0 2024-02-26 02:55:00  0.234  0.238  0.2312  0.2347  103225.029408
0 2024-02-26 02:55:00  0.234  0.238  0.2312  0.2347  103225.029408
0 2024-02-26 02:55:00  0.234  0.238  0.2312  0.2347  103225.029408
0 2024-02-26 02:55:00  0.234  0.238  0.2312  0.2347  103225.029408

我在准备数据的其他组件中实现了一个修复，去除了重复记录。修复的代码如下，我将监控这是否会有所帮助。

    # Append gathered data to df and write to file
    df = pd.concat([df, fresh_data])

    # Drop duplicates
    df = df.drop_duplicates(subset=["datetime"])

内存管理数据框数据合并 dask Kubernetes OOM Helm Grafana

Python应用在Pandas合并时经常OOM崩溃

应用程序的功能

崩溃的位置

使用的技术

部署信息

数据和代码示例

Lukasz Tracewski的建议

详细的内存监控

❌ 不使用`multiprocessing`

真实数据

❌ 升级pandas到`2.2.1`

❌ 使用Dask

重复的时间戳

2 个回答

撰写回答

Python应用在Pandas合并时经常OOM崩溃

应用程序的功能

崩溃的位置

使用的技术

部署信息

数据和代码示例

Lukasz Tracewski的建议

详细的内存监控

❌ 不使用multiprocessing

真实数据

❌ 升级pandas到2.2.1

❌ 使用Dask

重复的时间戳

2 个回答

撰写回答

❌ 不使用`multiprocessing`

❌ 升级pandas到`2.2.1`