从Dask数据帧创建Keras数据集(tensorflow_decision_forests)

2024-05-23 15:55:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Dask加载存储在SQLite数据库中的一个相当大的数据集(比我现有的可用RAM大得多),如下所示:

df = dd.read_sql_table("22", "sqlite:///db.sqlite", index_col="id")

然后,我想使用tensorflow_decision_forests来尝试使一些模型适合数据。根据tensorflow_decision_forests的文档,以下内容适用于熊猫数据帧:

import tensorflow_decision_forests as tfdf
train_ds = tfdf.keras.pd_dataframe_to_tf_dataset(df, label="species")
model = tfdf.keras.RandomForestModel()
model.fit(train_ds)

然而,当我在Dask数据帧中使用tfdf.keras.pd_dataframe_to_tf_dataset时,很长一段时间内没有任何事情发生,然后python会突然终止,并发出SIGTERM信号。我猜这不是将Dask数据帧转换为Keras数据集的正确方法,尽管不会引发错误/异常。使用存储在Keras Dask数据帧中的数据的正确方法是什么?具体来说,将Dask数据帧转换为Keras数据集的正确方法是什么


Tags: 数据方法dataframedfsqlitetensorflowdstrain