从大表中获取特定数据

2024-03-28 20:37:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用Pandas处理一个非常大的CSV文件(4.2GB),在文件中扫描特定值的实例。考虑到这个文件的大容量,我已经尝试过分块处理,但是我很难想出一个算法来找到值的实例

基本上,我有一组33个参数,其中几个可以在4.2GB表中找到。我有一份2000多名肺炎患者的名单,我需要找到每个患者的每个参数的第一个实例。最终目标是创建一个新表,每个患者一行,每列表示一个不同的参数。为了填满这个表,我首先要处理这个非常大的表。这个大表由每个病人的“图表事件”组成——一个病人可以有数百个事件,整个数据库包括大约40000个病人

希望利用新的表来训练机器学习算法来预测患者的ICU住院时间

到目前为止,我的想法是:

for each parameter:
    for every row in chartevents:
        for every patient:
            if the row contains the parameter for that patient:
                update the new table value for that patient and parameter

显然这是超级低效,所以我希望有人可能知道更好的方法。有关数据的更多信息,请查看this website


Tags: 文件the实例算法患者for参数that