加载多个csv文件后在dask中运行操作时出现问题

2024-04-23 07:53:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试开始使用dask来处理一些ML项目中的大数据集。将单一的CSV文件加载到dask数据帧工作正常。当我尝试使用多个CSV文件时,任何类似“计算”的操作都会导致程序无限期挂起。你知道吗

这个很好

import dask.dataframe as dd
import pandas as pd
import dask
from dask.distributed import Client

client = Client(processes=False)
df = dd.read_csv('sftp://somestuff//4120109.csv')
shape = dask.delayed(print)(df.shape)
shape.compute()

输出:(3600、3723)

以下代码无限期挂起

import dask.dataframe as dd
import pandas as pd
import dask
from dask.distributed import Client

client = Client(processes=False)
df = dd.read_csv('sftp://somestuff//412010*.csv')
shape = dask.delayed(print)(df.shape)
shape.compute()

它应该加载10个匹配的文件并给出(360003273)的形状 我知道它特别挂在墙上形状.计算()在放入一些选择打印行后的行。任何帮助都将不胜感激!!!你知道吗


Tags: 文件csv数据importclientdataframepandasdf