我正在尝试开始使用dask来处理一些ML项目中的大数据集。将单一的CSV文件加载到dask数据帧工作正常。当我尝试使用多个CSV文件时,任何类似“计算”的操作都会导致程序无限期挂起。你知道吗
这个很好
import dask.dataframe as dd
import pandas as pd
import dask
from dask.distributed import Client
client = Client(processes=False)
df = dd.read_csv('sftp://somestuff//4120109.csv')
shape = dask.delayed(print)(df.shape)
shape.compute()
输出:(3600、3723)
以下代码无限期挂起
import dask.dataframe as dd
import pandas as pd
import dask
from dask.distributed import Client
client = Client(processes=False)
df = dd.read_csv('sftp://somestuff//412010*.csv')
shape = dask.delayed(print)(df.shape)
shape.compute()
它应该加载10个匹配的文件并给出(360003273)的形状 我知道它特别挂在墙上形状.计算()在放入一些选择打印行后的行。任何帮助都将不胜感激!!!你知道吗
你不应该混在一起延迟交货以及数据帧. 可能你只是想打电话给
dask.compute(df.shape)
https://docs.dask.org/en/latest/delayed-best-practices.html#don-t-call-dask-delayed-on-other-dask-collections
相关问题 更多 >
编程相关推荐