如何从dask数据帧中提取50行？

import dask.dataframe as dd ddf = dd.from_pandas(train_csv, npartitions=30) classes = train_csv.landmark_id.unique() for cl in tqdm(classes): tmpdf = ddf.loc[ddf["landmark_id"] == cl] print(len(tmpdf))

1条回答

网友

1楼 · 发布于 2024-04-26 12:13:06

这行for cl in tqdm(classes):给出了错误

  0%|          | 0/5 [00:00<?, ?it/s]Traceback (most recent call last):
  File "....py", line ...., in <module>
    for cl in tqdm(classes):
  File "...\tqdm\_tqdm.py", line 1000, in __iter__
    for obj in iterable:
  File "...\dask\dataframe\core.py", line 2046, in __getitem__
    raise NotImplementedError()
NotImplementedError

所以我不确定你的代码是如何在循环中打印整数的。你知道吗

无论如何，如果您打印出classes，您将看到它是一个延迟对象（daskSeries）

print(classes)
Dask Series Structure:
npartitions=1
    object
       ...
Name: landmark_id, dtype: object
Dask Name: unique-agg, xx tasks

所以，IIUC，在循环之前需要计算classes。使用其中一个

for cl in tqdm(classes.compute()):

或者

for cl in classes.compute():

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从dask数据帧中提取50行？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >