如何使用dask读取csv并处理行？

import json import sys from datetime import datetime from hashlib import md5 import dask.dataframe as dd import dask.multiprocessing import pandas as pd from kyotocabinet import * class IndexInKyoto: def hash_string(self, string): return md5(string.encode('utf-8')).hexdigest() def dbproc(self, db): db[self.hash_string(self.row)] = self.row def index_row(self, row): self.row = row DB.process(self.dbproc, "index.kch") start_time = datetime.utcnow() row_counter = 0 ob = IndexInKyoto() df = dd.read_csv("/Users/aviralsrivastava/dev/levelsdb-learning/10gb.csv", blocksize=1000000) df = df.compute(scheduler='processes') # convert to pandas df = df.to_dict(orient='records') for row in df: ob.index_row(row) print("Total time:") print(datetime.utcnow-start_time)

1条回答

网友

1楼 · 发布于 2024-04-19 15:36:53

df = df.compute(scheduler='processes')     # convert to pandas

别这样！在

您将在单独的进程中加载片段，然后在主进程中将要缝合的所有数据传输到单个数据帧中。这只会增加处理的开销，并在内存中创建数据的副本。在

如果您只想（出于某种原因）将每一行打印到控制台，那么您可以很好地使用Pandas streaming CSV reader（pd.read_csv(chunksize=..)）。你可以使用Dask的chunking来运行它，如果你在读取数据的工人中进行打印，可能会得到一个加速：

^{pr2}$

请注意，for row in df实际上为您提供了列，可能您需要iterrows，或者您实际上想以某种方式处理数据。在

相关问题更多 >

编程相关推荐

热门问题

热门文章