将压缩后的数组完全从磁盘加载到内存（同样）压缩的智能方法是什么？

Name: /data Type: zarr.core.Array Data type: int16 Shape: (102174, 1100, 900) Chunk shape: (12, 220, 180) Order: C Read-only: True Compressor: Blosc(cname='zstd', clevel=3, shuffle=BITSHUFFLE, blocksize=0) Store type: zarr.storage.DirectoryStore No. bytes: 202304520000 (188.4G) No. bytes stored: 12224487305 (11.4G) Storage ratio: 16.5 Chunks initialized: 212875/212875

import os import zarr from numcodecs import Blosc import tqdm zpath = '...' # path to zarr data folder disk_array = zarr.open(zpath, mode = 'r')['data'] c = Blosc(cname = 'zstd', clevel=3, shuffle = Blosc.BITSHUFFLE) memory_array = zarr.zeros( disk_array.shape, chunks = disk_array.chunks, dtype = disk_array.dtype, compressor = c )

chunk_lines = disk_array.chunks[0] chunk_number = disk_array.shape[0] // disk_array.chunks[0] chunk_remain = disk_array.shape[0] % disk_array.chunks[0] # unhandled ... for chunk in tqdm.trange(chunk_number): chunk_slice = slice(chunk * chunk_lines, (chunk + 1) * chunk_lines) memory_array[chunk_slice, :, :] = disk_array[chunk_slice, :, :]

2条回答

网友
1楼 · 编辑于 2024-05-28 22:20:17

您可以尝试使用^{}，它有一个.make_mapper()方法，您可以使用该方法生成zarr所期望的对象类型。你知道吗
然而，这真的只是一句格言路径：io.BytesIO如果你愿意，你可以自己做。你知道吗

网友
2楼 · 编辑于 2024-05-28 22:20:17

今天有几种方法可以解决这个问题。你知道吗
使用^{}在内存中缓存（一些）压缩数据。你知道吗
将底层存储强制为dict，并将其用作存储。你知道吗
如果您只希望内存中有一些常用数据，那么第一个选项可能是合适的。当然，您可以配置加载到内存中的量。所以这可能是整个阵列。这只会发生在按需数据的情况下，这可能对您有用。你知道吗
第二个选项只是通过从磁盘中提取所有压缩数据来创建阵列的新内存副本。一个缺点是，如果你打算写回磁盘，这将是你需要手动做的事情，但它不是太难。^{} method对于促进不同存储之间的数据复制非常方便。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章