将文件夹中的多个json文件解压缩到

--------------------------------------------------------------------------- OSError Traceback (most recent call last) <ipython-input-12-a5a84131bb38> in <module> 1 filenames = glob('folder_path/*') ----> 2 jsonobjs = [gzip.open(f, 'rb') for f in filenames] <ipython-input-12-a5a84131bb38> in <listcomp>(.0) 1 filenames = glob('folder_path/*') ----> 2 jsonobjs = [gzip.open(f, 'rb') for f in filenames] ~/anaconda3/lib/python3.7/gzip.py in open(filename, mode, compresslevel, encoding, errors, newline) 51 gz_mode = mode.replace("t", "") 52 if isinstance(filename, (str, bytes, os.PathLike)): ---> 53 binary_file = GzipFile(filename, gz_mode, compresslevel) 54 elif hasattr(filename, "read") or hasattr(filename, "write"): 55 binary_file = GzipFile(None, gz_mode, compresslevel, filename) ~/anaconda3/lib/python3.7/gzip.py in __init__(self, filename, mode, compresslevel, fileobj, mtime) 161 mode += 'b' 162 if fileobj is None: --> 163 fileobj = self.myfileobj = builtins.open(filename, mode or 'rb') 164 if filename is None: 165 filename = getattr(fileobj, 'name', '') OSError: [Errno 24] Too many open files: 'folder_path/d2ea1c35275b495fb73cb123cdf4fe4c'

TypeError Traceback (most recent call last) <ipython-input-10-bd68570238cd> in <module> ----> 1 with gzip.open(glob('folder_path/*'), 'rb') as f: 2 file_content = f.read() TypeError: 'module' object is not callable

1条回答

网友

1楼 · 发布于 2024-04-24 20:50:51

我已经引导OP完成了一些更改，以解决初步的回溯问题，这应该允许OP在较小的数据集上运行此过程。然而，真正的问题是数据集太大，无法真正做到这一点。由于目标是训练LDA模型，我建议OP调查支持在线学习的图书馆，这样模型就可以在没有不可能的内存占用的情况下建立起来

这并不是对“将多个json文件从文件夹解压缩到文件夹”这一更一般主题的回答，但这并不是真正的主要问题。以下（未测试的）代码可以在文件夹中的gzip文件上循环，并将每个文件读入数据帧。然后concat或根据需要处理这些数据帧

from glob import glob
import gzip

for fname in glob('folder_path/*gz'):
    with gzip.open(fname, 'rb') as f:
        df = pd.read_json(f)

请注意，使用pandas在许多文件上执行此操作非常缓慢。您最好读取和解析原始JSON结构，根据需要清理/转换它们，然后在所有组合数据（或数据块）上形成最终的数据帧。或者，如果不是真的有必要的话，完全避免熊猫

相关问题更多 >

编程相关推荐

热门问题

热门文章