更高效的解析和处理大文件的JSON对象的方法

Question

下面的代码怎么优化？（用Python可以吗，还是应该换个工具？）

这是我在Stack Overflow上问过的最疯狂的问题，但我想试试，希望能得到一些建议，看看我是否在用正确的工具和方法来高效处理大量数据。我并不一定在寻找代码优化的帮助，除非我完全忽略了什么，但我主要想知道是否应该完全换个框架，而不是继续用Python。我对Python还不够熟悉，不太确定是否能更高效地处理大量数据并存储到数据库中。

下面的实现代码是用来读取一个目录中的文本文件：

每个文本文件里有5万行的JSON对象……
这些对象需要被解析、读取，然后转换成CSV格式，最后再加载到数据库中。
我不喜欢使用列表容器，希望能找到其他方法在Python中实现这个功能，做得更好。我最初的想法是应该使用生成器，但还不太确定。
最后的那个疯狂的连接部分很重要，因为它把用逗号分隔的列表转换成了自己的行。将用字符串分隔的列转换为行

代码：

  triggerZipFiles = glob.glob('*.zip')
  for triggerFiles in triggerZipFiles:
      with zipfile.ZipFile(triggerFiles, 'r') as myzip:
          for logfile in myzip.namelist():
              datacc = []
              zipcc = []
              csvout = '{}_US.csv'.format(logfile[:-4])
              f = myzip.open(logfile)
              contents = f.readlines()
              for line in contents:
                  try:
                      parsed = json.loads(line[:-2])
                      if "CC" in parsed['data']['weatherType'] and "US" in parsed['zipcodes']:
                          datacc.append(parsed['data'])
                          zipcc.append(parsed['zipcodes'])
                  except:
                      pass
              if len(datacc) > 0:
                  df = pd.concat([pd.DataFrame(zipcc), pd.DataFrame(datacc)], axis=1)
                  df = pd.concat((pd.Series((v, row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key'], row['key'], row['key'],
                    row['key'], row['key'], row['key'], row['key']), df.columns) for _,
                      row in df.iterrows() for v in row['US']), axis=1).T                
                  df.to_csv(csvout, header=None, index=False)
              else:
                  pass
              print datetime.now().strftime('%Y/%m/%d %H:%M:%S') + ": Finished: {}".format(logfile)

生成器数据转换大文件处理 json解析 csv格式数据库加载文本文件读取数据处理优化

更高效的解析和处理大文件的JSON对象的方法

1 个回答

撰写回答