擅长:python、mysql、java
<p>我认为对于标准的Python数据结构,比如<code>defaultdict</code>,这应该是直接的。除非内存非常有限,否则我看不出1gb文件使用直接方法会有问题的原因。在</p>
<p>类似(未测试):</p>
<pre><code>from collections import defaultdict
import csv
import json
out_data = defaultdict(lambda: {"inkeys": [], "outkeys": [], "values": []})
with file("your-file.csv") as f:
reader = csv.reader(f):
for line in reader:
tid, inkey, outkey, value = line
out_data[tid]["inkeys"].append(inkey)
out_data[tid]["outkeys"].append(outkey)
out_data[tid]["values"].append(value)
print(json.dumps(out_data))
</code></pre>
<p>也许有一种更快或更高效的方法来处理Pandas或其他人的问题,但是简单和零依赖性会有很长的路要走。在</p>