我有两个相当大的文件,JSON(185000行)和CSV(650000行)。我需要遍历JSON文件中的每个dict,然后在该文件中遍历part_numbers
中的每个部分,并对其进行比较,以获得CSV中找到该部分的前三个字母。你知道吗
出于某种原因,我很难做到这一点。我的剧本的第一个版本太慢了,所以我想加快速度
JSON示例:
[
{"category": "Dryer Parts", "part_numbers": ["ABC", "DEF", "GHI", "JKL", "MNO", "PQR"], "parent_category": "Dryers"},
{"category": "Washer Parts", "part_numbers": ["ABC", "DEF", "GHI", "JKL", "MNO", "PQR"], "parent_category": "Washers"},
{"category": "Sink Parts", "part_numbers": ["ABC", "DEF", "GHI", "JKL", "MNO", "PQR"], "parent_category": "Sinks"},
{"category": "Other Parts", "part_numbers": ["ABC", "DEF", "GHI", "JKL", "MNO", "PQR"], "parent_category": "Others"}
]
CSV:
WCI|ABC
WPL|DEF
BSH|GHI
WCI|JKL
结束语如下:
{"category": "Other Parts",
"part_numbers": ["WCIABC","WPLDEF","BSHGHI","JKLWCI"...]}
下面是一个我到目前为止所做的示例,它返回IndexError: list index out of range
at if (part.rstrip() == row[1]):
:
import csv
import json
from multiprocessing import Pool
def find_part(item):
data = {
'parent_category': item['parent_category'],
'category': item['category'],
'part_numbers': []
}
for part in item['part_numbers']:
for row in reader:
if (part.rstrip() == row[1]):
data['part_numbers'].append(row[0] + row[1])
with open('output.json', 'a') as outfile:
outfile.write(' ')
json.dump(data, outfile)
outfile.write(',\n')
if __name__ == '__main__':
catparts = json.load(open('catparts.json', 'r'))
partfile = open('partfile.csv', 'r')
reader = csv.reader(partfile, delimiter='|')
with open('output.json', 'w+') as outfile:
outfile.write('[\n')
p = Pool(50)
p.map(find_part, catparts)
with open('output.json', 'a') as outfile:
outfile.write('\n]')
只要csv中存在所有零件号,这就可以工作。你知道吗
正如我在评论中所说的,您的代码(现在)给了我一个
NameError: name 'reader'
函数中没有定义的find_part()
。修复方法是将csv.reader
的创建移到函数中。我还更改了文件的打开方式,以使用with
上下文管理器和newline
参数。这也解决了一堆单独的任务试图同时读取同一个csv文件的问题。你知道吗您的方法非常低效,因为它读取
'partfile.csv'
文件中每个部分的整个item['part_numbers']
。尽管如此,以下方法似乎有效:下面是一个更有效的版本,每个子进程只读取一次整个
'partfile.csv'
文件:虽然可以将
'partfile.csv'
数据读入主任务中的内存,并将其作为参数传递给find_part()
子任务,但这样做只意味着每个进程都必须对数据进行pickle和unpickle。您需要运行一些计时测试来确定这是否比使用csv
模块显式读取要快,如上图所示。你知道吗还要注意的是,在将任务提交给
Pool
之前,对'carparts.json'
文件中的数据加载进行预处理并从每一行的第一个元素中去掉尾随的空格也会更有效,因为这样就不需要反复执行find_part()
中的part = part.rstrip()
。同样,我不知道这样做是否值得付出努力,只有计时测试才能确定答案。你知道吗我想我找到了。您的CSV阅读器与许多其他文件访问方法类似:您按顺序读取文件,然后点击EOF。当您尝试对第二部分执行相同的操作时,文件已经处于EOF,并且第一次
read
尝试返回空结果;这没有第二个元素。你知道吗如果要再次访问所有记录,则需要重置文件书签。最简单的方法是使用
另一种方法是关闭并重新打开文件。你知道吗
这能让你动起来吗?你知道吗
相关问题 更多 >
编程相关推荐