如何优化一个打开并多次读取同一文件的Python脚本？

#!/usr/bin/python # -*- coding: utf-8 -*- from __future__ import division from collections import defaultdict import datetime print "starting:", print datetime.datetime.now() mapping = dict() with open('input-map', "rb") as oSenseFile: for line in oSenseFile: uLine = unicode(line, "utf8") concept, conceptClass = uLine.split() if len(concept) > 2: mapping[concept + '-n'] = conceptClass print "- step 1:", print datetime.datetime.now() lemmas = set() with open('input-data', "rb") as oIndexFile: for line in oIndexFile: uLine = unicode(line, "latin1") lemma = uLine.split()[0] if mapping.has_key(lemma): lemmas.add(lemma) print "- step 2:", print datetime.datetime.now() featFreqs = defaultdict(lambda: defaultdict(float)) with open('input-data', "rb") as oIndexFile: for line in oIndexFile: uLine = unicode(line, "latin1") lemmaTAR, slot, filler, freq = uLine.split() featFreqs[slot][filler] += int(freq) print "- step 3:", print datetime.datetime.now() classFreqs = defaultdict(lambda: defaultdict(lambda: defaultdict(float))) with open('input-data', "rb") as oIndexFile: for line in oIndexFile: uLine = unicode(line, "latin1") lemmaTAR, slot, filler, freq = uLine.split() if lemmaTAR in lemmas: senses = mapping[lemmaTAR].split(u'|') for sense in senses: classFreqs[sense][slot][filler] += (int(freq) / len(senses)) / featFreqs[slot][filler] else: pass print "- step 4:", print datetime.datetime.now() with open('output', 'wb') as oOutFile: for sense in sorted(classFreqs): for slot in classFreqs[sense]: for fill in classFreqs[sense][slot]: outstring = '\t'.join([sense, slot, fill,\ str(classFreqs[sense][slot][fill])]) oOutFile.write(outstring.encode("utf8") + '\n')

1条回答

网友

1楼 · 发布于 2024-05-16 00:29:58

如果我能正确理解代码，就不需要引理集了。您可以删除步骤1并替换步骤3中的签入

    if lemmaTAR in lemmas:

直接与

^{pr2}$

关于内存问题-你有没有试着减少你保存在内存中的数据的开销？当前您正在使用嵌套词典。也许一个扁平的数据结构会占用更少的内存，例如一维featfreq需要一个由“%slot-%filler”构造的键。在

相关问题更多 >

编程相关推荐

热门问题

热门文章