Python新手来了。我想浏览一个大型的mbox文件,解析电子邮件。我能做到的是:
import sys
import mailbox
def gen_summary(filename):
mbox = mailbox.mbox(filename)
for message in mbox:
subj = message['subject']
print subj
if __name__ == "__main__":
if len(sys.argv) != 2:
print 'Usage: python genarchivesum.py mbox'
sys.exit(1)
gen_summary(sys.argv[1])
但我需要更多的控制。我需要能够在mbox文件中获得给定电子邮件开始的字节位置,还需要获得消息中的字节数(如磁盘上所示)。然后在将来,我不需要从mbox文件的开头进行迭代,而是需要能够寻找给定的消息并对其进行解析(这也是获得磁盘上字节位置的需要之一)。这些是大型mbox文件,效率是一个问题。
所有这一切的目的是,我可以生成一个摘要文件,其中包含关于mbox中每个电子邮件的一些小部分,然后在未来有效地查找mbox中的各个电子邮件。
我还没有测试过,但像这样的东西可能对你有用。只需打开文件(在二进制模式下,这样您的字节计数是正确的),然后扫描它,找到消息。
一旦有了索引,就可以对一个文件对象使用
.seek()
方法进行搜索,而对文件对象使用.read(length)
方法只读取一条消息。不过,我不确定您将如何使用带字符串的mailbox
模块;我认为它应该在适当的位置处理邮箱。也许还有其他的邮件解析模块可以使用。相关问题 更多 >
编程相关推荐