用Python解析mbox文件

import sys import mailbox def gen_summary(filename): mbox = mailbox.mbox(filename) for message in mbox: subj = message['subject'] print subj if __name__ == "__main__": if len(sys.argv) != 2: print 'Usage: python genarchivesum.py mbox' sys.exit(1) gen_summary(sys.argv[1])

1条回答

网友

1楼 · 发布于 2024-04-27 21:04:58

我还没有测试过，但像这样的东西可能对你有用。只需打开文件（在二进制模式下，这样您的字节计数是正确的），然后扫描它，找到消息。

def is_mail_start(line):
    return line.startswith("From ")

def build_index(fname):
    with open(fname, "rb") as f:
        i = 0
        b = 0
        # find start of first message
        for line in f:
            b += len(line)
            if is_mail_start(line):
                break
        # find start of each message, and yield up (index, length) of previous message
        for line in f:
            if is_mail_start(line):
                yield (i, b)
                i += b
                b = 0
            b += len(line)
        yield (i, b) # yield up (index, length) of last message

# get index as a list
mbox_index = list(build_index(fname))

一旦有了索引，就可以对一个文件对象使用.seek()方法进行搜索，而对文件对象使用.read(length)方法只读取一条消息。不过，我不确定您将如何使用带字符串的mailbox模块；我认为它应该在适当的位置处理邮箱。也许还有其他的邮件解析模块可以使用。

相关问题更多 >

编程相关推荐

热门问题

热门文章