Python中电子邮件文本的提取

2024-05-12 16:31:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我的用户将通过电子邮件向我发送帖子ala Posterous

我正在使用谷歌应用引擎(GAE)来接收和解析电子邮件。GAE返回消息的文本部分。在

我需要从邮件的纯文本部分提取帖子。在

纯文本可能会被促销页眉、页脚、签名等“污染”

另外,我想省去“请张贴此:”或类似的一些人坦率地包括。在

你怎么做到的?在

有什么工具(比regex简单)我能用吗?在

更新

示例:

(在所有这些例子中,帖子都是“Lorem ipsum sit amet…”

====

Lorem ipsum悲哀地坐在阿美特,奉献给一位优秀的运动员,他在劳动和工作中的时间安排。我是一个很小的人,我是一个普通人的实验室。这是一个令人愉快的节日,它是一个令人愉快的节日。在

维克多p
胜利者。邮箱:p@example.com
访问我的博客:www.example.com/victor在

====

你好,我喜欢你的网页。请填写以下内容:Lorem ipsum dolor sit amet,concetetur adipiscing elit,sed do eiusmod tempor incidunt ut labore et dolore magna aliqua。我是一个很小的人,我是一个普通人的实验室。这是一个令人愉快的节日,它是一个令人愉快的节日。在

====

Lorem ipsum悲哀地坐在阿美特,奉献给一位优秀的运动员,他在劳动和工作中的时间安排。在

我是一个很小的人,我是一个普通人的实验室。在

这是一个令人愉快的节日,它是一个令人愉快的节日。在

====

如果你发现更多电子邮件的例子,请随时在帖子中包含它们。在


Tags: 文本comexample电子邮件时间实验室帖子例子
1条回答
网友
1楼 · 发布于 2024-05-12 16:31:16

我会列出一系列编译过的正则表达式。大致如下:

import re

regexes = (
    re.compile("visit my blog at: .*$", re.IGNORECASE),
    re.compile("please post this:", re.IGNORECASE),
    re.compile("please can you include this:", re.IGNORECASE)
    # etc
)

for filePath in files:
    with open(filePath) as file:
        for line in file:
            for regex in regexes:
                print(re.sub(regex, ""))

相关问题 更多 >