Python：只在特定模式后读取文本

Jerrmy Bret <jeremy.brett@mnop.com> To: Jonathan Small <j.small@xyz.com> FYI... From: Keven Koster <keve.koster@mnop.com> To: Jerrmy Bret <jeremy.brett@mnop.com> Date: 21 Sep 2019 Subject: Approval Required for Travel Can't Approve as Ruth's approval is required

2条回答

网友

1楼 · 编辑于 2024-05-16 00:37:58

如果Approve/Approved/Approval是否在电子邮件的主题或正文中无关紧要，您可以这样做：

import re

text = '''From: Jerrmy Bret <jeremy.brett@mnop.com>
To: Jonathan Small <j.small@xyz.com>
Date: 21 Sep 2019
Subject: Stuff

FYI...

From: Keven Koster <keve.koster@mnop.com>
To: Jerrmy Bret <jeremy.brett@mnop.com>
Date: 21 Sep 2019
Subject: Approval Required for Travel

Can't Approve as Ruth's approval is required

From: Jerrmy Bret <jeremy.brett@mnop.com>
To: Keven Koster <keve.koster@mnop.com>
Date: 21 Sep 2019
Subject: Approval Required for Travel

ok thanks Keven, will talk to Ruth
'''

email_regex = re.compile(
    r'(From:(?:(?!From:).)+)',
    re.DOTALL|re.MULTILINE
)
approval_regex = re.compile(
    r'approv(?:e|ed|al)',
    re.IGNORECASE
)
approved_emails = [
   email for email in email_regex.findall(text)
   if approval_regex.search(email)
]
print(approved_emails)

# output
[
   "From: Keven Koster <keve.koster@mnop.com>\nTo: Jerrmy Bret <jeremy.brett@mnop.com>\nDate: 21 Sep 2019\nSubject: Approval Required for Travel\n\nCan't Approve as Ruth's approval is required\n\n",
   'From: Jerrmy Bret <jeremy.brett@mnop.com>\nTo: Keven Koster <keve.koster@mnop.com>\nDate: 21 Sep 2019\nSubject: Approval Required for Travel\n\nok thanks Keven, will talk to Ruth\n'
]

如果有关系的话，你可以把approval_regex改成这样：

approval_regex = re.compile(
    r'Subject:.+\n.*approv(?:e|ed|al)',
    re.IGNORECASE|re.DOTALL|re.MULTILINE
)

网友

2楼 · 编辑于 2024-05-16 00:37:58

假设您已将这些内容全部转换为文本行，并假设邮件格式是一致的，例如“发件人”字段是新电子邮件的开头和最后一封邮件正文的结尾，“主题”字段是邮件的最后一个标头和正文的开头。当您看到主题行指示下一行是主体时，您可以将标志设置为True。然后，当看到表示主体已结束的From行时，设置该标志。你知道吗

当旗子是真的，你在身体里，你可以做任何你想做的事。在下面的示例代码中，我只是将邮件正文中的所有行（不包括空行）收集到一个列表中。然后，我可以对该列表执行任何我喜欢的操作，例如检查它是否包含approve的行。你知道吗

import re

emails = """
From: Jerrmy Bret <jeremy.brett@mnop.com>
To: Jonathan Small <j.small@xyz.com>
Date: 21 Sep 2019
Subject: Stuff

FYI...

From: Keven Koster <keve.koster@mnop.com>
To: Jerrmy Bret <jeremy.brett@mnop.com>
Date: 21 Sep 2019
Subject: Approval Required for Travel

Can't Approve as Ruth's approval is required

From: Jerrmy Bret <jeremy.brett@mnop.com>
To: Keven Koster <keve.koster@mnop.com>
Date: 21 Sep 2019
Subject: Approval Required for Travel

ok thanks Keven, will talk to Ruth

"""
body = False
email_bodys = []
for line in emails.splitlines():
    if not line:
        continue
    if line.startswith("From: "):
        body = False
    if body:
        email_bodys.append(line)
    if line.startswith("Subject: "):
        body = True
print("email bodys detected in the text are:\n\t" + "\n\t".join(email_bodys))

print("text in body which contain approve:")
for email_body in email_bodys:
    if re.findall(r'approve', email_body, re.I):
        print("\t" + email_body)

输出

email bodys detected in the text are:
    FYI...
    Can't Approve as Ruth's approval is required
    ok thanks Keven, will talk to Ruth
text in body which contain approve:
    Can't Approve as Ruth's approval is required

相关问题更多 >

编程相关推荐

热门问题

热门文章