python识别emai中的文本

2024-04-25 00:08:10 发布

您现在位置:Python中文网/ 问答频道 /正文

想象一下你收到这样的电子邮件:

name1: value
name2: value
name3: value

这些值应插入到数据库中,列名称应等于电子邮件中的名称

然而,这些电子邮件可能有一些错误,例如拼写错误,或者使用缩写而不是全名。 此外,作者可能会随机选择更改名称,例如将bike更改为bicycle

这些电子邮件应该被自动处理,即使它有错误。处理脚本应该能够“修复”错误

我以为一个文本分类(卷积)神经网络可以做这项工作,但它似乎是过度杀伤力。有更好或更简单的解决方案吗


Tags: 文本脚本名称数据库value电子邮件错误作者
1条回答
网友
1楼 · 发布于 2024-04-25 00:08:10

这里有一些想法,因为您事先知道键(列名)。假设有colordensity

  • 您可以使用编辑距离(例如Levenshtein距离)之类的方法将任何未识别的距离与最接近的实际距离进行匹配(如果距离足够近)。比如说,cloor可以与color匹配,因为编辑距离是1(但是,如果有几个匹配具有足够低的编辑距离,您可能希望安全起见,而不是映射数据
  • 类似地,对于缩写词,您可以选择按唯一前缀来映射它们,即如果有人使用dens,并且只有一列(density)以dens开头,您可以放心地想象它是density

对于所有未映射的列,我会在数据库中添加一个“stash”列,您可以将无法识别的数据放入(比如说,JSON格式),并让脚本通知操作员(您!)关于无法识别的键,因此可以改进逻辑,并使用该逻辑将数据从存储列映射到实际列

相关问题 更多 >