匿名化ex中的数据

2024-05-13 03:00:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个包含培训数据的excel文件。在A列中,它包含来自客户的非结构化电子邮件(1封电子邮件/单元格),而在其他列中则包含其他内容。我必须匿名的电子邮件地址,邮政地址,发件人/收件人姓名,电话号码的每一个电子邮件在A列

我在考虑使用python pandas将单元格转换为数据帧。 有什么想法吗?在

谢谢你


Tags: 文件数据内容pandas客户电子邮件地址电话号码
2条回答

一旦您转换了excel文件中的数据(我个人没有太多的经验,但是我曾经使用过https://pypi.org/project/xlrd/),文本预处理过滤器可以帮助您匿名分析内容:textacy.preprocess.preprocess_textI.c.w.no_emails, no_phone_numbers,等等(https://chartbeat-labs.github.io/textacy/api_reference.html

以您喜欢的方式将数据读入python,然后使用正则表达式替换字符串。在

例如,您得到的列表中只有邮件地址rr = "abc@gf.com"

现在您可以import re并使用re.sub()与合适的模式。对于我拿的邮件,One from regexr.com community整个事情可能是这样的:

import re r = "abc@gf.com" p = re.sub("[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*@(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?", "***MAIL***", r) print(p)

结果: >>> print(p) ***MAIL***

相关问题 更多 >