2024-05-13 03:00:45 发布
网友
我有一个包含培训数据的excel文件。在A列中,它包含来自客户的非结构化电子邮件(1封电子邮件/单元格),而在其他列中则包含其他内容。我必须匿名的电子邮件地址,邮政地址,发件人/收件人姓名,电话号码的每一个电子邮件在A列
我在考虑使用python pandas将单元格转换为数据帧。 有什么想法吗?在
谢谢你
一旦您转换了excel文件中的数据(我个人没有太多的经验,但是我曾经使用过https://pypi.org/project/xlrd/),文本预处理过滤器可以帮助您匿名分析内容:textacy.preprocess.preprocess_textI.c.w.no_emails, no_phone_numbers,等等(https://chartbeat-labs.github.io/textacy/api_reference.html)
textacy.preprocess.preprocess_text
no_emails, no_phone_numbers
以您喜欢的方式将数据读入python,然后使用正则表达式替换字符串。在
例如,您得到的列表中只有邮件地址r: r = "abc@gf.com"
r
r = "abc@gf.com"
现在您可以import re并使用re.sub()与合适的模式。对于我拿的邮件,One from regexr.com community整个事情可能是这样的:
import re
re.sub()
import re r = "abc@gf.com" p = re.sub("[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*@(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?", "***MAIL***", r) print(p)
结果: >>> print(p) ***MAIL***
>>> print(p) ***MAIL***
一旦您转换了excel文件中的数据(我个人没有太多的经验,但是我曾经使用过https://pypi.org/project/xlrd/),文本预处理过滤器可以帮助您匿名分析内容:
textacy.preprocess.preprocess_text
I.c.w.no_emails, no_phone_numbers
,等等(https://chartbeat-labs.github.io/textacy/api_reference.html)以您喜欢的方式将数据读入python,然后使用正则表达式替换字符串。在
例如,您得到的列表中只有邮件地址
r
:r = "abc@gf.com"
现在您可以
import re
并使用re.sub()
与合适的模式。对于我拿的邮件,One from regexr.com community整个事情可能是这样的:import re r = "abc@gf.com" p = re.sub("[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*@(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?", "***MAIL***", r) print(p)
结果:
>>> print(p) ***MAIL***
相关问题 更多 >
编程相关推荐