从googledri中的Txt、PDf、Doc文件中提取电子邮件地址

2024-04-24 10:10:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我有超过200个文件在驱动器主要是文本,文件和pdf。我需要把他们的电子邮件地址提取到电子表格中。在

有没有脚本(Python、PHP?)能让我的生活更轻松?在


Tags: 文件文本脚本pdf电子邮件地址电子表格php
1条回答
网友
1楼 · 发布于 2024-04-24 10:10:22

不,如果没有大量的代码,这似乎是不可能的。我个人会做的是打开googledocs中的每个文件,搜索@,一次复制一个(你需要找到多少封电子邮件?)。在

如果你需要用python来做这件事,你必须下载所有的文件(googledrive非常容易)。然后检查每种文件格式,并对其使用特定的方法。在

对于文本,只需使用with open("filename") as file:读入每个文件,然后使用regex逐行搜索电子邮件。^{}。在

对于pdf,请使用PyPDFlink。在

对于doc,first convert it到python可以用catdoc打开的文件,然后将其作为文本打开。在

如果您需要完全自动化所有这些,您可能需要查看用于下载的web自动化包,或者使用api构建一个googledrive/docs扩展。在

相关问题 更多 >