机器学习：从文件列表中提取关键字 - 问答 - Python中文网

机器学习：从文件列表中提取关键字

2024-04-26 01:24:41 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个pdf文件的列表，这些文件有不同的页数和演示文稿。每个文件都包含我需要提取的信息列表。但问题是信息被包装在不同类型的短语和语法中。我需要知道我是否需要建立一个机器来学习如何做到这一点，如果是这样的情况下，哪种算法和技术适合我的情况。注：我有一个巨大的pdf文件数据集用来训练模型。在

Tags：文件数据模型算法机器信息类型列表

1条回答

网友

1楼 · 发布于 2024-04-26 01:24:41

因此，如果您想在Python中执行此操作，那么PyPDF2似乎是最好的选择。您应该能够读入并从pdf中提取所需的文本数据。Automate the boring stuff有使用PyPDF2的例子。在

相关问题更多 >

编程相关推荐

热门问题

热门文章