2024-04-26 01:24:41 发布
网友
我有一个pdf文件的列表,这些文件有不同的页数和演示文稿。 每个文件都包含我需要提取的信息列表。但问题是信息被包装在不同类型的短语和语法中。 我需要知道我是否需要建立一个机器来学习如何做到这一点,如果是这样的情况下,哪种算法和技术适合我的情况。 注:我有一个巨大的pdf文件数据集用来训练模型。在
因此,如果您想在Python中执行此操作,那么PyPDF2似乎是最好的选择。您应该能够读入并从pdf中提取所需的文本数据。Automate the boring stuff有使用PyPDF2的例子。在
因此,如果您想在Python中执行此操作,那么PyPDF2似乎是最好的选择。您应该能够读入并从pdf中提取所需的文本数据。Automate the boring stuff有使用PyPDF2的例子。在
相关问题 更多 >
编程相关推荐