从pdf/tif/jpg/png文件中提取文本的python包

textgetter的Python项目详细描述


文本获取器

textgetter v0.0.1

这个python包可用于从pdf/tif、jpg和png文件中提取文本。

如何使用

以TXT文件的形式获取输出

fromtextgetter.gettxtimportimg_txt_extractfromtextgetter.gettxtimporttif_txt_extractfromtextgetter.gettxtimportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],ocr_path='C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe',verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',verbose=True)

作为docx文件获取输出

fromtextgetter.getdocximportimg_txt_extractfromtextgetter.getdocximporttif_txt_extractfromtextgetter.getdocximportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',ocr_path='C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',verbose=True)

以csv文件的形式获取输出

fromtextgetter.getcsvimportimg_txt_extractfromtextgetter.getcsvimporttif_txt_extractfromtextgetter.getcsvimportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',ocr_path='C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe',verbose=True)

以excel文件的形式获取输出

fromtextgetter.getexcelimportimg_txt_extractfromtextgetter.getexcelimporttif_txt_extractfromtextgetter.getexcelimportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',verbose=True)

参数

img_txt_提取

  • input_files_path-输入文件的文件夹路径,例如“/home/user/test”
  • output_files_path-输出文件的文件夹路径,例如“/home/user/output”
  • 文件扩展名-来自输入文件夹的文件扩展名列表,例如,['jpeg','png']
  • ocr_path-tesseract ocr的路径(仅限Windows)defualte.g.,'C:\程序文件(x86)\ tesseract ocr\tesseract.exe',如果Linux忽略此参数
  • 详细-用于打印日志,例如true/false

tif文本提取和pdf文本提取
  • input_files_path-输入文件的文件夹路径,例如“/home/user/test”
  • output_files_path-输出文件的文件夹路径,例如“/home/user/output”
  • ocr_path-tesseract ocr的路径(仅限Windows),例如“C:\程序文件(x86)\ tesseract ocr\tesseract.exe”,如果Linux忽略此参数
  • 详细-用于打印日志,例如真/假

要求

这个包使用poppler读取pdf文件,因为windows平台的poppler包含在包中,但是对于linux,我们必须手动安装它。

如何安装poppler

我们可以从poppler

下载poppler

我们可以使用下面的命令安装poppler

sudo apt-get install python-poppler

如何安装Tesseract OCR

这个包使用tesseract从文件中提取文本,我们必须在windows和linux平台上手动安装它。

使用此link安装用于Windows操作系统的Tesseract OCR

在Linux操作系统中使用以下命令

sudo apt install tesseract-ocr
sudo apt install libtesseract-dev

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java基于条件如何创建StringBuffers并向其添加数据   java如何用UNC路径解决“不表示可正确访问的目录”异常?   在执行提取方法重构后,java代码的速度降低了6倍   java如何修改LDAPCertStore中用于X509证书链验证的LDAP连接属性   awt如何在Java中捕获鼠标光标?   字符串如何设置Java输出流   java NumberFormatException:用于输入字符串:“8:00”   unix/linux“tail f”的Java IO文件实现   java打印输出。带有JOptionPane的txt文件   java解组总是显示0和null   使用MySQL的windows java JavaFX自包含应用程序打包   JavaSpring:方法getBean(String…)是如何实现的根据输入字符串查找bean?   java高效地更新RecyclerView网格或以其他方式显示复杂网格   java向ArrayList添加对象(String、String、int、int)   java在一组文档上使用ForkJoinPool