从pdf/tif/jpg/png文件中提取文本的python包
textgetter的Python项目详细描述
文本获取器
这个python包可用于从pdf/tif、jpg和png文件中提取文本。
如何使用
以TXT文件的形式获取输出
fromtextgetter.gettxtimportimg_txt_extractfromtextgetter.gettxtimporttif_txt_extractfromtextgetter.gettxtimportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],ocr_path='C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe',verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',verbose=True)
作为docx文件获取输出
fromtextgetter.getdocximportimg_txt_extractfromtextgetter.getdocximporttif_txt_extractfromtextgetter.getdocximportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',ocr_path='C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',verbose=True)
以csv文件的形式获取输出
fromtextgetter.getcsvimportimg_txt_extractfromtextgetter.getcsvimporttif_txt_extractfromtextgetter.getcsvimportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',ocr_path='C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe',verbose=True)
以excel文件的形式获取输出
fromtextgetter.getexcelimportimg_txt_extractfromtextgetter.getexcelimporttif_txt_extractfromtextgetter.getexcelimportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',verbose=True)
参数
img_txt_提取
- input_files_path-输入文件的文件夹路径,例如“/home/user/test”
- output_files_path-输出文件的文件夹路径,例如“/home/user/output”
- 文件扩展名-来自输入文件夹的文件扩展名列表,例如,['jpeg','png']
- ocr_path-tesseract ocr的路径(仅限Windows)defualte.g.,'C:\程序文件(x86)\ tesseract ocr\tesseract.exe',如果Linux忽略此参数
- 详细-用于打印日志,例如true/false
tif文本提取和pdf文本提取
- input_files_path-输入文件的文件夹路径,例如“/home/user/test”
- output_files_path-输出文件的文件夹路径,例如“/home/user/output”
- ocr_path-tesseract ocr的路径(仅限Windows),例如“C:\程序文件(x86)\ tesseract ocr\tesseract.exe”,如果Linux忽略此参数
- 详细-用于打印日志,例如真/假
要求
这个包使用poppler读取pdf文件,因为windows平台的poppler包含在包中,但是对于linux,我们必须手动安装它。
如何安装poppler
我们可以从poppler
下载poppler或
我们可以使用下面的命令安装poppler
sudo apt-get install python-poppler
如何安装Tesseract OCR
这个包使用tesseract从文件中提取文本,我们必须在windows和linux平台上手动安装它。
使用此link安装用于Windows操作系统的Tesseract OCR
在Linux操作系统中使用以下命令
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev