Python textgetter包_程序模块 - PyPI

从pdf/tif/jpg/png文件中提取文本的python包

textgetter的Python项目详细描述

文本获取器

这个python包可用于从pdf/tif、jpg和png文件中提取文本。

如何使用

以TXT文件的形式获取输出

fromtextgetter.gettxtimportimg_txt_extractfromtextgetter.gettxtimporttif_txt_extractfromtextgetter.gettxtimportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],ocr_path='C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe',verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',verbose=True)

作为docx文件获取输出

fromtextgetter.getdocximportimg_txt_extractfromtextgetter.getdocximporttif_txt_extractfromtextgetter.getdocximportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',ocr_path='C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',verbose=True)

以csv文件的形式获取输出

fromtextgetter.getcsvimportimg_txt_extractfromtextgetter.getcsvimporttif_txt_extractfromtextgetter.getcsvimportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',ocr_path='C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe',verbose=True)

以excel文件的形式获取输出

fromtextgetter.getexcelimportimg_txt_extractfromtextgetter.getexcelimporttif_txt_extractfromtextgetter.getexcelimportpdf_txt_extractif__name__=="__main__":# use img_txt_extract for extracting text from images like jpg,png etcimg_txt_extract('/home/user/test','/home/user/output',['jpeg','png'],verbose=True)# use tif_txt_extract for extracting text from tif filestif_txt_extract('/home/user/test','/home/user/output',verbose=True)# use pdf_txt_extract for extracting text from pdf filespdf_txt_extract('/home/user/test','/home/user/output',verbose=True)

参数

img_txt_提取

input_files_path-输入文件的文件夹路径，例如“/home/user/test”
output_files_path-输出文件的文件夹路径，例如“/home/user/output”
文件扩展名-来自输入文件夹的文件扩展名列表，例如，['jpeg'，'png']
ocr_path-tesseract ocr的路径（仅限Windows）defualte.g.，'C:\程序文件（x86）\ tesseract ocr\tesseract.exe'，如果Linux忽略此参数
详细-用于打印日志，例如true/false

tif文本提取和pdf文本提取
input_files_path-输入文件的文件夹路径，例如“/home/user/test”
output_files_path-输出文件的文件夹路径，例如“/home/user/output”
ocr_path-tesseract ocr的路径（仅限Windows），例如“C:\程序文件（x86）\ tesseract ocr\tesseract.exe”，如果Linux忽略此参数
详细-用于打印日志，例如真/假

要求

这个包使用poppler读取pdf文件，因为windows平台的poppler包含在包中，但是对于linux，我们必须手动安装它。

如何安装poppler

我们可以从poppler

下载poppler

或

我们可以使用下面的命令安装poppler

sudo apt-get install python-poppler

如何安装Tesseract OCR

这个包使用tesseract从文件中提取文本，我们必须在windows和linux平台上手动安装它。

使用此link安装用于Windows操作系统的Tesseract OCR

在Linux操作系统中使用以下命令

sudo apt install tesseract-ocr
sudo apt install libtesseract-dev

欢迎加入QQ群-->： 979659372

textgetter 0.0.1

textgetter的Python项目详细描述

文本获取器

如何使用

以TXT文件的形式获取输出

作为docx文件获取输出

以csv文件的形式获取输出

以excel文件的形式获取输出

参数

img_txt_提取

要求

如何安装poppler

如何安装Tesseract OCR

推荐PyPI第三方库

pithos

eye2you

clank

serialobj

collective.portlet.localevents

octavia-lib

xzero

sptm

pascua

unpaddedbase64

django-cached-s3-storage

django-live-templates

agsci.blognewsletter

djangorestframework-signed-permissions

redten

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

textgetter 0.0.1

textgetter的Python项目详细描述

文本获取器

如何使用

以TXT文件的形式获取输出

作为docx文件获取输出

以csv文件的形式获取输出

以excel文件的形式获取输出

参数

img_txt_提取

要求

如何安装poppler

如何安装Tesseract OCR

推荐PyPI第三方库

pithos

eye2you

clank

serialobj

collective.portlet.localevents

octavia-lib

xzero

sptm

pascua

unpaddedbase64

django-cached-s3-storage

django-live-templates

agsci.blognewsletter

djangorestframework-signed-permissions

redten

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签