从PDF中提取文本的包
pdf2textlib的Python项目详细描述
pdf2textlib
pip安装pdf2textlib
简单的多语言PDF文本提取,也可以从图像中提取
importpdf2textlibprint(pdf2textlib.getText("Demo.pdf","eng+tel+urd"))# parameter 1 : Path to the PDF file# parameter 2 : string of language codes separated by '+' sign
操作系统依赖项
Debian、Ubuntu和朋友
^{pr2}$软呢帽、红帽子和朋友
sudo yum install gcc-c++ pkgconfig poppler-cpp-devel python-devel redhat-rpm-config
macOS
brew install pkg-config poppler
Conda用户可能还需要libgcc
:
conda install -c anaconda libgcc
Windows
当前仅在使用conda时测试:
- 安装微软Visual C++构建工具< /LI>
- 通过conda安装poppler:
在conda install -c conda-forge poppler
安装
pip install pdf2textlib
- 项目
标签: