简单的pdf文本提取

pdftotext的Python项目详细描述


pdftotext

PyPI StatusBuild StatusCoverage StatusDownloads

简单的PDF文本提取

importpdftotext# Load your PDFwithopen("lorem_ipsum.pdf","rb")asf:pdf=pdftotext.PDF(f)# If it's password-protectedwithopen("secure.pdf","rb")asf:pdf=pdftotext.PDF(f,"secret")# How many pages?print(len(pdf))# Iterate over all the pagesforpageinpdf:print(page)# Read some individual pagesprint(pdf[0])print(pdf[1])# Read all the text into one stringprint("\n\n".join(pdf))

操作系统依赖项

debian、ubuntu和朋友:

sudo apt-get update
sudo apt-get install build-essential libpoppler-cpp-dev pkg-config python-dev

软呢帽、红帽子和朋友:

sudo yum install gcc-c++ pkgconfig poppler-cpp-devel python-devel redhat-rpm-config

Mac操作系统:

brew install pkg-config poppler

conda用户可能还需要libgcc

conda install libgcc

安装

pip install pdftotext

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何反射地迭代数组字段?   java NamedQuery错误“具有给定标识符的多行:1”   java无法使用单独类中的计时器更新TextView   兼容性什么时候可以很快使用新的Java功能?   java二叉树路径和   java矩形的性能   java我想从同一个子表在主表中添加两个外键   java如何获取基于特定日期的所有数据?   java javafx、OO编程规则和写入变量类型的选择   java使用带枚举的switch语句   java异步任务生成运行时异常   java为什么JLabel不显示下划线字符?   java如何解析具有可变参数号的函数?   带有按钮的java JavaFX自定义列表单元格:未调用处理程序   java Modelmapper无法映射整个模型?   传递给持久化的java分离实体,包含LatLng列表