在现有PDF文件上呈现HTML覆盖
htmloverpdf的Python项目详细描述
一个用于http://weasyprint.org/的包装器,它允许与现有的PDF文件组合。
api:呈现(html)输入是html字符串,输出是pdf字节。
对于weasyprint,它需要cairo和cairocffi等,这就增加了读取pdf的poppler。最好通过软件包管理器安装:
apt install python3-gi-cairo gir1.2-poppler-0.18 python3-cairocffi python3-lxml gir1.2-pango-1.0
它解析html,查找以src url结尾的“.pdf”标记。每个页面开始一个新页面,并复制覆盖weasyprint输出的所有源页面。 神奇的值“blank.pdf”无需覆盖即可输出部分HTML。
python -m htmloverpdf < test.html > test.pdf