处理简单样式表(css的子集)
simplestyle的Python项目详细描述
这个包最初是一个提取文本数据的python工具的一部分 从pdf到TEI XML提取的一些样式信息 从pdf文件中必须记录在生成的tei文件中。其中 有字体名,字体大小,斜体,黑体,上标,下标。 它们作为简单的css语句包含在 TEI文件。
后来似乎应该删除这个非常简单的样式库 从pdf提取包中提取并提供一个独立的 包,它可以在不同的上下文中使用。
注意:这个包可能对某些人有用,因此它被发布了 作为一个开源包,但是它仍然非常适合一些 文本处理的特殊需求这不太可能 包将被开发成一个通用的css库。如果你需要这个, 你会在PyPI上找到很多有用的库
下载,安装
SimpleStyle在PYPI上可用 <;https://pypi.python.org/pypi/simplestyle>;。
使用pip install simplestyle安装
源代码在github上:<;https://github.com/rotula/simplestyle>;。
简化css
这个包所理解的简化css语法如下:
css := declaration (";" declaration)* ';'? declaration := property ":" expr property := [a-zA-Z-]+ expr := (string | [^;"']+) string := string1 | string2 string1 := "'" [^'\n\r\f] "'" string2 := '"' [^"\n\r\f] '"'
用法
>>> fromsimplestyleimportStyle>>> css="font-size: 10pt">>> style=Style()>>> style.from_css(css)>>> style.size10.0 >>> style.get_css()'font-size: 10.0pt' >>> style.italicsFalse >>> style.from_css("font-style:italic",merge=True)>>> style.italicsTrue >>> style.size10.0 >>> style.get_css()'font-size: 10.0pt; font-style: italic' >>> style.reset()>>> style.get_css()''