python的iso-5426(mab2)和marc(usmarc,ansel)编码。

smc.bibencodings的Python项目详细描述


python的iso-5426(mab2)和marc(usmarc,ansel)编码。编码 用于书目信息系统和opacs的z.3950接口。

背景

ISO-5426和USMARC编码是历史性编码,仍由 书目信息系统。它们是拉丁编解码器系列的扩展 实现了一种类似于utf-8的可变长度编码。 分解的Unicode(NFD)表单。

非ascii字符表示为组合字符。例如元音变调a(拉丁语 带分音符的小写字母u)用mab2编写,编码为'xc8u',其中 “xc8”是组合分音符的符号。与unicode相反的是 字符作为前缀写入,而Unicode具有组合后缀。

mab2和marc编码都支持在 字母,例如'xc5xc8u'表示带分音符的拉丁文小写字母u 还有马克龙。

SMC.Bibencodings在支持的情况下实现了与标准的小偏差 所有字符从0x00到0x7E以及更多组合字符。代码已经 测试了德国和瑞士的OPAC。

用法

您只需在代码中的某个地方导入“smc.bibencodings”即可启用 编解码器

ISO-5426、ISO5426、MAB2:
标准ISO-5426编码
ISO-5426-Xe0、ISO5426-Xe0、MAB2-Xe0:
针对0xa4、0xe0-0xff使用特殊标识映射的特殊ISO-5426编码
马克,美国马克,安塞尔:
marc编码
>>> import smc.bibencodings
>>> b"Abr\xc2eg\xc2e Historique De L'Origine".decode("mab2")
"Abrégé Historique De L'Origine"

数据源

编码表是从Thomas Berger的优秀页面中提取的 http://www.gymel.com/charsets/chartab.html和链接页。谢谢你 非常地!

作者

克里斯蒂安·海姆斯

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Clojure关键字在内存中的大小是多少?   Java中有固定长度的通用数组对象吗?   PostgreSQL:通过Java更新我的用户表   错误:使用java解析xml   java Json显示列表中对象的名称   java比较JodaTime时区   与JAVA中的API和包的区别?   java的int值在for循环中不改变   谷歌应用引擎中的java RSA   迁移到spring 5后出现java非法字符错误   java Websphere管理控制台不工作   JavaGSON如何始终在json中包含毫秒?   带有空格和双引号的windows Java ProcessBuilder命令参数失败   java错误:重复的zip条目[43.jar:org/apache/http/annotation/NotThreadSafe.class]