python的iso-5426(mab2)和marc(usmarc,ansel)编码。
smc.bibencodings的Python项目详细描述
python的iso-5426(mab2)和marc(usmarc,ansel)编码。编码 用于书目信息系统和opacs的z.3950接口。
背景
ISO-5426和USMARC编码是历史性编码,仍由 书目信息系统。它们是拉丁编解码器系列的扩展 实现了一种类似于utf-8的可变长度编码。 分解的Unicode(NFD)表单。
非ascii字符表示为组合字符。例如元音变调a(拉丁语 带分音符的小写字母u)用mab2编写,编码为'xc8u',其中 “xc8”是组合分音符的符号。与unicode相反的是 字符作为前缀写入,而Unicode具有组合后缀。
mab2和marc编码都支持在 字母,例如'xc5xc8u'表示带分音符的拉丁文小写字母u 还有马克龙。
SMC.Bibencodings在支持的情况下实现了与标准的小偏差 所有字符从0x00到0x7E以及更多组合字符。代码已经 测试了德国和瑞士的OPAC。
用法
您只需在代码中的某个地方导入“smc.bibencodings”即可启用 编解码器
- ISO-5426、ISO5426、MAB2:
- 标准ISO-5426编码
- ISO-5426-Xe0、ISO5426-Xe0、MAB2-Xe0:
- 针对0xa4、0xe0-0xff使用特殊标识映射的特殊ISO-5426编码
- 马克,美国马克,安塞尔:
- marc编码
>>> import smc.bibencodings >>> b"Abr\xc2eg\xc2e Historique De L'Origine".decode("mab2") "Abrégé Historique De L'Origine"
数据源
编码表是从Thomas Berger的优秀页面中提取的 http://www.gymel.com/charsets/chartab.html和链接页。谢谢你 非常地!
版权所有
版权所有(c)2008-2012语义有限公司。保留所有权利。
semantics Kommunikationsmanagement GmbH Viktoriaallee 45 D-52066 Aachen Germany Tel.: +49 241 89 49 89 29 eMail: info(at)semantics.de http://www.semantics.de/