蟒蛇实现
ksx1026的Python项目详细描述
ks x 1026-1的python实现。
KS X 1026-1
KS X 1026-1是朝鲜文处理指南的韩国标准 信息交换。有更多信息 here。
安装
ks x 1026 python可通过pypi获得
pip install ksx1026
或setup.py
python setup.py install
规格化
朝鲜文分解
返回给定wanseong的johab现代朝鲜文音节块 现代朝鲜文音节块
char s:单字符朝鲜文音节。否则,返回输入。
>>> from ksx1026.normalization import decomposeHangul >>> c = "\uAC01" >>> d = decomposeHangul(c) >>> print(d.encode('raw_unicode_escape')) b'\\u1100\\u1161\\u11a8'
朝鲜文成分
返回给定johab的wanseong现代朝鲜文音节块 现代朝鲜文音节块。即使是一部分古老的朝鲜文 音节块是现代朝鲜文音节块,与uax 15不同 部分未转换为万声现代朝鲜文音节块。
字符串源:Unicode字符串。
>>> from ksx1026.normalization import composeHangul >>> source = "\u1100\u1161\u11a8" >>> d = composeHangul(source) >>> print(d.encode('raw_unicode_escape')) b'\\uac01' >>> source = "\u1100\u1161\u11c3" >>> d = composeHangul(source) >>> print(d.encode('raw_unicode_escape')) b'\\u1100\\u1161\\u11c3'
朝鲜文重新编译
如果使用的是uax 15算法而不是上述复合韩语 用于规范化的函数,旧的朝鲜文音节块可以是 分解为万盛现代朝鲜文音节块和johab朝鲜文 字母。在这种情况下,申请后,可以使用 规范化中恢复字符串的重新定位算法 将NFC或NFKC格式转换为L V T格式。
字符串源:Unicode字符串
>>> from ksx1026.normalization import recomposeHangul >>> source = "\uac00\u11c3" >>> d = recomposeHangul(source) >>> print(d.encode('raw_unicode_escape')) b'\\u1100\\u1161\\u11c3'
兼容/半宽朝鲜文字母和朝鲜文嵌入符号的标准化
规范化兼容性/半宽朝鲜文字母和朝鲜文嵌入 符号(normalizejamokdkc)
字符串源:Unicode字符串
>>> from ksx1026.normalization import normalizeJamoKDKC >>> source = "\u3200" >>> d = normalizeJamoKDKC(source) >>> print(d.encode('raw_unicode_escape')) >>> b'(\\u1100\\u1160)