蟒蛇实现

ksx1026的Python项目详细描述


ks x 1026-1的python实现。

KS X 1026-1

KS X 1026-1是朝鲜文处理指南的韩国标准 信息交换。有更多信息 here

安装

ks x 1026 python可通过pypi获得

pip install ksx1026

或setup.py

python setup.py install

规格化

朝鲜文分解

返回给定wanseong的johab现代朝鲜文音节块 现代朝鲜文音节块

char s:单字符朝鲜文音节。否则,返回输入。

>>> from ksx1026.normalization import decomposeHangul
>>> c = "\uAC01"
>>> d = decomposeHangul(c)
>>> print(d.encode('raw_unicode_escape'))
b'\\u1100\\u1161\\u11a8'

朝鲜文成分

返回给定johab的wanseong现代朝鲜文音节块 现代朝鲜文音节块。即使是一部分古老的朝鲜文 音节块是现代朝鲜文音节块,与uax 15不同 部分未转换为万声现代朝鲜文音节块。

字符串源:Unicode字符串。

>>> from ksx1026.normalization import composeHangul
>>> source = "\u1100\u1161\u11a8"
>>> d = composeHangul(source)
>>> print(d.encode('raw_unicode_escape'))
b'\\uac01'
>>> source = "\u1100\u1161\u11c3"
>>> d = composeHangul(source)
>>> print(d.encode('raw_unicode_escape'))
b'\\u1100\\u1161\\u11c3'

朝鲜文重新编译

如果使用的是uax 15算法而不是上述复合韩语 用于规范化的函数,旧的朝鲜文音节块可以是 分解为万盛现代朝鲜文音节块和johab朝鲜文 字母。在这种情况下,申请后,可以使用 规范化中恢复字符串的重新定位算法 将NFC或NFKC格式转换为L V T格式。

字符串源:Unicode字符串

>>> from ksx1026.normalization import recomposeHangul
>>> source = "\uac00\u11c3"
>>> d = recomposeHangul(source)
>>> print(d.encode('raw_unicode_escape'))
b'\\u1100\\u1161\\u11c3'

兼容/半宽朝鲜文字母和朝鲜文嵌入符号的标准化

规范化兼容性/半宽朝鲜文字母和朝鲜文嵌入 符号(normalizejamokdkc)

字符串源:Unicode字符串

>>> from ksx1026.normalization import normalizeJamoKDKC
>>> source = "\u3200"
>>> d = normalizeJamoKDKC(source)
>>> print(d.encode('raw_unicode_escape'))
>>> b'(\\u1100\\u1160)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用jaxb2annotateplugin和XJC工具的java自定义注释   java组织。xeustechnologies。jcl无法加载WstxInputFactory类   java JUnit在格式化字符串上比较失败   java Bukkit配置部分getKeys   如何关闭Java流?   java Struts2正则表达式配置   链式事务注释的java奇怪行为   java在两个JButton之间使用变量   java签署APK时内容会发生什么变化?   java LWJGL:Slick:3D世界中的绘图字体   如何分解Java数组?   在Java MySql中处理多个过滤器   java如何在Firebase数据库中跳过初始OnChildaded事件触发   java如何在PreviewView中使用CameraX?   在子类#中重写父类后访问父类原始方法的java已解决   java找不到类型的属性   游戏框架游戏!框架+Java