蟒蛇实现

ksx1026的Python项目详细描述


ks x 1026-1的python实现。

KS X 1026-1

KS X 1026-1是朝鲜文处理指南的韩国标准 信息交换。有更多信息 here

安装

ks x 1026 python可通过pypi获得

pip install ksx1026

或setup.py

python setup.py install

规格化

朝鲜文分解

返回给定wanseong的johab现代朝鲜文音节块 现代朝鲜文音节块

char s:单字符朝鲜文音节。否则,返回输入。

>>> from ksx1026.normalization import decomposeHangul
>>> c = "\uAC01"
>>> d = decomposeHangul(c)
>>> print(d.encode('raw_unicode_escape'))
b'\\u1100\\u1161\\u11a8'

朝鲜文成分

返回给定johab的wanseong现代朝鲜文音节块 现代朝鲜文音节块。即使是一部分古老的朝鲜文 音节块是现代朝鲜文音节块,与uax 15不同 部分未转换为万声现代朝鲜文音节块。

字符串源:Unicode字符串。

>>> from ksx1026.normalization import composeHangul
>>> source = "\u1100\u1161\u11a8"
>>> d = composeHangul(source)
>>> print(d.encode('raw_unicode_escape'))
b'\\uac01'
>>> source = "\u1100\u1161\u11c3"
>>> d = composeHangul(source)
>>> print(d.encode('raw_unicode_escape'))
b'\\u1100\\u1161\\u11c3'

朝鲜文重新编译

如果使用的是uax 15算法而不是上述复合韩语 用于规范化的函数,旧的朝鲜文音节块可以是 分解为万盛现代朝鲜文音节块和johab朝鲜文 字母。在这种情况下,申请后,可以使用 规范化中恢复字符串的重新定位算法 将NFC或NFKC格式转换为L V T格式。

字符串源:Unicode字符串

>>> from ksx1026.normalization import recomposeHangul
>>> source = "\uac00\u11c3"
>>> d = recomposeHangul(source)
>>> print(d.encode('raw_unicode_escape'))
b'\\u1100\\u1161\\u11c3'

兼容/半宽朝鲜文字母和朝鲜文嵌入符号的标准化

规范化兼容性/半宽朝鲜文字母和朝鲜文嵌入 符号(normalizejamokdkc)

字符串源:Unicode字符串

>>> from ksx1026.normalization import normalizeJamoKDKC
>>> source = "\u3200"
>>> d = normalizeJamoKDKC(source)
>>> print(d.encode('raw_unicode_escape'))
>>> b'(\\u1100\\u1160)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在Kotlin中加速从短数组到位图的转换   java如何计算用户从5个组合框中选择的项目的总成本   如何实现Java图像处理来进行模板匹配?   java Android Studio Gradle找不到'com'。安卓支持:设计:22.2.0'(Android设计支持库)   Tomcat上的hibernate Java持久性没有名为EntityManager的持久性提供程序   Weblogic中有两个EAR的java Log4j日志记录问题   Java忽略字符串   java stringbuffer和“0&”导致截断或转义   在java中用猜测的字母替换破折号   java使用枚举查找长字符串描述   在Android Studio中选择图像后,java应用程序退出(未调用OnActivityResult)   java什么是类似于Rails的面向对象桌面应用程序框架?   java有没有一种方法可以在调试时永久更改变量的值,从而在后续调用中不被重写?   java NullPointerException从数据库获取数据时,使用注释调用Struts 2中的操作