基于韩国语rpc的语言处理应用
korhal的Python项目详细描述
科哈尔
korhal(基于韩国语rpc的语言处理便捷应用程序)是一个用于多个韩国语部分语音标记的python包装器。
如何安装
pip install korhal
可用的标记符
- 含
korhal.komoran
的komoran
- 带
korhal.hannanum
的hannanum
- 带有
korhal.openkoreantext
的开源韩文文本处理器
如何使用
fromkorhal.komoranimporttokenizeresult=tokenize("집에 가서 잠을 자고 싶다")# result => Token(text=집,pos=NNG), Token(text=에,pos=JKB), Token(text=가,pos=VV), Token(text=아서,pos=EC), Token(text=잠,pos=NNG), Token(text=을,pos=JKO), Token(text=자,pos=VV), Token(text=고,pos=EC), Token(text=싶,pos=VX), Token(text=다,pos=EC)]print(result.text)# => 집print(result.pos)# => NNGnouns=[token.textfortokeninresultiftoken.pos.startswith('N')]
异步方法
使用korhal.aio
,可以使用异步方法。在执行扩展处理时,多核系统的性能可以稍微提高。
fromkorhal.aio.opentextkoreanimporttokenizetexts=['달디단 맛있는 케이크가 있었다','솜사탕 같이 귀여운 구름']futures=[tokenize(text)fortextintexts]results=[f.result()forfinfutures]