用于utf到wx转换的python库,反之亦然,用于印度语言。

wxconv的Python项目详细描述


Build StatusCoverage StatusCircleCI

用于utf到wx转换的python库,反之亦然,用于印度语言。

安装

pip install wxconv

示例

一。使用文件:

wxconv --f ssf --t intra --n --l hin --s utf --i hin-utf.ssf --o hin-wx.ssf

-l , --language     select language (3 letter ISO-639 code)
                                    Hindi       : hin
                                    Telugu      : tel
                                    Tamil       : tam
                                    Malayalam   : mal
                                    Kannada     : kan
                                    Bengali     : ben
                                    Oriya       : ori
                                    Punjabi     : pan
                                    Marathi     : mar
                                    Nepali      : nep
                                    Gujarati    : guj
                                    Bodo        : bod
                                    Konkani     : kok
                                    Assamese    : asm
                                    Urdu        : urd
-s , --source-enc   {utf, wx} select input-file encoding
-f , --format       {text, ssf, conll, bio, tnt} select input-file format
-t , --ssf-type     {inter, intra} specify ssf-type if file format (-f) is ssf
-n, --nested        set this flag for nested ssf
-m, --no-mask       set this flag to keep off masking of roman strings in Indic text
-i , --input        <input-file>
-o , --output       <output-file>
-z, --normalize     set this flag for utf normalizations without WX-Conversion

2.utf到wx(纯文本):

>>>fromwxconvimportWXC>>>>>># class WXC(order="utf2wx", format_="text", lang="hin")...# Parameters: order:str, (default="utf2wx"), source2target encoding [wx2utf|utf2wx]...#             format_:str, (default="text"), output format [text|conll|bio|tnt]...#             lang:str, (default="hin"), language parameter [hin|tel|...] (3 letter ISO-639 code)>>>con=WXC(order='utf2wx')# here default language is hindi and default format is text>>>>>>hin=u"""
... 1   देश के कई हिस्सों में सूखे के आसार उत्पन्न हो गए हैं
... 2   अब तक मौसम विभाग सामान्य बारिश होने की अपनी भविष्यवाणी पर अड़ा हुआ था लेकिन अब यह दावा पूरी तरह से खारिज हो गया है
... 3   देश भर में अब तक हुई बारिश औसत से छह फीसदी कम है जबकि विभाग का दावा था कि इसमें ५ फीसदी से ज्यादा कमी नहीं होगी
... 4   इसके चलते उत्तर प्रदेश पंजाब हरियाणा राजस्थान बिहार झारखंड आदि राज्य लगभग सूखे की चपेट में हैं
... 5   लेकिन तकनीकी कारणों से इन्हें अभी सूखाग्रस्त घोषित नहीं किया गया है
... """>>>>>>print(con.convert(hin))1xeSakekaIhissoMmeMsUKekeAsArauwpannahogaehEM2abawakamOsamaviBAgasAmAnyabAriSahonekIapanIBaviRyavANIparaadZAhuAWAlekinaabayahaxAvApUrIwarahaseKArijahogayAhE3xeSaBarameMabawakahuIbAriSaOsawaseCahaPIsaxIkamahEjabakiviBAgakAxAvAWAkiisameM5PIsaxIsejyAxAkamInahIMhogI4isakecalaweuwwarapraxeSapaMjAbahariyANArAjasWAnabihAraJAraKaMdaAxirAjyalagaBagasUKekIcapetameMhEM5lekinawakanIkIkAraNoMseinheMaBIsUKAgraswaGoRiwanahIMkiyAgayAhE>>>tel=u"""
... 1   తమ 35 ఏళ్ల పెళ్లి సందర్భంలోనూ - అనుక్షణం శత్రువులకు మల్లే కాట్లాడుకోవటం బంటీకి నచ్చదు.
... 2   2007లో అజ్మీర్‌లోని ఖాజా మొయినుద్దీన్ చిష్తీ దర్గాలో జరిగిన పేలుడులో ముగ్గురు చనిపోగా, మరో 15 మంది గాయపడిన విషయం తెలిసిందే.
... 3   గణితం లాంటి విషయం గురించి బ్లాగులు, వీకేల ద్వారా చర్చలు జరగవచ్చునని అందరికీ అర్థమయింది.
... 4   ఇలా ఇంత పోటీలో, యాంటీ బ్రిటిష్ వాతావరణంలోను 155 నిముషాల నిడివిగల ‘హామ్లెట్’ నిలిచి గెలిచిందంటే అది దాని చక్కదనానికి నిదర్శనమే!
... 5   అవకాశం వచ్చిన వారికి ఎక్స్‌పోజర్‌కూడా వస్తుంది.
... """>>>>>>con=WXC(order='utf2wx',lang='tel')>>>>>>print(con.convert(tel))1wama35elYlapeVlYlisaMxarBaMlonU-anukRaNaMSawruvulakumallekAtlAdukovataMbaMtIkinaccaxu.22007loajmIrloniKAjAmoVyinuxxInciRwIxargAlojariginapeludulomuggurucanipogA,maro15maMxigAyapadinaviRayaMweVlisiMxe.3gaNiwaMlAMtiviRayaMguriMciblAgulu,vIkelaxvArAcarcalujaragavaccunaniaMxarikIarWamayiMxi.4ilAiMwapotIlo,yAMtIbritiRvAwAvaraNaMlonu155nimuRAlanidivigalahAmleVtnilicigeVliciMxaMteaxixAnicakkaxanAnikinixarSaname!5avakASaMvaccinavArikieVkspojarkUdAvaswuMxi.>>>

三。WX至UTF:

>>>con=WXC(order='wx2utf',lang='hin')>>>>>>hin="""
... 1   xeSa ke kaI hissoM meM sUKe ke AsAra uwpanna ho gae hEM
... 2   aba waka mOsama viBAga sAmAnya bAriSa hone kI apanI BaviRyavANI para adZA huA WA lekina aba yaha xAvA pUrI waraha se KArija ho gayA hE
... 3   xeSa Bara meM aba waka huI bAriSa Osawa se Caha PIsaxI kama hE jabaki viBAga kA xAvA WA ki isameM 5 PIsaxI se jyAxA kamI nahIM hogI
... 4   isake calawe uwwara praxeSa paMjAba hariyANA rAjasWAna bihAra JAraKaMda Axi rAjya lagaBaga sUKe kI capeta meM hEM
... 5   lekina wakanIkI kAraNoM se inheM aBI sUKAgraswa GoRiwa nahIM kiyA gayA hE
... """>>>>>>print(con.convert(hin))1देशकेकईहिस्सोंमेंसूखेकेआसारउत्पन्नहोगएहैं2अबतकमौसमविभागसामान्यबारिशहोनेकीअपनीभविष्यवाणीपरअड़ाहुआथालेकिनअबयहदावापूरीतरहसेखारिजहोगयाहै3देशभरमेंअबतकहुईबारिशऔसतसेछहफीसदीकमहैजबकिविभागकादावाथाकिइसमें5फीसदीसेज्यादाकमीनहींहोगी4इसकेचलतेउत्तरप्रदेशपंजाबहरियाणाराजस्थानबिहारझारखंडआदिराज्यलगभगसूखेकीचपेटमेंहैं5लेकिनतकनीकीकारणोंसेइन्हेंअभीसूखाग्रस्तघोषितनहींकियागयाहै>>>

四。与conll合作:

>>>con=WXC(order='utf2wx',lang='hin',format_='conll')>>>>>>conll=u"""
... 1       इसकी     यह      pn      PRP     cat-pn|gen-f|num-sg|pers-3|case-o|vib-का|tam-kA|chunkId-NP|chunkType-head|stype-|voicetype-      2     r6      _       _
... 2       ऊँचाई     ऊँचाई     n       NN      cat-n|gen-f|num-sg|pers-3|case-d|vib-0|tam-0|chunkId-NP2|chunkType-head|stype-|voicetype-       6     k1      _       _
... 3       केवल     केवल     avy     RP      cat-avy|gen-|num-|pers-|case-|vib-|tam-|chunkId-NP3|chunkType-child|stype-|voicetype-   4       lwg__rp _       _
... 4       1982    1982    num     QC      cat-num|gen-any|num-any|pers-|case-any|vib-|tam-|chunkId-NP3|chunkType-child|stype-|voicetype-  5       nmod__adj       _       _
... 5       मीटर     मीटर     n       NN      cat-n|gen-m|num-sg|pers-3|case-d|vib-0|tam-0|chunkId-NP3|chunkType-head|stype-|voicetype-       6     k1s     _       _
... 6       है       है       v       VM      cat-v|gen-any|num-sg|pers-3|case-|vib-है|tam-hE|chunkId-VGF|chunkType-head|stype-declarative|voicetype-active    0       root    _       _
... 7       ।       ।       punc    SYM     cat-punc|gen-|num-|pers-|case-|vib-|tam-|chunkId-BLK|chunkType-head|stype-|voicetype-   6       rsym    _       _""">>>>>>print(con.convert(conll))1isakIyahapnPRPcat-pn|gen-f|num-sg|pers-3|case-o|vib-kA|tam-kA|chunkId-NP|chunkType-head|stype-|voicetype-2r6__2UzcAIUzcAInNNcat-n|gen-f|num-sg|pers-3|case-d|vib-0|tam-0|chunkId-NP2|chunkType-head|stype-|voicetype-6k1__3kevalakevalaavyRPcat-avy|gen-|num-|pers-|case-|vib-|tam-|chunkId-NP3|chunkType-child|stype-|voicetype-4lwg__rp__419821982numQCcat-num|gen-any|num-any|pers-|case-any|vib-|tam-|chunkId-NP3|chunkType-child|stype-|voicetype-5nmod__adj__5mItaramItaranNNcat-n|gen-m|num-sg|pers-3|case-d|vib-0|tam-0|chunkId-NP3|chunkType-head|stype-|voicetype-6k1s__6hEhEvVMcat-v|gen-any|num-sg|pers-3|case-|vib-hE|tam-hE|chunkId-VGF|chunkType-head|stype-declarative|voicetype-active0root__7..puncSYMcat-punc|gen-|num-|pers-|case-|vib-|tam-|chunkId-BLK|chunkType-head|stype-|voicetype-6rsym__>>>

5个。与TNT合作:

>>>tnt=u"""
... यों       RB
... सिंगल     JJ
... स्क्रीन    NNC
... थिएटर    NNP
... के       PSP
... दर्शकों    NN
... को       PSP
... अग्निपथ   NNP
... अधिक     QF
... नहीं      NEG
... भा       VM
... सकी      VAUX
... ।       SYM
... """>>>>>>con=WXC(order='utf2wx',lang='hin',format_='tnt')>>>>>>print(con.convert(tnt))yoMRBsiMgalaJJskrInaNNCWietaraNNPkePSPxarSakoMNNkoPSPagnipaWaNNPaXikaQFnahIMNEGBAVMsakIVAUX.SYM>>>

6.使用bio:

same as tnt or conll

7号。使用ssf:

implemented for ssf files (intra, inter and nested)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
由于测试失败,java testcontainers maven构建失败   java实现jacobi算法实现laplace方程   java中的多线程:如何在不等待所有线程使用ExecutorService完成任务的情况下终止所有线程的执行?   java Hello World不在Android Studio 3中工作   ubuntu Tomcat7的Java版本不正确   java Javafx内存泄漏   对于手动实现的Spring数据存储库方法,我应该使用Java8默认方法吗?   googleappengine中的java添加过滤查询   html当使用JSOUP库在Java中读取标签时,如何保留标签(如<br>、<ul>、<li>、<p>等)的含义?   编码为什么jasper生成的报告在Java中不显示西里尔语(保加利亚语)?   java有没有办法隐藏当前位置和jdk动作?   java找出编译原型文件的版本   有没有办法在运行时更改java方法的访问修饰符?   语法字符串。。。Java中的参数   java数组元素在添加其他元素时会相互覆盖   eclipse中的java GWT项目   java如何为spring rest模板请求将动态json属性名映射到jackson   java无法在Windows 10上找到特定的JDK   在xml字符串和java字符串之间提取正则表达式子字符串