用于使用texttaglib(ttl)格式管理和注释文本语料库的python库
texttaglib的Python项目详细描述
用于使用texttaglib(ttl)格式管理和注释文本语料库的python库
安装
texttaglib在pypi上可用。
pip install texttaglib
# or more explicit
python3 -m pip install texttaglib
基本用法
>>>fromtexttaglibimportttl>>>doc=ttl.Document('mydoc')>>>sent=doc.new_sent("I am a sentence.")>>>sent#1: I am a sentence.>>>sent.ID1>>>sent.text'I am a sentence.'>>>sent.import_tokens(["I","am","a","sentence","."])>>>>>>sent.tokens[`I`<0:1>,`am`<2:4>,`a`<5:6>,`sentence`<7:15>,`.`<15:16>]>>>doc.write_ttl()
上面的脚本将生成这个语料库
-rw-rw-r--. 1 tuananh tuananh 0 3月 29 13:10 mydoc_concepts.txt
-rw-rw-r--. 1 tuananh tuananh 0 3月 29 13:10 mydoc_links.txt
-rw-rw-r--. 1 tuananh tuananh 20 3月 29 13:10 mydoc_sents.txt
-rw-rw-r--. 1 tuananh tuananh 0 3月 29 13:10 mydoc_tags.txt
-rw-rw-r--. 1 tuananh tuananh 58 3月 29 13:10 mydoc_tokens.txt
sqlite支持
ttl数据可以存储在sqlite数据库中,以便更好地进行语料库分析。 示例代码将很快添加。