用于使用texttaglib(ttl)格式管理和注释文本语料库的python库

texttaglib的Python项目详细描述


用于使用texttaglib(ttl)格式管理和注释文本语料库的python库

安装

texttaglib在pypi上可用。

pip install texttaglib
# or more explicit
python3 -m pip install texttaglib

基本用法

>>>fromtexttaglibimportttl>>>doc=ttl.Document('mydoc')>>>sent=doc.new_sent("I am a sentence.")>>>sent#1: I am a sentence.>>>sent.ID1>>>sent.text'I am a sentence.'>>>sent.import_tokens(["I","am","a","sentence","."])>>>>>>sent.tokens[`I`<0:1>,`am`<2:4>,`a`<5:6>,`sentence`<7:15>,`.`<15:16>]>>>doc.write_ttl()

上面的脚本将生成这个语料库

-rw-rw-r--.  1 tuananh tuananh       0  3月 29 13:10 mydoc_concepts.txt
-rw-rw-r--.  1 tuananh tuananh       0  3月 29 13:10 mydoc_links.txt
-rw-rw-r--.  1 tuananh tuananh      20  3月 29 13:10 mydoc_sents.txt
-rw-rw-r--.  1 tuananh tuananh       0  3月 29 13:10 mydoc_tags.txt
-rw-rw-r--.  1 tuananh tuananh      58  3月 29 13:10 mydoc_tokens.txt

sqlite支持

ttl数据可以存储在sqlite数据库中,以便更好地进行语料库分析。 示例代码将很快添加。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java SimpleCursorAdapter删除值   java结束while循环条件   java检查设备是否连接到特定网络   java组织。冬眠MappingException找不到逻辑名称为annotation getter的列   为什么java邮件中会抛出此异常?   加载SDK时发生java Eclipse错误   返回奇怪输出的Java数组   JavaXStream和对象类序列化   将枚举列表传递给namedQuery后出现java非法转换异常。Hibernate中的setParameter()   java Android studio不允许我在字符串上使用开关?   有没有办法从Java程序访问存储在Chrome中的cookie   java在枚举中构造实例而不修改枚举类   java Blackberry JDE FieldChangeListener   java修复错误:未报告的异常InterruptedException   java Spring数据JPA:findAll(具有规范和可分页)在计数查询中失败