DDHI编码工具

ddhi-encoder的Python项目详细描述


帮助创建 泰伊编码口述历史访谈。达特茅斯数码公司的一部分 历史倡议。在

DDHI编码器

ddhi编码器包正在开发中,以协助编码器 泰伊口述历史访谈笔录的DDHI项目。在 目前,它包含三个命令行实用程序:

  1. ddhi_convert:将达特茅斯DVP转录本从docx转换为 tei.xml文件. 在
  2. ddhi_tag:对DDHI-TEI执行命名实体标记 转录。在
  3. ddhi_mentioned_places:从隔离标记中提取位置 用于使用OpenRefine进行处理
  4. ddhi_update_places:更新隔离标记中的位置

安装

您可以使用pip安装此软件包:

pip install ddhi-encoder

要使用ddhi_tag生成命名实体标记,您需要一个空格 模型。在运行ddhi_tag之前,请安装Spacy的small English model:

^{pr2}$

有关详细信息,请参见the Spacy documentation 信息。在

使用

使用ddhi_convert将DOCX编码的转录转换为 简单结构的TEI文档:

ddhi_convert ~/Desktop/transcripts/zien_jimmy_transcript_final.docx -o tmp.tei.xml

使用ddhi_tag将命名实体标记添加到TEI编码的 抄写:

ddhi_tag -o zien.tei.xml tmp.tei.xml

然后编码器会编辑采访文本, 更正自动生成的命名实体标记并添加新的 一个。此编辑阶段完成后,请使用 ddhi_generate_standoff在 采访中的实体和姓名链接。在

使用ddhi_mentioned_places提取TEI文件中的位置 制表位标记并将其打印为制表符分隔的值:

ddhi_mentioned_places lovely.tei.xml > lovely.tsv

然后使用OpenRefine或其他工具使用 标识符和其他元数据。在

使用ddhi_update_places更新TEI文件中的位置 通过获取标识符和地理坐标的防区外标记 OpenRefine或其他程序:

ddhi_update_places lovely.tei.xml lovely_updates.tsv >
updated_lovely.tei.xml

类似地,使用ddhi_mentioned_eventsddhi_update_events来 对事件执行相同的操作。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用split函数分割字符串,但没有得到期望的结果   未找到包含derby数据库嵌入架构的sql Java桌面应用程序错误   java elasticsearch vs solr用于定制全文搜索系统   java Android:创建没有startOffset的动画延迟?   java如何查看其他应用程序接收的数据?   java如何在Linux中使用D和classpath选项运行jar文件   java和域设计最佳实践   具有相同内存位置的java数组,将显示为输出   连接到java中的elasticsearch?   Java Playframework重定向到带有Json负载的外部url   java无法在Android平台上使用InputStream为蓝牙socket创建ObjectInputStream   使用POI将Excel日期转换为Java日期,年份未正确显示   oracle从数据库层还是Java层调用webservice?