西班牙语源的语料库下载程序和读取器

averell的Python项目详细描述


Averell,python库和命令行界面,便于工作 与现存的诗歌注释库。Averell能够下载带注释的语料库并协调不同的 TEI实体提供所需粒度的统一JSON输出。 也就是说,为了他们的调查,一些研究人员 可能需要整首诗,一行一行的诗, 如果可以的话,甚至可以逐字逐句。Averell允许指定 最终生成的数据集的粒度,它是JSON与all的组合 选定语料库中的实体。 目录中的每个语料库都必须指定解析器来生成预期的数据格式。在

  • 免费软件:Apache软件许可证2.0

可用语料库(1.0.4版)

idnamelangsizedocswordsgranularitylicense
1Disco V2.1 (disco2_1)es22M4088381539stanza lineCC-BY
2Disco V3 (disco3)es28M4080377978stanza lineCC-BY
3Sonetos Siglo de Oro (adso)es6.8M5078466012stanza lineCC-BY-NC 4.0
4ADSO 100 poems corpus (adso100)es128K1009208stanza lineCC-BY-NC 4.0
5Poesía Lírica Castellana Siglo de Oro (plc)es3.8M475299402stanza line word syllableCC-BY-NC 4.0
6Gongocorpus (gongo)es9.2M48199079stanza line word syllableCC-BY-NC-ND 3.0 FR
7Eighteenth Century Poetry Archive (ecpa)en2400M30842063668stanza line wordCC BY-SA 4.0
8For Better For Verse (4b4v)en39.5M10341749stanza lineUnknown
9Métrique en Ligne (mel)fr183M50811850222stanza lineUnknown
10Biblioteca Italiana (bibit)it242M253417121246stanza line wordUnknown

安装

要安装averell,请在终端中运行以下命令:

pip install averell

这是安装averell的首选方法,因为它将始终安装 最新的稳定版本。在

如果您没有安装pip,这个Python installation guide可以指导您 你完成了整个过程。在

使用

要显示averell帮助:

^{pr2}$

列出所有可用的语料库:

averell list

其中一个可用语料库的可视化示例:

  id  name                 lang    size      docs    words  granularity    license
----  -------------------  ------  ------  ------  -------  -------------  -----------
   1  Disco V2.1           es      22M       4088   381539  stanza         CC-BY
                                                            line

下载

将所需语料库下载到“mycorpora”文件夹中:

averell download 2 3 --corpora-folder my_corpora

从其中一个语料库中获得的TEI格式诗歌示例:

<TEIxmlns="http://www.tei-c.org/ns/1.0"><teiHeader><fileDesc><titleStmt><title> Spanish Metrical Patterns Bank: Golden Age Sonnets.</title><principal>Borja Navarro Colorado</principal><respStmt><name>María Ribes Lafoz</name><name>Noelia Sánchez López</name><name>Borja Navarro Colorado</name><resp>Metrical patterns annotation</resp></respStmt></titleStmt><publicationStmt><publisher>Natural Language Processing Group. Department of Software and Computing Systems. University of Alicante (Spain)</publisher></publicationStmt><sourceDesc><bibl><title>Sonetos</title> de <author>Garcilaso de La Vega</author>. <publisher>Biblioteca Virtual Miguel de Cervantes</publisher>, edición de <editorrole="editor">Ramón García González</editor>.</bibl></sourceDesc></fileDesc><encodingDesc><metDeclxml:id="bncolorado"type="met"pattern="((\+|\-)+)*"><metSymvalue="+">stressed syllable</metSym><metSymvalue="-">unstressed syllable</metSym></metDecl><metDecl><p>All metrical patterns have been manually checked.</p></metDecl></encodingDesc></teiHeader><text><body><head><title>-XX-</title></head><lgtype="cuarteto"><ln="1"met="-++--++--+-">Con tal fuerza y vigor son concertados</l><ln="2"met="-----+-+-+-">para mi perdición los duros vientos,</l><ln="3"met="--+--+---+-">que cortaron mis tiernos pensamientos</l><ln="4"met="+----++--+-">luego que sobre mí fueron mostrados.</l></lg><lgtype="terceto"><ln="5"met="-++--+---+-">El mal es que me quedan los cuidados</l><ln="6"met="---+-----+-">en salvo de estos acontecimientos,</l><ln="7"met="-++--+---+-">que son duros, y tienen fundamentos</l></lg></body></text></TEI>

从输入XML/TEI pome到 mycorpo/{corpus}/averell/parser/{author}/{pome}name}.json

{"manually_checked":true,"poem_title":"-XX-","author":"Garcilaso de La Vega","stanzas":[{"stanza_number":"1","stanza_type":"cuarteto","lines":[{"line_number":"1","line_text":"Con tal fuerza y vigor son concertados","metrical_pattern":"-++--++--+-"},{"line_number":"2","line_text":"para mi perdición los duros vientos,","metrical_pattern":"-----+-+-+-"},{"line_number":"3","line_text":"que cortaron mis tiernos pensamientos","metrical_pattern":"--+--+---+-"},{"line_number":"4","line_text":"luego que sobre mí fueron mostrados.","metrical_pattern":"+----++--+-"}],"stanza_text":"Con tal fuerza y vigor son concertados\npara mi perdición los duros vientos,\nque cortaron mis tiernos pensamientos\nluego que sobre mí fueron mostrados."},{"stanza_number":"2","stanza_type":"terceto","lines":[{"line_number":"5","line_text":"El mal es que me quedan los cuidados","metrical_pattern":"-++--+---+-"},{"line_number":"6","line_text":"en salvo de estos acontecimientos,","metrical_pattern":"---+-----+-"},{"line_number":"7","line_text":"que son duros, y tienen fundamentos","metrical_pattern":"-++--+---+-"}],"stanza_text":"El mal es que me quedan los cuidados\nen salvo de estos acontecimientos,\nque son duros, y tienen fundamentos"}]}

导出

现在,我们可以通过“粒度”选择将这些语料库组合并加入:

averell export 2 3 --granularity line --corpora-folder my_corpora --filename export_1

它生成一个JSON文件,其中包含有关 那些下士。mycorpora/export_1.json文件中two随机行示例:

{"line_number":"5","line_text":"¿Has visto que en el mismo lugar donde","metrical_pattern":"++---+--++-","stanza_number":"2","manually_checked":false,"poem_title":" - II - ","author":"Mira de Amescua","stanza_text":"¿Has visto que en el mismo lugar donde\nbordado estuvo el cristalino velo\nun bordado terliz de escarcha y hielo\nhace que el campo de verdor se monde?","stanza_type":"cuarteto"}{"line_number":"10","line_text":"el que a lo cierto no a lo incierto mira,","metrical_pattern":"---+-+-+-+-","stanza_number":"3","manually_checked":false,"poem_title":"- VIII - Considerando un sepulcro y los que están en él ","author":"Lope de Zarate","stanza_text":"De aquí si que consigue el ser dichoso\nel que a lo cierto no a lo incierto mira,\npues le adorna lo eterno fastuoso;","stanza_type":"terceto"}

默认情况下,export将在需要时下载语料库。为了避免这种行为,可以传入标志--no-download。在

导出的语料库可以很容易地加载到Pandas中

averell export adso100 --filename adso100.json
importpandasaspdadso100=pd.read_json(open("adso100.json"))

关于IDS

id可以是averell list输出中的数字标识符、语料库短代码(显示在括号之间)、表示所有语料库的专用文本all,或者是两个字母的ISO语言代码,以引用特定语言中的可用语料库。在

例如,命令averell export 1 bibit fr将导出discov2.1、Biblioteca Italiana诗歌语料库和所有带有法语标记的语料库,并在一个文件中逐行拆分诗歌。在

变更日志

1.1.0(2020-09-18)

  • 添加bibiloteca Italiana(bibit)阅读器
  • 将Archivio Metrico Italiano信息添加到Biblioteca Italiana阅读器中
  • 减少夹具文件大小
  • 将tmp文件添加到git ignore
  • 添加语言和其他一些修饰性的更改
  • 正在修复averell list命令的预期输出的错误
  • 将slug、langs和'all'添加到downloadexport
  • 固定覆盖范围
  • 添加文档和修复测试

1.0.3(2020-09-03)

  • 添加了export --filename选项
  • 添加了两个新读卡器:
    • For better For verse
    • Métrique en ligne

1.0.2(2020-06-23)

  • 添加了两个新读卡器:
    • ECPA语料库
    • Gongocorpus
  • 小错误修复

1.0.1(2020-05-18)

  • 设置BumbVersion
  • 与Zenodo集成

1.0.0(2020-04-29)

  • 删除代码块后的提交
  • 将自动化部署添加到标签发布上的PyPI
  • 添加的菜单
  • 删除注释和更干净的代码修复
  • 修复测试的排序输出
  • 添加了适当的文档和覆盖测试
  • 添加了对export函数的测试
  • 添加了export函数
  • 添加了TEI_NAMESPACE作为常量
  • 固定文档。固定载荷为Path。修复了日志记录错误
  • 添加的测试

2020年1月1日-2020年1月
  • PyPI的第一个版本。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java搜索文本中的字符串模式   SecurityManager引发异常的java Mockito模拟   java(仅限Netbeans)未找到适合jdbc的驱动程序:mysql://localhost   java计算给定字符串所有前缀的哈希值的子字符串的哈希值   java如何避免每次访问REST认证API以使用实际服务   用于HTML的java Jsoup选择器组合   可以复制或引用的java构造函数   Java中的HashMap。搞砸containsKey返回意外值   java数组平均值计算   java是检查字符串是否包含特定字符的最有效方法   java反序列化对象类已更改   java典型的EJB3/JPA/JSF中的事务范围是什么?   Install4j的java错误代码20   java:compileJava在本地项目()依赖项上的多模块项目上持续失败“错误:包x.y.z不存在”   java有一种生成Suppression的方法。现有代码库中checkstyle的xml文件?