西班牙语源的语料库下载程序和读取器
averell的Python项目详细描述
Averell,python库和命令行界面,便于工作 与现存的诗歌注释库。Averell能够下载带注释的语料库并协调不同的 TEI实体提供所需粒度的统一JSON输出。 也就是说,为了他们的调查,一些研究人员 可能需要整首诗,一行一行的诗, 如果可以的话,甚至可以逐字逐句。Averell允许指定 最终生成的数据集的粒度,它是JSON与all的组合 选定语料库中的实体。 目录中的每个语料库都必须指定解析器来生成预期的数据格式。在
- 免费软件:Apache软件许可证2.0
可用语料库(1.0.4版)
id | name | lang | size | docs | words | granularity | license |
---|---|---|---|---|---|---|---|
1 | Disco V2.1 (disco2_1) | es | 22M | 4088 | 381539 | stanza line | CC-BY |
2 | Disco V3 (disco3) | es | 28M | 4080 | 377978 | stanza line | CC-BY |
3 | Sonetos Siglo de Oro (adso) | es | 6.8M | 5078 | 466012 | stanza line | CC-BY-NC 4.0 |
4 | ADSO 100 poems corpus (adso100) | es | 128K | 100 | 9208 | stanza line | CC-BY-NC 4.0 |
5 | Poesía Lírica Castellana Siglo de Oro (plc) | es | 3.8M | 475 | 299402 | stanza line word syllable | CC-BY-NC 4.0 |
6 | Gongocorpus (gongo) | es | 9.2M | 481 | 99079 | stanza line word syllable | CC-BY-NC-ND 3.0 FR |
7 | Eighteenth Century Poetry Archive (ecpa) | en | 2400M | 3084 | 2063668 | stanza line word | CC BY-SA 4.0 |
8 | For Better For Verse (4b4v) | en | 39.5M | 103 | 41749 | stanza line | Unknown |
9 | Métrique en Ligne (mel) | fr | 183M | 5081 | 1850222 | stanza line | Unknown |
10 | Biblioteca Italiana (bibit) | it | 242M | 25341 | 7121246 | stanza line word | Unknown |
安装
要安装averell,请在终端中运行以下命令:
pip install averell
这是安装averell的首选方法,因为它将始终安装 最新的稳定版本。在
如果您没有安装pip,这个Python installation guide可以指导您 你完成了整个过程。在
使用
要显示averell帮助:
^{pr2}$列出所有可用的语料库:
averell list
其中一个可用语料库的可视化示例:
id name lang size docs words granularity license ---- ------------------- ------ ------ ------ ------- ------------- ----------- 1 Disco V2.1 es 22M 4088 381539 stanza CC-BY line
下载
将所需语料库下载到“mycorpora”文件夹中:
averell download 2 3 --corpora-folder my_corpora
从其中一个语料库中获得的TEI格式诗歌示例:
<TEIxmlns="http://www.tei-c.org/ns/1.0"><teiHeader><fileDesc><titleStmt><title> Spanish Metrical Patterns Bank: Golden Age Sonnets.</title><principal>Borja Navarro Colorado</principal><respStmt><name>María Ribes Lafoz</name><name>Noelia Sánchez López</name><name>Borja Navarro Colorado</name><resp>Metrical patterns annotation</resp></respStmt></titleStmt><publicationStmt><publisher>Natural Language Processing Group. Department of Software and Computing Systems. University of Alicante (Spain)</publisher></publicationStmt><sourceDesc><bibl><title>Sonetos</title> de <author>Garcilaso de La Vega</author>. <publisher>Biblioteca Virtual Miguel de Cervantes</publisher>, edición de <editorrole="editor">Ramón García González</editor>.</bibl></sourceDesc></fileDesc><encodingDesc><metDeclxml:id="bncolorado"type="met"pattern="((\+|\-)+)*"><metSymvalue="+">stressed syllable</metSym><metSymvalue="-">unstressed syllable</metSym></metDecl><metDecl><p>All metrical patterns have been manually checked.</p></metDecl></encodingDesc></teiHeader><text><body><head><title>-XX-</title></head><lgtype="cuarteto"><ln="1"met="-++--++--+-">Con tal fuerza y vigor son concertados</l><ln="2"met="-----+-+-+-">para mi perdición los duros vientos,</l><ln="3"met="--+--+---+-">que cortaron mis tiernos pensamientos</l><ln="4"met="+----++--+-">luego que sobre mí fueron mostrados.</l></lg><lgtype="terceto"><ln="5"met="-++--+---+-">El mal es que me quedan los cuidados</l><ln="6"met="---+-----+-">en salvo de estos acontecimientos,</l><ln="7"met="-++--+---+-">que son duros, y tienen fundamentos</l></lg></body></text></TEI>
从输入XML/TEI pome到 mycorpo/{corpus}/averell/parser/{author}/{pome}name}.json
{"manually_checked":true,"poem_title":"-XX-","author":"Garcilaso de La Vega","stanzas":[{"stanza_number":"1","stanza_type":"cuarteto","lines":[{"line_number":"1","line_text":"Con tal fuerza y vigor son concertados","metrical_pattern":"-++--++--+-"},{"line_number":"2","line_text":"para mi perdición los duros vientos,","metrical_pattern":"-----+-+-+-"},{"line_number":"3","line_text":"que cortaron mis tiernos pensamientos","metrical_pattern":"--+--+---+-"},{"line_number":"4","line_text":"luego que sobre mí fueron mostrados.","metrical_pattern":"+----++--+-"}],"stanza_text":"Con tal fuerza y vigor son concertados\npara mi perdición los duros vientos,\nque cortaron mis tiernos pensamientos\nluego que sobre mí fueron mostrados."},{"stanza_number":"2","stanza_type":"terceto","lines":[{"line_number":"5","line_text":"El mal es que me quedan los cuidados","metrical_pattern":"-++--+---+-"},{"line_number":"6","line_text":"en salvo de estos acontecimientos,","metrical_pattern":"---+-----+-"},{"line_number":"7","line_text":"que son duros, y tienen fundamentos","metrical_pattern":"-++--+---+-"}],"stanza_text":"El mal es que me quedan los cuidados\nen salvo de estos acontecimientos,\nque son duros, y tienen fundamentos"}]}
导出
现在,我们可以通过“粒度”选择将这些语料库组合并加入:
averell export 2 3 --granularity line --corpora-folder my_corpora --filename export_1
它生成一个JSON文件,其中包含有关 那些下士。mycorpora/export_1.json文件中two随机行示例:
{"line_number":"5","line_text":"¿Has visto que en el mismo lugar donde","metrical_pattern":"++---+--++-","stanza_number":"2","manually_checked":false,"poem_title":" - II - ","author":"Mira de Amescua","stanza_text":"¿Has visto que en el mismo lugar donde\nbordado estuvo el cristalino velo\nun bordado terliz de escarcha y hielo\nhace que el campo de verdor se monde?","stanza_type":"cuarteto"}{"line_number":"10","line_text":"el que a lo cierto no a lo incierto mira,","metrical_pattern":"---+-+-+-+-","stanza_number":"3","manually_checked":false,"poem_title":"- VIII - Considerando un sepulcro y los que están en él ","author":"Lope de Zarate","stanza_text":"De aquí si que consigue el ser dichoso\nel que a lo cierto no a lo incierto mira,\npues le adorna lo eterno fastuoso;","stanza_type":"terceto"}
默认情况下,export将在需要时下载语料库。为了避免这种行为,可以传入标志--no-download。在
导出的语料库可以很容易地加载到Pandas中
averell export adso100 --filename adso100.json
importpandasaspdadso100=pd.read_json(open("adso100.json"))
关于IDS
id可以是averell list输出中的数字标识符、语料库短代码(显示在括号之间)、表示所有语料库的专用文本all,或者是两个字母的ISO语言代码,以引用特定语言中的可用语料库。在
例如,命令averell export 1 bibit fr将导出discov2.1、Biblioteca Italiana诗歌语料库和所有带有法语标记的语料库,并在一个文件中逐行拆分诗歌。在
变更日志
1.1.0(2020-09-18)
- 添加bibiloteca Italiana(bibit)阅读器
- 将Archivio Metrico Italiano信息添加到Biblioteca Italiana阅读器中
- 减少夹具文件大小
- 将tmp文件添加到git ignore
- 添加语言和其他一些修饰性的更改
- 正在修复averell list命令的预期输出的错误
- 将slug、langs和'all'添加到download和export
- 固定覆盖范围
- 添加文档和修复测试
1.0.3(2020-09-03)
- 添加了export --filename选项
- 添加了两个新读卡器:
- For better For verse
- Métrique en ligne
1.0.2(2020-06-23)
- 添加了两个新读卡器:
- ECPA语料库
- Gongocorpus
- 小错误修复
1.0.1(2020-05-18)
- 设置BumbVersion
- 与Zenodo集成
1.0.0(2020-04-29)
- 删除代码块后的提交
- 将自动化部署添加到标签发布上的PyPI
- 添加的菜单
- 删除注释和更干净的代码修复
- 修复测试的排序输出
- 添加了适当的文档和覆盖测试
- 添加了对export函数的测试
- 添加了export函数
- 添加了TEI_NAMESPACE作为常量
- 固定文档。固定载荷为Path。修复了日志记录错误
- 添加的测试
2020年1月1日-2020年1月
- PyPI的第一个版本。在
- 项目
标签: