数据挖掘工具,从成批XML文件中挖掘数据

xml-miner的Python项目详细描述


xml/trxml选择器

说明

此包提供两个脚本:mine-xmlmine-trxml

mine-xml从xml/mxml文件中选择标记,并保存 选择要归档的值。

mine-trxml从trxml/mtrxml文件中选择字段,并保存 要归档的选定值。

状态

https://travis-ci.org/tilaboy/xml-miner.svg?branch=masterDocumentation StatusUpdates

要求

Python3.6+

安装

pip install xml-selector

使用量

使用XML选择器脚本
XML选择器支持:
  • 一个或多个标记名:
  • 选择器可以是一个标记名name
  • 或逗号分隔的标记名langskill,compskill,softskills
  • 多个来源:
  • 例如,从XML目录、XML文件、MXML文件或直接从 注释服务器
示例:
#select from xml directory
mine-xml --source tests/xmls/ --selector name --output_file name.tsv
mine-xml --source tests/xmls/ --selector langskill,compskill,softskill --output_file skill.tsv --with_field_name

#select from xml file or mxml file
mine-xml --source tests/sample.mxml --selector experience --output_file experience.tsv

#select directly from annotation server
mine-xml --source localhost:50249 --selector name --output_file name.tsv --query "set Data2018"

使用trxml选择器脚本
trxml选择器支持:
  • 一个或多个选择器:
  • 选择器可以是一个字段:name.0.name
  • 或逗号分隔字段:name.0.name,address.0.address
  • 单件或多件物品:
  • 可以从一个项目中选择字段,例如experienceitem.3.experience
  • 或者选择所有项的字段值,例如experienceitem.experience (或experienceitem.*.experience
  • 多个来源:
  • 例如,从trxml dir、trxml files或mtrxml file中选择
示例:
# one selector, single item
mine-trxml --source tests/trxmls/ --selector name.0.name --output_file name.tsv

# one selector, multiple item
mine-trxml --source tests/sample.mxml --selector experienceitem.experience --output_file experience.tsv

# more selectors, single item
mine-trxml --source tests/trxmls/ --selector name.0.name,address.0.address,phone.0.phone --output_file personal.tsv

# more selectors, multiple item
mine-trxml --source tests/sample.mxml  --itemgroup experienceitem --fields experience,experiencedate --output_file experience.tsv
mine-trxml --source tests/sample.mxml  --selector experienceitem.*.experience,experienceitem.*.experiencedate --output_file experience.tsv
mine-trxml --source tests/sample.mxml  --selector experienceitem.experience,experienceitem.experiencedate --output_file experience.tsv

发展

要安装包及其依赖项,请从项目运行以下命令 根目录:

python setup.py install

要运行代码并开发包,请从project运行以下命令 根目录:

python setup.py develop

要运行单元测试,请从项目根目录执行以下操作 目录:

python setup.py test

选择器和输出详细信息:

  • 我的XML:

    输入:文档、选择器、输出

    输出:

    • 默认值(参数with_field_name未设置): filename, field_value

    例如,使用选择器name

    filenamevalue
    xxxxChao Li
    • 参数with_field_name集: filename, field_value, field_name

    例如,使用选择器选择技能compskill,langskill,otherskill

    filenamevaluefield
    xxxxjavacompskill
    xxxxdutchlangskill
  • 我的trxml

    • 输入:
    • 文档,选择器,输出,
    • 文档,项目组,字段,输出
    • 单个选择器:
    • 单个项(name.0.name):文件名字段
    filenamename.0.name
    xxxxChao Li
    • 多项目(skill.*.skill):文件名项目索引字段
    filenameitem_indexfield
    xxxx0java
    xxxx1dutch
    • 多个选择器
    • 单个项目:文件名,字段1,字段2…

    每个选择器都指向具有数字的特定项的字段 索引,例如name.0.lastname,name.0.firstname,address.0.country

    filenamename.0.lastnamename.0.firstnameaddress.0.country
    xxxxLiChaoChina
    xxxxLeeRichardUSA
    • 多项目:文件名,项目索引,字段1,字段2…

    每个选择器指向项组中所有项的字段,例如 skill.skill,skill.type,skill.date

    filenameskillskilltypedate
    xxxx0javacompskill2001-2005
    xxxx1dutchlangskill2002-

0.0.3(2019-08-11)

  • 展开miner.py模块以生成每个文档的匹配短语

0.0.2(2019-08-09)

  • 增加了对ci的支持

0.0.1(2019-08-09)

  • 制作两个脚本:mine xml和mine trxml

0.0.0(2019-08-06)

  • 添加mine-xml和mine-trxml的第一个版本

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为什么我们不能将ArrayList<Integer>传递给具有(Integer…)的方法参数   java Spring RestTemplate映射JSON对映射的响应引发不匹配的PutException   在系统中找到java Selenium元素,但在Jenkins中未找到   java在Android中使用JavaMail API发送电子邮件,而不使用默认/内置应用程序   数组如何在Java数据结构中同时存储数字和相应的单词?   为什么“+”运算符未定义?JAVA   java如何在游戏中添加高分系统?   java在球门碰撞中区分球和球员   java如何使用SpringSecurity4.0.1使用Auth令牌实现Rest完整Web服务。释放   java如何解决这个错误:Android资源链接失败?   java多线程文件处理和数据库批插入   导致Tomcat失败的java无用块线程   java主线程做了太多的工作,尽管我使用了异步线程(laggy UI)   在Java FX 2.0中滚动锚定节点时,锚定始终可见?   java使用EJB3中的客户机jar和设计模式