将非结构化文档集合转换为结构化链接数据
ferenda的Python项目详细描述
ferende是一个用于转换的python库和框架 将非结构化文档集合转换为结构化链接数据。它 有助于下载文档,解析文档以添加显式 语义结构和基于rdf的元数据,查找关系 在文档之间,并发布结果,包括通过 基于rest的http api。
快速启动
本例使用Ferenda的项目框架下载 最新的RFC和W3C标准,将文档解析为结构化的, 启用rdf的xhtml文档,将所有rdf元数据加载到一个triplestore中 并生成可使用的静态HTML5文件的网站 脱机:
pip install ferenda ferenda-setup myproject cd myproject ./ferenda-build.py ferenda.sources.tech.RFC enable ./ferenda-build.py ferenda.sources.tech.W3Standards enable ./ferenda-build.py all all --downloadmax=50 --staticsite --fulltextindex=False open data/index.html
如果 你想把Ferenda作为更大系统的一部分。也有可能 只使用你需要的部分(如 下载和解析功能)。
更多信息
有关详细文档,请参见http://ferenda.readthedocs.org/。
版权和许可
大部分代码由staffan malmgren编写,在main下授权 2条款BSD许可证。
一些捆绑的代码和其他创造性的作品是由 作者,根据各自的许可证包括:
- rdflib-sqlite作者:格雷厄姆 希金斯,疯牛病
- patch作者:阿纳托利 麻省理工学院Techtonik
- Grit XSLT stylesheets 和RDL service UI 作者:Niklas Lindstrom,BSD
- httpheader德隆 梅兰达,lgpl
- smc.mw作者:马库斯·布林克曼,BSD
- normalize.css,麻省理工学院
- responsive template,钯
- jquery,麻省理工学院
- modernizr,麻省理工学院
- respond.js,麻省理工学院/gpl
- Gentleface wireframe toolbar icons,cc-by-nc