Pyelt是一个DDL和ETL框架,用于在Postgress数据库上创建和填充数据保险库数据仓库。
pyelt的Python项目详细描述
用法
此示例将创建并填充历史暂存区域:
pipeline = Pipeline(config) pipe = pipeline.get_or_create_pipe('test_source', source_config) source_file = CsvFile(get_root_path() + '/sample_data/patienten1.csv', delimiter=';') source_file.reflect() source_file.set_primary_key(['patientnummer']) mapping = SourceToSorMapping(source_file, 'persoon_hstage', auto_map=True) pipe.mappings.append(mapping) pipeline.run()
更多的例子可以在the GitHub repository of NL Healthcare上找到。
简介
Pyelt是一个PythonDDL和ETL框架,用于为数据仓库创建和加载数据保险库。
Pyelt支持几个数据层,包括记录源(sor)、原始数据存储库(rdv)、业务数据存储库(bdv)和数据集市(dm)
Pyelt可以从几个不同的源系统导入数据,例如固定长度文件、CSV文件和不同的数据库。
Pyelt是在postgresql数据库上运行的。
Pyelt仅将sqlalchemy.core用于连接和反射。所有其他sql语句(ddl、copy、insert和update语句)都是由pyelt框架本身创建的。
编写自己的映射以通过转移到数据仓库来传输和转换源中的数据。
背景
目前,NL Healthcare正在开发Pyelt框架,目的是实现我们的下一代数据仓库(DWH2.0)。它为我们在临床商业智能(CBI)和机器学习领域的工作奠定了基础。
本项目的建筑基石是:
- 数据仓库(dv)设计模式Hans Hultgren
- dv的领域特定模型,遵循HL7 v3 Reference Information Model和荷兰详细临床模型Zorginformatiebouwstenen(荷兰语)。