使用Python进行ETL
我正在做一个数据仓库,想找一个用Python的ETL解决方案。之前我试过SnapLogic作为ETL工具,但我想知道还有没有其他的选择。
这个数据仓库刚刚开始搭建,我还没有把任何数据导入进去。我想加载的初始数据量会超过100GB。
3 个回答
0
你们可以看看这个叫做 Zed 的湖泊。它可以让你把各种数据格式加载到数据“池”里。一旦加载完成,你就可以使用 Zed 语言把数据转换成你需要的样子。我觉得 Zed 语言比用 SQL 做数据提取、转换和加载(ETL)简单多了。而且它也能处理大规模的数据。
1
你可以使用 pyodbc
这个Python库来从不同的数据库中提取数据。然后,利用 pandas
数据框来处理和清理这些数据,以满足公司的需求。最后,再用 pyodbc
将处理好的数据加载到你的数据仓库中。
25
没错。只需要用Python通过数据库的DB-API接口来操作你的数据库。
大多数ETL程序提供一些花哨的“高级语言”或者拖拽式的图形界面,这些其实帮助不大。
Python同样表达能力强,而且使用起来也很简单。
别搞复杂。就用普通的Python就行。
我们每天都这样做,结果非常满意。简单、清晰又有效。