Python倭黑猩猩ETL

2024-05-23 22:36:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用倭黑猩猩做一个基本的转换和加载过程

  1. 我在数据帧中获取数据
  2. 产生一行
  3. 规范化单行
  4. 将单行加载到数据库中
    def get_graph(**options):
        graph = bonobo.Graph()
        graph.add_chain(
            transform(data_as_dataframe),
            normalize,
            load
        )

        return graph

    graph = get_graph()
    bonobo.run(graph)

这个过程似乎非常慢(1000行/20列5分钟)。你知道吗

倭黑猩猩在引擎盖下使用多线程吗?你知道吗

你有没有想过为什么要花这么长时间来加载这个小数据集?你知道吗

有人能给我举个例子说明如何做类似的事情吗? 谢谢


Tags: 数据add数据库chainget过程deftransform