Kedro Great使得将Great Expections与Kedro相结合变得容易!
kedro-great的Python项目详细描述
凯德罗太好了
如DataEngineerOne
观看视频:Kedro Great: Use Great Expectations with Ease!
在
Kedro Great是Kedro的一个易于使用的插件,它使得与greatexpections的集成变得快速而简单。在
对Great Expectations负责。
永远不要害怕数据会再次悄然改变。在
快速入门
安装
Kedro Great可在pypi上使用,并与kedro hooks一起安装。在
pip install kedro-great
设置
一旦安装,kedro great
就可以作为kedro命令使用。在
您可以使用kedro great init
初始化一个远大前程项目,然后自动生成它的项目上下文。在
此外,通过使用kedro great init
,您还可以生成与您的catalog.yml
数据集一起使用的Datasource
和{
默认情况下,预期套件以catalog.yml
名称命名,并为每个套件生成一个basic.json
。在
使用
在greatexpections项目被设置和配置之后,现在可以在每次管道运行时使用KedroGreat
钩子来运行所有的数据验证。在
# run.pyfromkedro_greatimportKedroGreatclassProjectContext(KedroContext):hooks=(KedroGreat(),)
然后运行kedro管道来运行套房。在
kedro run
结果
最后,您可以使用great_expectations
本身来生成文档并查看管道的结果。在
喜欢看那些绿色的虱子!在
great_expectations docs build
挂钩选项
KedroGreat
钩子目前支持一些选项。如果你愿意的话
期望图:Dict[str,Union[str,List[str]]
如果您有多个要运行的预期套件,或有不同名称的预期套件
作为目录数据集,可以在KedroGreat
的expectations_map
参数中指定这些映射
Default:目录名是期望名称。在
注意:指定诸如.basic
的套件类型将覆盖所有其他套件类型
KedroGreat(expectations_map={'pandas_iris_data':'pandas_iris_data','spark_iris_data':['spark_iris_data','other_expectation','another_expectation.basic'],})
套件类型:列表[可选[str]
如果您的套件有多个类型,您可以确切地选择要运行的类型。在
一个None
意味着一个套件将不会在名称后面附加类型。在
默认值:KedroGreat.DEFAULT_SUITE_TYPES
。在
节点:如果已经在expectations_map
中指定了一个套件类型,则将覆盖此列表。在
KedroGreat(suite_types=['warning','basic',None])
在之前运行_节点:bool,在节点后运行\u:bool
您可以决定套件何时运行,在节点之前还是之后,或者同时在节点之前和之后。在
它将分别在节点inputs
和{
Default:只在节点运行之前运行。在
KedroGreat(run_before_node=True,run_after_node=False)
fail_fast:bool,fail_after_pipeline_运行:bool
当greatexpections验证失败时,您还可以让KedroGreat
抛出一个SuiteValidationFailure
。在
可以立即抛出异常,也可以在整个管道运行期间聚合异常,并在最后引发异常。在
这对于希望以CI/CD方式在管道上运行验证时非常有用。在
Default:两者都未设置
KedroGreat(fail_fast=True,fail_after_pipeline_run=True)
- 项目
标签: