远大的期望需要很长时间

2024-05-16 14:02:58 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我们有一个约17000行的PySpark数据帧,并希望检查列“a”是否为空。运行以下代码需要多长时间:

import great_expectations as ge
# results_all is a list of PySpark Data Frames and its length is currently 1
for df in results_all:
    dq = ge.dataset.SparkDFDataset(df)
    r1 = dq.expect_column_values_to_not_be_null('a')
    print(r1)

到目前为止,它已经用了大约14个小时,并且仍然作为一个胶水作业运行。这是预期的吗


Tags: 数据代码importdfisasallresults
1条回答
网友
1楼 · 发布于 2024-05-16 14:02:58

如果您可以共享作业日志,这将非常有用

可能有多种原因:

  1. 我假设您在GLUE代码中使用外部库,所以可能存在与库安装相关的问题
  2. 如何导出列表结果?所有[数据帧列表],数据帧是从外部数据源填充的,由于防火墙/VPC限制,这些数据源可能无法处理

相关问题 更多 >