假设我们有一个约17000行的PySpark数据帧,并希望检查列“a”是否为空。运行以下代码需要多长时间:
import great_expectations as ge
# results_all is a list of PySpark Data Frames and its length is currently 1
for df in results_all:
dq = ge.dataset.SparkDFDataset(df)
r1 = dq.expect_column_values_to_not_be_null('a')
print(r1)
到目前为止,它已经用了大约14个小时,并且仍然作为一个胶水作业运行。这是预期的吗
如果您可以共享作业日志,这将非常有用
可能有多种原因:
相关问题 更多 >
编程相关推荐