PySpark：从Oracle表中选择一个值，然后添加到其中

from pyspark.conf import SparkConf from pyspark.sql import SparkSession spark.conf.set("hive.exec.dynamic.partition", "true") spark.conf.set("hive.exec.dynamic.partition.mode", "nonstrict") spark.conf.set("spark.sql.sources.partitionOverwriteMode","dynamic") def oracle_read(user,pwd,hostname,port,service_name,table_name): url = 'jdbc:oracle:thin:'+user+'/'+pwd+'@//'+hostname+':'+port+'/'+service_name result = spark.read \ .format("jdbc") \ .option("url", url) \ .option("dbtable",table_name) \ .option("user", user) \ .option("password", pwd) \ .option("driver", "oracle.jdbc.driver.OracleDriver") \ .load() result = result.toDF(* [c.lower() for c in result.columns]) return result max_seq_qry = """(SELECT max_val FROM data_owner.tbl_max_seq_load WHERE table_name = 'TBL_A')""" max_seq = oracle_read(oracle_user,oracle_pass,oracle_host,oracle_port,oracle_service,max_seq_qry) min_seq = max_seq + 1 max_seq = max_seq + 10000

2条回答

网友

1楼 · 编辑于 2024-04-20 13:52:20

您的函数oracle_read返回一个数据帧（result），您正试图增加它（向其中添加一个），这是不可能的，因此会出现错误

在您的例子中，您只从数据库中获取一列“max_val”，并且可能是第一个匹配项，因此您可以选择此列并将第一个值作为max_seq['max_val'].values[0]

因此，您可以将代码重写为

max_seq = oracle_read(oracle_user,oracle_pass,oracle_host,oracle_port,oracle_service,max_seq_qry)
max_seq = int(max_seq['max_val'].values[0]) + 1

网友

2楼 · 编辑于 2024-04-20 13:52:20

请检查是否有table_name='TBL_A'的行，如果没有行，请尝试添加一个NVL（max_val，0），看看是否有效

与其将序列存储在表中，不如使用Oracle sequence，因为它在多用户环境中更具可扩展性和帮助性

谢谢

相关问题更多 >

编程相关推荐

热门问题

热门文章