我们有一个CSV文件存储在ADO(Azure DevOps)Git存储库中。我有Azure DataRicks集群在运行,在工作区中我有一个python代码来读取这个CSV文件并将其转换为spark数据帧。但每次文件发生更改时,我都必须手动从ADOGIT下载它并上传到Databricks工作区。我使用以下命令验证文件是否已上载:-
dbutils.fs.ls ("/FileStore/tables")
它列出了我的文件。然后,我使用以下Python代码将此CSV转换为Spark数据帧:
file_location = "/FileStore/tables/MyFile.csv"
file_type = "csv"
# CSV options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","
# The applied options are for CSV files. For other file types, these will be ignored.
df = spark.read.format(file_type) \
.option("inferSchema", infer_schema) \
.option("header", first_row_is_header) \
.option("sep", delimiter) \
.load(file_location)
因此,每次ADO Git存储库中的文件发生更改时,都会涉及此手动步骤。是否有任何Python函数可以直接指向adogit主分支中的文件副本
您有两种选择,这取决于您更简单的选择:
dbutils.fs.cp
将文件从驱动程序节点复制到/FileStore/tables
databrics fs cp ...
命令)将文件直接复制到DBFS中。这里有一个example并不是完全按照你想要的做,但它可以作为灵感李>相关问题 更多 >
编程相关推荐