我有一个文件夹,里面的文件类似于-
./env_california_0100.xml
./env_california_0200.xml
./env_california_0300.xml
./env_california_0400.xml
./env_0100.xml
./env_0200.xml
./env_0300.xml
./env_0400.xml
使用pyspark,如果我想读取名称包含字符串“california”的文件,那么我会使用
df=spark.read.format("com.databricks.spark.xml").option("rowTag","someTag").load("/some_folder/*california*.xml")
但是如何读取没有字符串“california”的文件呢?你知道吗
使用glob提取文件列表,然后在load调用中解压缩该列表:
因为我们可以像这样加载多个文件:
.load(path1,path2,....)
相关问题 更多 >
编程相关推荐