我想从tar.gz文件中读取文件夹的名称,并创建包含这些名称的列
我正在使用以下代码:
file_path = r"C:\Users\filename.tar.gz"
start_with = './mainfolder/'
import tarfile
import re
with tarfile.open(file_path, "r:*") as tar:
csv_path = tar.getnames()
csv_path = list(n for n in tar.getnames() if (n.endswith('.csv')) & (n.startswith(start_with)))
df = pd.DataFrame()
csv_list = []
for file in csv_path:
df_temp = pd.read_csv(tar.extractfile(file))
csv_list.append(df_temp)
df = pd.concat(csv_list)
在主文件夹中,只有少数几个文件夹具有名称。 从文件夹“X”(例如)读取csv文件后,应在此csv文件中创建“FolderName”列,并且必须包含所有行的文件夹名称(“X”)。 对于每个csv文件也是如此
路径字符串的exmaple:./mainfolder/1001_name
或./mainfolder/1002_some_name
在以下行之后:
您可以使用
os.path.dirname()
方法从file
路径字符串获取文件夹名称。更多信息here您将需要
import os
模块例如:
这将创建一个名为
FolderName
的新列,并为所有行设置值。更多信息here相关问题 更多 >
编程相关推荐