如何从路径字符串中获取文件夹名称并将其添加到dataframe中的新列中？

file_path = r"C:\Users\filename.tar.gz" start_with = './mainfolder/' import tarfile import re with tarfile.open(file_path, "r:*") as tar: csv_path = tar.getnames() csv_path = list(n for n in tar.getnames() if (n.endswith('.csv')) & (n.startswith(start_with))) df = pd.DataFrame() csv_list = [] for file in csv_path: df_temp = pd.read_csv(tar.extractfile(file)) csv_list.append(df_temp) df = pd.concat(csv_list)

1条回答

网友

1楼 · 发布于 2024-04-20 15:33:42

在以下行之后：

df_temp = pd.read_csv(tar.extractfile(file))

您可以使用os.path.dirname()方法从file路径字符串获取文件夹名称。更多信息here

您将需要import os模块

例如：

#returns ./mainfolder/1001_name
full_folder_path = os.path.dirname(file)

#returns 1001_name
folder = os.path.basename(full_folder_path)

#returns name bit
result = folder[folder.index('_')+1:]

df_temp['FolderName'] = result

这将创建一个名为FolderName的新列，并为所有行设置值。更多信息here

相关问题更多 >

编程相关推荐

热门问题

热门文章