我正在寻找更聪明的方法来创建两列,其中包含来自文件名的信息
我必须使用的文件名如下所示:
“数据-05a-Tea 2017.xls” “数据-05 B-Tea 2017.xls”
但有时会出现文件名问题,它们看起来像这样(附加-):
“数据-07-C-Tea 2017.xls”
我想添加到dataframe的信息是粗体的。是数字和字母,因此我的数据框将如下所示:
X Y Z Number Letter
0.32 0.23 0.234 05 A
0.4 0.24 44 05 B
23 21.2 0.4 07 C
现在我只是像这样切割绳子:
for file_name in glob.glob(path):
df = pd.read_html(file_name)[0]
rows = df.shape[0]
if "/A/" in path:
number = file_name[86:88]
letter = file_name[89:90]
elif "/B/" in path:
number = file_name[86:88]
letter = file_name[91:92]
df["number"] = [number] * rows
df["letter"] = [letter] * rows
乘法是因为我需要这个值出现在这个文件的整个数据集中,我想从中获取关于数字和字母表的信息,这些表包含n行
但我相信使用正则表达式会更聪明,但我不知道怎么做。我真的很感激你对我的帮助
对于您给出的示例,以下正则表达式有效:
相关问题 更多 >
编程相关推荐