2024-05-15 22:16:59 发布
网友
我是Python新手,正在尝试读取存储在多个文件夹层次结构中的.txt文件的数据集。 文件夹的结构是
-Folder1 -Category1_Folder -file1.txt -Category2_Folder -file1.txt -file2.txt and so on...
这些类别具有重要意义。我需要能够识别哪个文件来自哪个类别。然后我需要删除停止字并使用TfIDf执行特征提取。 做这种事最简单的方法是什么?在
我推荐os.walk。在
os.walk
如果你有像这样的dirs:
project/ - folder1/ - file1.png - file2.jpg - folder2/ - file3.zip
然后,示例代码是:
输出:
/project ['folder1', 'folder2'] [] /project/folder1 [] ['file1.png', 'file2.jpg'] /project/folder2 [] ['file3.zip']
如果需要文件夹、文件名,请使用for loop:
for dirname in dirnames: for filename in filenames: # split dirname for categories # and so on..
我推荐
os.walk
。在如果你有像这样的dirs:
然后,示例代码是:
^{pr2}$输出:
如果需要文件夹、文件名,请使用for loop:
相关问题 更多 >
编程相关推荐