我有一个pandasdataframe
,其中数据排列如下:
filename label
0 4456723 0
1 4456723_01 0
2 4456723_02 0
3 ab43912 1
4 ab43912_01 1
5 ab43912_03 1
... ... ...
我想把这个dataframe
随机分成training
和validation
两组。如果这样做,我将引入泄漏,因为文件是略有变化的图像,但用不同的名称表示,例如ab43912, ab43912_01, ab43912_03
,都是相同的图像,但有一些变化
有没有什么有效的方法来对这些文件进行分组,然后进行不导致泄漏的拆分
您可以手动随机选择~80%的唯一文件句柄
实际上我们得到了2/3-1/3的分裂,因为N很小
train
:test
:相关问题 更多 >
编程相关推荐