检测具有不同比特率和/或不同ID3标签的重复MP3文件?

2024-04-24 00:56:41 发布

您现在位置:Python中文网/ 问答频道 /正文

如何检测(最好使用Python)重复的MP3文件,这些文件可以用不同的比特率(但它们是同一首歌)进行编码,并且ID3标签可能不正确?

我知道我可以对文件内容进行MD5校验和,但这对于不同的比特率不起作用。我不知道ID3标签是否对生成MD5校验和有影响。我应该重新编码MP3文件有不同的比特率,然后我可以做校验和?你推荐什么?


Tags: 文件内容编码标签mp3校验md5id3
3条回答

这个问题和以前的AudioScrobbler和现在的MusicBrainz的人很久以前就已经研究过了。目前,Python项目是Picard,它将用一个GUID(实际上是几个GUID)标记音频文件(不仅是MPEG 1第3层文件),从那时起,匹配这些标记非常简单。

如果您更愿意将其作为自己的项目来完成,libofa可能会有所帮助。

对于标记问题,Picard确实是一个很好的选择。如果在识别出两个可能重复的文件后,您希望从中提取比特率信息,请查看mp3guessenc

正如其他人所说,简单的校验和不会检测到具有不同比特率或ID3标签的重复项。你需要的是一个音频指纹算法。Python音频处理套件有这样一个算法,但是我不能说它有多可靠。

http://rudd-o.com/new-projects/python-audioprocessing

相关问题 更多 >