Python说话人识别

2024-04-27 12:59:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个音频文件,一个两个人的电话录音,我需要自动分离两个扬声器的声音。我是语音识别的新手,我查看了python的wave模块,但是没有找到任何有成效的信息。

请帮忙开始。也请建议我免费的python库,这将有助于我解决这个问题。


Tags: 模块信息声音语音wave建议音频文件新手
3条回答

从numpy开始,我会把频谱图(基本上是一个滚动的FFT)看作是区分音频记录中不同声音的好方法。

这是Matplotlib中的谱图函数:

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

如果你刚开始使用Windows平台,我建议你使用Python(x,y)

说话人分离任务不是语音识别任务,而是说话人识别任务。在言语承诺中,这一任务也被称为说话人二值化。Python提供了几个用于说话人二值化和说话人识别的软件包:

SIDEKIT from LIUM

Bob toolkit from Idiap

Speaker diarization from ISCI

如果您不局限于Python,还有其他一些:

LIUM speaker diarization

Speaker recognition setup in Kaldi。包括最新的基于DNN的i-向量称为x-向量。

相关问题 更多 >