2024-04-27 12:59:29 发布
网友
我有一个音频文件,一个两个人的电话录音,我需要自动分离两个扬声器的声音。我是语音识别的新手,我查看了python的wave模块,但是没有找到任何有成效的信息。
请帮忙开始。也请建议我免费的python库,这将有助于我解决这个问题。
查看sciKits电话亭:http://projects.scipy.org/scikits/wiki/Talkbox
不可原谅的教程是非常有限的:http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html
从numpy开始,我会把频谱图(基本上是一个滚动的FFT)看作是区分音频记录中不同声音的好方法。
这是Matplotlib中的谱图函数:
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram
如果你刚开始使用Windows平台,我建议你使用Python(x,y)。
说话人分离任务不是语音识别任务,而是说话人识别任务。在言语承诺中,这一任务也被称为说话人二值化。Python提供了几个用于说话人二值化和说话人识别的软件包:
SIDEKIT from LIUM
Bob toolkit from Idiap
Speaker diarization from ISCI
如果您不局限于Python,还有其他一些:
LIUM speaker diarization
Speaker recognition setup in Kaldi。包括最新的基于DNN的i-向量称为x-向量。
查看sciKits电话亭:http://projects.scipy.org/scikits/wiki/Talkbox
不可原谅的教程是非常有限的:http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html
从numpy开始,我会把频谱图(基本上是一个滚动的FFT)看作是区分音频记录中不同声音的好方法。
这是Matplotlib中的谱图函数:
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram
如果你刚开始使用Windows平台,我建议你使用Python(x,y)。
说话人分离任务不是语音识别任务,而是说话人识别任务。在言语承诺中,这一任务也被称为说话人二值化。Python提供了几个用于说话人二值化和说话人识别的软件包:
SIDEKIT from LIUM
Bob toolkit from Idiap
Speaker diarization from ISCI
如果您不局限于Python,还有其他一些:
LIUM speaker diarization
Speaker recognition setup in Kaldi。包括最新的基于DNN的i-向量称为x-向量。
相关问题 更多 >
编程相关推荐