Python说话人识别 - 问答 - Python中文网

Python说话人识别

2024-04-27 12:59:29 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个音频文件，一个两个人的电话录音，我需要自动分离两个扬声器的声音。我是语音识别的新手，我查看了python的wave模块，但是没有找到任何有成效的信息。

请帮忙开始。也请建议我免费的python库，这将有助于我解决这个问题。

Tags：模块信息声音语音 wave 建议音频文件新手

3条回答

网友

1楼 · 编辑于 2024-04-27 12:59:29

查看sciKits电话亭：http://projects.scipy.org/scikits/wiki/Talkbox

不可原谅的教程是非常有限的：http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html

网友

2楼 · 编辑于 2024-04-27 12:59:29

从numpy开始，我会把频谱图（基本上是一个滚动的FFT）看作是区分音频记录中不同声音的好方法。

这是Matplotlib中的谱图函数：

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

如果你刚开始使用Windows平台，我建议你使用Python(x,y)。

网友

3楼 · 编辑于 2024-04-27 12:59:29

说话人分离任务不是语音识别任务，而是说话人识别任务。在言语承诺中，这一任务也被称为说话人二值化。Python提供了几个用于说话人二值化和说话人识别的软件包：

SIDEKIT from LIUM

Bob toolkit from Idiap

Speaker diarization from ISCI

如果您不局限于Python，还有其他一些：

LIUM speaker diarization

Speaker recognition setup in Kaldi。包括最新的基于DNN的i-向量称为x-向量。

相关问题更多 >

编程相关推荐

热门问题

热门文章