Python SpeechRecognition处理短音词时遇到问题

1 投票
1 回答
30 浏览
提问于 2025-04-14 18:25

我有一个项目,正在使用语音识别模块。我发现这个识别器在处理一些短小的词语时,比如“下一个”、“搜索”、“写”等,遇到了一些问题。当我把这些词放在句子里,比如“写点东西……”,它就没有“问题”了,因为它会把输入的声音延长到一定的时间。我所说的“问题”是,当我说“下一个”这样的短词时,麦克风在处理输入之前还会等一会儿。这个问题在我的项目中很常见,因为我大多数时候只需要单独说这些词,而不是放在句子里。

为了绕过这个问题,我尝试把这些词说得更长一些,以达到那个“音频时长”。比如我把“下一个”说成“neeeeeeeext”,把“搜索”说成“seeeeeaaarch”。我不想这样,因为这样说命令听起来很傻。有没有什么建议可以解决这个问题?还是我漏掉了什么?谢谢!

附注:我使用的是一个单独的识别器/语音识别工具,而不是语音识别模块里的识别器。我主要使用语音识别模块来处理麦克风和它的一些功能。我也不使用PyAudio,因为它有延迟问题。

1 个回答

0

我不能给出这个问题的确切答案,但我建议你使用HuggingFace的模型。你可以试试,比如说这个whisper small。理论上,这个模型比较小,应该可以在你的CPU上运行,而且不会有太大的延迟。

下面是一个你需要调用它的例子:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("automatic-speech-recognition", model="openai/whisper-small")

撰写回答