Python SpeechRecognition处理短音词时遇到问题

1 投票

1 回答

30 浏览

提问于 2025-04-14 18:25

我有一个项目，正在使用语音识别模块。我发现这个识别器在处理一些短小的词语时，比如“下一个”、“搜索”、“写”等，遇到了一些问题。当我把这些词放在句子里，比如“写点东西……”，它就没有“问题”了，因为它会把输入的声音延长到一定的时间。我所说的“问题”是，当我说“下一个”这样的短词时，麦克风在处理输入之前还会等一会儿。这个问题在我的项目中很常见，因为我大多数时候只需要单独说这些词，而不是放在句子里。

为了绕过这个问题，我尝试把这些词说得更长一些，以达到那个“音频时长”。比如我把“下一个”说成“neeeeeeeext”，把“搜索”说成“seeeeeaaarch”。我不想这样，因为这样说命令听起来很傻。有没有什么建议可以解决这个问题？还是我漏掉了什么？谢谢！

附注：我使用的是一个单独的识别器/语音识别工具，而不是语音识别模块里的识别器。我主要使用语音识别模块来处理麦克风和它的一些功能。我也不使用PyAudio，因为它有延迟问题。

语音处理语音识别短音词麦克风输入识别器音频时长延迟问题语音命令

1 个回答

我不能给出这个问题的确切答案，但我建议你使用HuggingFace的模型。你可以试试，比如说这个whisper small。理论上，这个模型比较小，应该可以在你的CPU上运行，而且不会有太大的延迟。

下面是一个你需要调用它的例子：

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("automatic-speech-recognition", model="openai/whisper-small")

回答于 2025-04-14 由 Python大师

分享举报

Python SpeechRecognition处理短音词时遇到问题

1 个回答

撰写回答