如何在Python中的音频文件中查找单词?

2024-05-16 04:04:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个音频文件包含一个口语单词。我确信它包含了单词,我需要检测单词的开头和结尾。在

有没有关于如何使用python实现这一点的想法?在

这是我所做的。 我尝试在Python中使用一个语音识别库。在

import speech_recognition as sr
r = sr.Recognizer()
with sr.WavFile("a.wav") as source:              
    audio = r.record(source)                        

try:
    list = r.recognize_google(audio,key=None)                 
    print list
except LookupError:                                
    print("Could not understand audio")

这将转录音频,但不提供单词发生的时间戳。我知道我可以把我的音频文件分成几部分,然后通过谷歌语音识别器一直输入到我想要的部分,但这似乎是个糟糕的主意。我也在设想转录不太准确的情况,所以我确定文件中的单词可能不会被准确地转录出来。在

我也尝试过pocketsphinx,但我不确定如何让它提供一个单词在文件中的可能位置(它将测试文件转录得非常糟糕)。在

理想情况下,我会搜索一个函数:查找返回开始时间戳和结束时间戳的单词(word)的位置。在

我原以为这是一件已经做了很多次的事情,所以也许至少有人能给我指出正确的方向?在


Tags: 文件importsourceas结尾时间情况语音