我有一个音频文件包含一个口语单词。我确信它包含了单词,我需要检测单词的开头和结尾。在
有没有关于如何使用python实现这一点的想法?在
这是我所做的。 我尝试在Python中使用一个语音识别库。在
import speech_recognition as sr
r = sr.Recognizer()
with sr.WavFile("a.wav") as source:
audio = r.record(source)
try:
list = r.recognize_google(audio,key=None)
print list
except LookupError:
print("Could not understand audio")
这将转录音频,但不提供单词发生的时间戳。我知道我可以把我的音频文件分成几部分,然后通过谷歌语音识别器一直输入到我想要的部分,但这似乎是个糟糕的主意。我也在设想转录不太准确的情况,所以我确定文件中的单词可能不会被准确地转录出来。在
我也尝试过pocketsphinx,但我不确定如何让它提供一个单词在文件中的可能位置(它将测试文件转录得非常糟糕)。在
理想情况下,我会搜索一个函数:查找返回开始时间戳和结束时间戳的单词(word)的位置。在
我原以为这是一件已经做了很多次的事情,所以也许至少有人能给我指出正确的方向?在
目前没有回答
相关问题 更多 >
编程相关推荐