谷歌SpeechToText随机跳过部分音频?

2024-04-20 11:31:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我有荷兰语电话,我正在使用谷歌STT(long_running_recognize)来转录它们。一切正常,但许多单词无法识别。转录似乎偶尔会随机停止几秒钟。未识别的部分表示为非常长的时间戳。例如,有一个词在现实中从17秒开始需要大约0.5秒,但时间戳为11.5秒到17.5秒,因此无法识别大约5.5秒的清晰语音。在

这是我使用的配置:

CONFIG = speech.types.RecognitionConfig(
    encoding = speech.enums.RecognitionConfig.AudioEncoding.LINEAR16, # optional for WAV
    # model="phone_call", # this doesn't exist for Dutch
    sample_rate_hertz = 8000, # default value
    language_code="nl-NL", # language code
    enable_word_time_offsets=True # return hit timestamps
)

这是一个记录的信息(使用mediainfo)。在

^{pr2}$

由于隐私原因,我不能分享音频或转录,但识别的单词大部分是正确的,时间戳也是正确的。在

为什么会这样?那些没有被Google转录的部分是不能理解的吗,尤其是在这种语言模型下?我能做些什么来增加识别单词的数量吗?在


Tags: for时间code语音单词languagespeechrunning