谷歌SpeechToText随机跳过部分音频？

2024-04-20 11:31:31 发布

男 | 程序猿一只，喜欢编程写python代码。

我有荷兰语电话，我正在使用谷歌STT（long_running_recognize）来转录它们。一切正常，但许多单词无法识别。转录似乎偶尔会随机停止几秒钟。未识别的部分表示为非常长的时间戳。例如，有一个词在现实中从17秒开始需要大约0.5秒，但时间戳为11.5秒到17.5秒，因此无法识别大约5.5秒的清晰语音。在

这是我使用的配置：

CONFIG = speech.types.RecognitionConfig(
    encoding = speech.enums.RecognitionConfig.AudioEncoding.LINEAR16, # optional for WAV
    # model="phone_call", # this doesn't exist for Dutch
    sample_rate_hertz = 8000, # default value
    language_code="nl-NL", # language code
    enable_word_time_offsets=True # return hit timestamps
)

这是一个记录的信息（使用mediainfo）。在

^{pr2}$

由于隐私原因，我不能分享音频或转录，但识别的单词大部分是正确的，时间戳也是正确的。在

为什么会这样？那些没有被Google转录的部分是不能理解的吗，尤其是在这种语言模型下？我能做些什么来增加识别单词的数量吗？在

Tags： for 时间 code 语音单词 language speech running

0条回答

目前没有回答

谷歌SpeechToText随机跳过部分音频？

相关问题更多 >

编程相关推荐

热门问题

热门文章

谷歌SpeechToText随机跳过部分音频？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >