我有荷兰语电话,我正在使用谷歌STT(long_running_recognize)来转录它们。一切正常,但许多单词无法识别。转录似乎偶尔会随机停止几秒钟。未识别的部分表示为非常长的时间戳。例如,有一个词在现实中从17秒开始需要大约0.5秒,但时间戳为11.5秒到17.5秒,因此无法识别大约5.5秒的清晰语音。在
这是我使用的配置:
CONFIG = speech.types.RecognitionConfig(
encoding = speech.enums.RecognitionConfig.AudioEncoding.LINEAR16, # optional for WAV
# model="phone_call", # this doesn't exist for Dutch
sample_rate_hertz = 8000, # default value
language_code="nl-NL", # language code
enable_word_time_offsets=True # return hit timestamps
)
这是一个记录的信息(使用mediainfo
)。在
由于隐私原因,我不能分享音频或转录,但识别的单词大部分是正确的,时间戳也是正确的。在
为什么会这样?那些没有被Google转录的部分是不能理解的吗,尤其是在这种语言模型下?我能做些什么来增加识别单词的数量吗?在
目前没有回答
相关问题 更多 >
编程相关推荐