云语音API流模式识别1分钟以上

2024-06-16 11:35:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我尝试使用云语音API进行1分钟以上的实时语音识别,但同步语音识别的限制是每个请求只有1分钟。我试过运行https://github.com/GoogleCloudPlatform/python-docs-samples/blob/speech-continuous/speech/cloud-client/transcribe_streaming_indefinite.py 正如这个问题的答案Multiple StreamingRecognizeRequest所建议的,但是我得到了这个错误:

File "transcribe_streaming_indefinite.py", line 30, in __init__ 
self._bytes_per_sample = 2 * self._num_channels AttributeError: 
'ResumableMicrophoneStream' object has no attribute '_num_channels''

有人知道怎么做吗?提前谢谢你。在


Tags: pyhttpsselfgithubcomapidocs语音
1条回答
网友
1楼 · 发布于 2024-06-16 11:35:00

注意:您正在运行的代码属于一个不是主节点的Github分支,因此它可能不会被更新。在


three Speech-to-Text main methods执行语音识别:

同步识别:将音频数据发送到语音到文本API,对该数据执行识别,并在所有音频处理完毕后返回结果。请求仅限于持续时间不超过1分钟的音频数据。在

异步识别:将音频数据发送到语音到文本API并启动长时间运行的操作。对任何持续时间长达180分钟的音频数据使用异步请求。在

流式识别:对gRPC双向流中提供的音频数据执行识别。流式请求是为实时识别目的而设计的,例如从麦克风捕捉实时音频。流式识别在捕获音频时提供中间结果,允许结果显示,例如,当用户仍在讲话时。在

如果你想做实时语音识别,你最好的选择就是流式识别。这里有一个demo file你可以试试。在

如果要测试其他两个方法,则有other demos in the repository for them。在

关于音频files with more than 1 minute in duration。同步识别只能处理短于一分钟的音频文件。异步识别可以处理长达180分钟的音频文件,但您必须从地面军事系统提供这些文件。对于流式识别,如果要处理持续时间超过一分钟的音频文件,则需要分批执行。在

Google提供了一些用于测试的音频样本,它们存储在cloudsamples测试桶中。可以使用以下命令显示它们的列表:

gsutil ls gs://cloud-samples-tests/speech

相关问题 更多 >