用于谷歌语音API的MP3到FLAC

import speech_recognition as sr import subprocess import requests audio = requests.get('http://somesite.com/some.mp3') with open('/tmp/audio.mp3', 'wb') as file: file.write(audio.content) subprocess.run(['sox', '/tmp/audio.mp3', '/tmp/audio.wav']) r = sr.Recognizer() with sr.WavFile('/tmp/audio.wav') as source: audio = r.record(source) result = r.recognize_google(audio) del r

1条回答

网友

1楼 · 发布于 2024-06-02 07:50:31

我决定这么做：

import subprocess
import requests
import shutil
import glob
import json

audio = requests.get('http://somesite.com/some.mp3')
sox = shutil.which('sox') or glob.glob('C:\Program Files*\sox*\sox.exe')[0]
p = subprocess.Popen(sox + ' -t mp3 - -t flac - rate 16k', stdin = subprocess.PIPE, stdout = subprocess.PIPE, shell = True)
stdout, stderr = p.communicate(audio.content)
url = 'http://www.google.com/speech-api/v2/recognize?client=chromium&lang=en-US&key=AIzaSyBOti4mM-6x9WDnZIjIeyEU21OpBXqWBgw'
headers = {'Content-Type': 'audio/x-flac; rate=16000'}
response = requests.post(url, data = stdout, headers = headers).text

result = None
for line in response.split('\n'):
    try:
        result = json.loads(line)['result'][0]['alternative'][0]['transcript']
        break
    except:
        pass

这更像是一个中间地带，我想从SR模块中借用一些东西。它需要用户安装SoX，但是应该在所有操作系统上工作，并且没有任何中间文件。不过，我只在Linux上测试过它。在

相关问题更多 >

编程相关推荐

热门问题

热门文章