在命令行上将图像或音频文件转换为纯文本
transcribe的Python项目详细描述
- 动词-将语言的表示形式转换为另一种 代表。
- noun-从图像中提取纯文本的命令行应用程序 以及用python编写的音频文件。
光学字符识别
从图像中提取文本:
$ transcribe ocr /path/to/image.jpg
语音
从音频文件中提取文本:
$ transcribe speech /path/to/audio.mp3
安装
谷歌云设置
Transcribe使用谷歌的云服务来执行文本提取, 这意味着你必须建立一个谷歌云项目。下面大概是 我是怎么做到的…
我去了The console
在左上角(在google cloud的右侧)选择了project platform)然后创建一个新项目,稍等它创建 项目并切换到它(这花了我20秒的时间 想弄清楚到底发生了什么事)。然后激活 视觉和语音api(我认为存储是自动激活的)和 然后选择凭据,并创建一个api密钥。More auth info here。
原来我也需要create a service json file。 为此,我需要转到the dashboard for the project 然后单击创建凭据,然后选择服务帐户 键。
然后将它添加到您的.bash_profile或类似的东西:
export GOOGLE_APPLICATION_CREDENTIALS="/path/to/keyfile.json"
ffmpeg
如果您使用的是Mac,并且使用的是自制,则可以安装ffmpeg,如:
$ brew install --with-opus ffmpeg
如果你不在Mac电脑上,或者不使用自制啤酒,你就只能靠自己了。
转录
使用pip安装:
$ pip install transcribe
或最新最棒的:
$ pip install "git+https://github.com/Jaymon/transcribe#egg=transcribe"