演讲
deep_throat的Python项目详细描述
深喉
学分
- 利亚姆·摩尔的名字
简介
deep throw是一个可以合成语音的python程序。简单的 不受限制的文本到语音翻译方法使用 字母到发音规则,每个规则指定一个或 在某些情况下还有更多的信件。深喉的特征是 将英语文本翻译成音素的字母到发音规则 准确的发音。深喉能发出声音 根据 生成音素翻译。它能把这些声音输出到计算机上 使用Portaudio的声音硬件,它可以将它们保存到声音文件中。
deep throw可以接受文本作为命令行选项参数,从 管道和它可以设置为交互模式。
深喉可以设置为以各种方式读取日期和时间,例如 在一个循环中。它能把文字翻译成音素 指定的音素转换成声音,它可以将数字转换成英语 文本。它可以进行视觉和声音分析。
设置
sudo apt-get -y install libasound-dev sudo apt-get -y install portaudio sudo apt-get install python-pyaudio sudo apt-get install python3-pyaudio sudo pip install deep_throat sudo python -m nltk.downloader all
音素
有36个音素的数据定义在深喉中:
phonemes |
---|
space |
A |
B |
D |
F |
G |
H |
J |
K |
L |
M |
N |
P |
R |
S |
T |
U |
V |
W |
Y |
Z |
AE |
AH |
AW |
CH |
EE |
EH |
IH |
OH |
OO |
SH |
TZ |
TH |
UH |
WH |
ZH |
字母到发音规则
深喉字母发音规则是以字符串的形式定义的 便于人类阅读和书写。规则的格式为A/B/C/D: 与左上下文A和右上下文一起出现的字符串 C获取发音D。一些简单的示例规则如下 如下:
ARE/ / /AH-R FIRST/ //F-U-R-S-T COMPUTER/ //K-AH-M-P-Y-OO-T-OH-R SHITFACED/ //S-H-IH-T-F-A-S-D"
用法示例
command | comment |
---|---|
^{tt5}$ | help with options and arguments |
^{tt6}$ | speak specified text |
^{tt7}$ | speak time in a loop |
^{tt8}$ | speak input text file |
^{tt9}$ | save text to WAVE file |
^{tt10}$ | speak pipe text |
^{tt11}$ | engage interactive mode |
^{tt12}$ | engage visual analysis mode |
^{tt13}$ | engage sound analysis mode |
视觉和声音分析
可视化分析模式保存所有音素的直方图,保存 不同解析度和存储音素的多图比较 音素数据的图形比较与快速傅立叶变换 合成音位数据。声音分析模式最能说明问题 频繁的棕色语料库单词。
未来
正在考虑改进规则解释、音素 更高分辨率的数据、效率的提高和系统检查 (例如Portaudio支票)。
参考文献
- H.S.Elovitz,R.W.Johnson,A.McHugh和J.E.Shore,自动 从字母到语音的英译 规则,海军研究实验室报告7948(1976年1月21日)
- H.S.Elovitz,R.Johnson,A.McHugh和J.Shore,语音信箱 英语文本语音自动翻译规则 声学,语音,信号处理,音量。 ASSP-24,6号(1976年12月)