如何将任何声音信号转换为列表音素?
即从数字信号到录音所用音素列表的实际方法和/或代码。
例如:
lPhonemes = audio_to_phonemes(aSignal)
例如
from scipy.io.wavfile import read
iSampleRate, aSignal = read(sRecordingDir)
aSignal = #numpy array for the recorded word 'hear'
lPhonemes = ['HH', 'IY1', 'R']
我需要函数audio_to_phonemes
不是所有的声音都是语言文字,所以我不能只使用something that uses the google API例如。
编辑
我不想把声音变成文字,我想把声音变成音素。大多数库似乎都没有输出。您推荐的任何库都需要能够输出由声音组成的音素的有序列表。它需要用python编写。
我也想知道音素转换过程是如何工作的。如果不是为了实现的目的,那么为了利益。
准确的音素识别不容易存档,因为音素本身的定义相当松散。即使在好的音频中,现在最好的系统也有18%的音素错误率(你可以在Alex Graves发布的TIMIT上查看LSTM-RNN结果)。
在cmusphenx中,Python中的音素识别是这样完成的:
为了运行这个示例,您需要从github签出最新的pocketsphinx。结果应该是这样的:
另请参见wiki page
你基本上是说:
你不应该自己实现这一点(除非你即将成为语音识别领域的教授并有一个革命性的新方法),而是应该使用现有的许多框架之一。看看狮身人面像/口袋狮身人面像!
相关问题 更多 >
编程相关推荐