timit数据库的方便python包装器。
timit-utils的Python项目详细描述
胆小
简而言之,timit数据库包含对所说句子的录音。 一群人。它还包括单词和音素转录,以及 它们在音频文件中的确切位置,如范围。
因此,它是ml的一个有趣的目标:我们可以获得高质量的音频记录,以及实时的音素和单词转录(或者猜测它们)。
实际的timit数据库不包括在内,也不是免费的。到这里来: https://catalog.ldc.upenn.edu/LDC93S1。这个库只是添加 方便、解析、采样、绘图等。
胆小的实用程序
这里的代码可以惰性地加载、解析和公开timit数据库 口头录音,文字和音素记录。timit文件系统的布局如下:
这个库用几个类来模拟数据:
- 语料库(如'../timit',包含两个子类:训练和测试)
- 亚形态(例如“train”“test”,包含多个区域)
- 区域(如“DR1”,包含多个人)
- 人(例如“姓名:cjf0,女性”)
- 句子(如“sa1”,包含音频、单词和音素转录,作为numpy数组)
所有这些都提供了许多方法来索引、迭代、解析、搜索数据,并将数据公开为pandas数据帧。
- 各种音频采样、填充例程、mel filterbank频率提取和快速显示系统
安装
pip install timit_utils
胆小的实用程序需要numpy、pandas、matplotlib、scipy、python语言特性和soundfile。
示例用法(即在jupyter中)
%matplotlib inline import timit_utils as tu import timit_utils.audio_utils as au import timit_utils.drawing_utils as du corpus = tu.Corpus('../TIMIT') sentence = corpus.train.sentences_by_phone_df('aa').sentence[0] du.DrawVerticalPanels([du.AudioPanel(sentence.raw_audio, show_x_axis=True), du.WordsPanel(sentence.words_df, sentence.raw_audio.shape[0], show_x_axis=True), du.PhonesPanel(sentence.phones_df, sentence.raw_audio.shape[0]) ])
此处完全使用: https://github.com/colinator/timit_utils/blob/master/timit_utils_demonst.ipynb