在pytorch中为ASR加载librispeech

2条回答

网友

1楼 · 编辑于 2024-05-12 22:29:32

你的问题很宽泛：你在看音频文件的记录吗？如果是这样的话，它们在每个目录的文本文件中，每行都以文件名（不带扩展名）开头。在

你可以看这里：https://github.com/inikdom/rnn-speech/blob/master/util/dataprocessor.py

尤其是这种方法，它给出了一个音频文件列表及其对Librispeech语料库的转录：

def get_data_librispeech(self, raw_data_path):
    text_files = self.find_files(raw_data_path, ".txt")
    result = []
    for text_file in text_files:
        directory = os.path.dirname(text_file)
        with open(text_file, "r") as f:
            lines = f.read().split("\n")
            for line in lines:
                head = line.split(' ')[0]
                if len(head) < 5:
                    # Not a line with a file desc
                    break
                audio_file = directory + "/" + head + ".flac"
                if os.path.exists(audio_file):
                    result.append([audio_file, self.clean_label(line.replace(head, "")), None])
    return result

注意：每个项目的第三个值总是无，因为它应该被另一个方法中的音频长度替换。在

你不需要用相应的字符来标记音频的每一帧，CTC将通过处理完整的音频和相应的转录本来处理它。在

网友

2楼 · 编辑于 2024-05-12 22:29:32

将Pythorch神经网络与光谱图结合起来进行动态计算的最简单方法是使用nnAudio。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

在pytorch中为ASR加载librispeech

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >