如何将旋律提取算法的音高轨迹转换为哼唱音频信号

Question

作为一个在家进行有趣研究项目的一部分，我正在尝试找到一种方法，将一首歌转换成类似哼唱的音频信号（也就是我们听歌时感知到的旋律）。在进一步描述我在这个问题上的尝试之前，我想提一下，我对音频分析完全是个新手，虽然我在分析图像和视频方面有很多经验。

我在网上查了一下，发现了一些旋律提取的算法。给定一段多声道的音频信号（比如 .wav 文件），这些算法会输出一个音高轨迹——在每个时间点，它们会估计出主导音高（来自歌手的声音或某种旋律生成乐器），并跟踪这个主导音高随时间的变化。

我读了一些论文，发现这些算法似乎会对歌曲进行短时傅里叶变换，然后对频谱图进行一些分析，以获取和跟踪主导音高。旋律提取只是我想开发的系统中的一个组成部分，所以只要算法能在我的音频文件上表现得不错，并且代码是可以获取的，我都不介意使用任何可用的算法。由于我对这个领域还很陌生，我很乐意听听大家有什么建议，哪些算法效果好，以及在哪里可以找到它们的代码。

我找到两种算法：

我选择了 Melodia，因为它在不同音乐风格上的结果看起来相当不错。请查看这个链接，看看它的结果。你在每段音乐中听到的哼唱，正是我感兴趣的部分。

“我希望你们能帮我解决的问题是，如何为任意歌曲生成这种哼唱。”

这个算法（作为 vamp 插件提供）会输出一个音高轨迹——[时间戳，音高/频率]——一个 Nx2 的矩阵，第一列是时间戳（以秒为单位），第二列是对应时间戳下检测到的主导音高。下面是从算法获得的音高轨迹的可视化，紫色部分覆盖在歌曲的时域信号（上方）和它的频谱图/短时傅里叶变换上。音高/频率的负值表示算法对无声/非旋律段的主导音高估计。因此，所有大于等于 0 的音高估计对应于旋律，其余的对我来说并不重要。

音高轨迹与歌曲波形和频谱图的叠加

现在我想把这个音高轨迹转换回类似哼唱的音频信号——就像作者在他们的网站上展示的那样。

下面是我写的一个 MATLAB 函数，用来实现这个功能：

function [melSignal] = melody2audio(melody, varargin)
% melSignal = melody2audio(melody, Fs, synthtype)
% melSignal = melody2audio(melody, Fs)
% melSignal = melody2audio(melody)
%
% Convert melody/pitch-track to a time-domain signal
%
% Inputs:
%
%     melody - [time-stamp, dominant-frequency] 
%           an Nx2 matrix with time-stamp in the 
%           first column and the detected dominant 
%           frequency at corresponding time-stamp
%           in the second column. 
% 
%     synthtype - string to choose synthesis method
%      passed to synth function in synth.m
%      current choices are: 'fm', 'sine' or 'saw'
%      default='fm'
% 
%     Fs - sampling frequency in Hz 
%       default = 44.1e3
%
%   Output:
%   
%     melSignal -- time-domain representation of the 
%                  melody. When you play this, you 
%                  are supposed to hear a humming
%                  of the input melody/pitch-track
% 

    p = inputParser;
    p.addRequired('melody', @isnumeric);
    p.addParamValue('Fs', 44100, @(x) isnumeric(x) && isscalar(x));
    p.addParamValue('synthtype', 'fm', @(x) ismember(x, {'fm', 'sine', 'saw'}));
    p.addParamValue('amp', 60/127,  @(x) isnumeric(x) && isscalar(x));
    p.parse(melody, varargin{:});

    parameters = p.Results;

    % get parameter values
    Fs = parameters.Fs;
    synthtype = parameters.synthtype;
    amp = parameters.amp;

    % generate melody
    numTimePoints = size(melody,1);
    endtime = melody(end,1);
    melSignal = zeros(1, ceil(endtime*Fs));

    h = waitbar(0, 'Generating Melody Audio' );

    for i = 1:numTimePoints

        % frequency
        freq = max(0, melody(i,2));

        % duration
        if i > 1
            n1 = floor(melody(i-1,1)*Fs)+1;
            dur = melody(i,1) - melody(i-1,1);
        else
            n1 = 1;
            dur = melody(i,1);            
        end

        % synthesize/generate signal of given freq
        sig = synth(freq, dur, amp, Fs, synthtype);

        N = length(sig);

        % augment note to whole signal
        melSignal(n1:n1+N-1) = melSignal(n1:n1+N-1) + reshape(sig,1,[]);

        % update status
        waitbar(i/size(melody,1));

    end

    close(h);

end

这个代码的基本逻辑是这样的：在每个时间戳，我合成一个短暂的波形（比如正弦波），它的频率等于在该时间戳检测到的主导音高/频率，持续时间等于输入旋律矩阵中与下一个时间戳的间隔。我只是想知道这样做是否正确。

然后，我将这个函数生成的音频信号与原始歌曲一起播放（旋律在左声道，原始歌曲在右声道）。虽然生成的音频信号似乎能很好地分离出旋律生成的声音（如人声/主乐器）——在有声音的地方是活跃的，而在其他地方是零——但信号本身远不是哼唱（我得到的声音像是“嘟嘟嘟嘟嘟嘟嘟嘟”），与作者在他们网站上展示的效果相差甚远。具体来说，下面是一个可视化，显示了输入歌曲的时域信号在底部，以及我用函数生成的旋律的时域信号。

输入歌曲的时域信号与生成的旋律时域信号

一个主要问题是——虽然我在每个时间戳都知道要生成的波的频率和持续时间，但我不知道如何设置波的振幅。目前，我将振幅设置为一个固定值，我怀疑这就是问题所在。

有没有人对此有什么建议？我欢迎任何编程语言的建议（最好是 MATLAB、Python、C++），但我想我的问题更普遍——如何在每个时间戳生成波形？

我脑海中有几个想法/解决方案：

通过从原始歌曲的时域信号中获取平均值/最大值来设置振幅。
完全改变我的方法——计算歌曲音频信号的频谱图/短时傅里叶变换。强行/零掉或轻柔地去掉所有其他频率，只保留与我的音高轨迹相近的频率。然后计算逆短时傅里叶变换，以获得时域信号。

音频分析频谱图短时傅里叶变换音频信号处理音高提取旋律合成振幅调节音高跟踪

如何将旋律提取算法的音高轨迹转换为哼唱音频信号

4 个回答

撰写回答