声道长度规整
在提取语种声学特征参数时,如何消除和抑制说话人影响是一个值得考虑的 问题。首先说话人会有生理,年龄,性别等不同,这就会对声学特征产生影响, 造成说话人发音的不同的一个主要原因是声道形状,尤其是受声道长度的影响最为突出。
一般,通过在频率域上的线性变换来实现 VTLN,它是基于声道传输模型的假设分析,可认为声道是一截面均匀的声管:
VTL 代表声道长度,c 代表声速,Fi是第 i 阶的共振峰。
由上式可知,声道长度与共振峰成反比,因此可以直接频域线性变换:
这一变换与实际采用的变换函数有差别,主要是由于这一变换会造成带宽的扩展或压缩。更普遍的是采图用下世的变换。
按照上述公式我们即可完成 VTLN,但是我们还需要找寻规整因子α,接下来, 我们就如何估计规整因子做一些阐述。
A. 训练流程
如下图所示,首先我们需要得到一个声道无关的背景(UBM)模型。
提取语音特征参数(不同的 α 的特征),首先用 α=1.0 训练一个与声道 无关的 UBM 模型。
用这个 UBM 模型,对不同 α 所提取的特征进行测试,根据 ML 最大似 然,得到每个语音所对应的最优 α 值。
用 2 中所找到的每个语音的最优 α 值所对应的特征,重新训练 UBM。
重复 2,这样又可以得到每个语音的最优 α 值。
比较这一次的 α 值与上一次的 α 值是否相同,或者差异不大。如果满足 条件,停止迭代,否则,重复(3)和(4)过程.
B. 解码过程
解码的过程十分简单,只需要将各个规整因子对应的特征对最终训练好的 UBM 计算似然值即可,然后值取得似然最大的特征所对应的规整因子。
其实,在估计声道规整因子还有另一种策略,就是对于不同的规整因子分别 训练模型,然后提取 α=1.0 时的语音特征分别对这些模型进行测试,再选取最大 的特征所对应的 α。
C. 实验
为了验证VTLN的有效性,我们在NIST 2007数据库上进行了尝试性的实验, 通过 NIST 2003 的数据我们得到了声道无关的 UBM 模型,利用这一模型对 NIST 2007 的测试数据进行声道规整(即估计∧α的值),训练集没有进行声道规整,主 要是考虑到实验的时间消耗问题,所采用的特征是 56 维的 SDC 特征,对不同时 长的测试分别作出对比,通过等错误率(EER)的比较(见下表),发现仅仅在 测试集上对特征进行声道规整就可以获得 10%左右的提升。
所以在我们以后的实验中,VTLN 被作为一项重要的前端处理技术,并且在 后来,我们对于训练集数据也做了声道规整,根据的一些已有的实验结论,这样可以进一步提高系统的性能。
可以关注音频核公众号了解更多哦
总结
- 上一篇: 电容麦克风测试软件,章和电气AudioE
- 下一篇: 音频的测试