欢迎访问 生活随笔!

生活随笔

当前位置: 首页 >

声道长度规整

发布时间:2023/12/2 69 豆豆
生活随笔 收集整理的这篇文章主要介绍了 声道长度规整 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

在提取语种声学特征参数时,如何消除和抑制说话人影响是一个值得考虑的 问题。首先说话人会有生理,年龄,性别等不同,这就会对声学特征产生影响, 造成说话人发音的不同的一个主要原因是声道形状,尤其是受声道长度的影响最为突出。

一般,通过在频率域上的线性变换来实现 VTLN,它是基于声道传输模型的假设分析,可认为声道是一截面均匀的声管:

                                                                                                                                                                 

VTL 代表声道长度,c 代表声速,Fi是第 i 阶的共振峰。

由上式可知,声道长度与共振峰成反比,因此可以直接频域线性变换:

                                                                                                                                                                               

这一变换与实际采用的变换函数有差别,主要是由于这一变换会造成带宽的扩展或压缩。更普遍的是采图用下世的变换。

                                                                                                                                                              

按照上述公式我们即可完成 VTLN,但是我们还需要找寻规整因子α,接下来, 我们就如何估计规整因子做一些阐述。

                                                                                                                                                              

A. 训练流程 

如下图所示,首先我们需要得到一个声道无关的背景(UBM)模型。

  • 提取语音特征参数(不同的 α 的特征),首先用 α=1.0 训练一个与声道 无关的 UBM 模型。

  • 用这个 UBM 模型,对不同 α 所提取的特征进行测试,根据 ML 最大似 然,得到每个语音所对应的最优 α 值。

  • 用 2 中所找到的每个语音的最优 α 值所对应的特征,重新训练 UBM。

  • 重复 2,这样又可以得到每个语音的最优 α 值。

  • 比较这一次的 α 值与上一次的 α 值是否相同,或者差异不大。如果满足 条件,停止迭代,否则,重复(3)和(4)过程.

  •                                                                                                       

    B. 解码过程 

    解码的过程十分简单,只需要将各个规整因子对应的特征对最终训练好的 UBM 计算似然值即可,然后值取得似然最大的特征所对应的规整因子。

                                                                                                                                                                      

    其实,在估计声道规整因子还有另一种策略,就是对于不同的规整因子分别 训练模型,然后提取 α=1.0 时的语音特征分别对这些模型进行测试,再选取最大 的特征所对应的 α。

    C. 实验 

    为了验证VTLN的有效性,我们在NIST 2007数据库上进行了尝试性的实验, 通过 NIST 2003 的数据我们得到了声道无关的 UBM 模型,利用这一模型对 NIST 2007 的测试数据进行声道规整(即估计∧α的值),训练集没有进行声道规整,主 要是考虑到实验的时间消耗问题,所采用的特征是 56 维的 SDC 特征,对不同时 长的测试分别作出对比,通过等错误率(EER)的比较(见下表),发现仅仅在 测试集上对特征进行声道规整就可以获得 10%左右的提升。

                                                                                   

    所以在我们以后的实验中,VTLN 被作为一项重要的前端处理技术,并且在 后来,我们对于训练集数据也做了声道规整,根据的一些已有的实验结论,这样可以进一步提高系统的性能。

    可以关注音频核公众号了解更多哦

                                                                                                                                                                                

    总结

    以上是生活随笔为你收集整理的声道长度规整的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。