当前位置：首页 >

声道长度规整

发布时间：2023/12/2 69 豆豆

生活随笔收集整理的这篇文章主要介绍了声道长度规整小编觉得挺不错的,现在分享给大家,帮大家做个参考.

在提取语种声学特征参数时，如何消除和抑制说话人影响是一个值得考虑的问题。首先说话人会有生理，年龄，性别等不同，这就会对声学特征产生影响，造成说话人发音的不同的一个主要原因是声道形状，尤其是受声道长度的影响最为突出。

一般，通过在频率域上的线性变换来实现 VTLN，它是基于声道传输模型的假设分析，可认为声道是一截面均匀的声管：

VTL 代表声道长度，c 代表声速，Fi是第 i 阶的共振峰。

由上式可知，声道长度与共振峰成反比，因此可以直接频域线性变换：

这一变换与实际采用的变换函数有差别，主要是由于这一变换会造成带宽的扩展或压缩。更普遍的是采图用下世的变换。

按照上述公式我们即可完成 VTLN，但是我们还需要找寻规整因子α,接下来，我们就如何估计规整因子做一些阐述。

A. 训练流程

如下图所示，首先我们需要得到一个声道无关的背景（UBM）模型。

提取语音特征参数（不同的 α 的特征），首先用 α=1.0 训练一个与声道无关的 UBM 模型。

用这个 UBM 模型，对不同 α 所提取的特征进行测试，根据 ML 最大似然，得到每个语音所对应的最优 α 值。

用 2 中所找到的每个语音的最优 α 值所对应的特征，重新训练 UBM。

重复 2，这样又可以得到每个语音的最优 α 值。

比较这一次的 α 值与上一次的 α 值是否相同，或者差异不大。如果满足条件，停止迭代，否则，重复（3）和（4）过程.

B. 解码过程

解码的过程十分简单，只需要将各个规整因子对应的特征对最终训练好的 UBM 计算似然值即可，然后值取得似然最大的特征所对应的规整因子。

其实，在估计声道规整因子还有另一种策略，就是对于不同的规整因子分别训练模型，然后提取 α=1.0 时的语音特征分别对这些模型进行测试，再选取最大的特征所对应的 α。

C. 实验

为了验证VTLN的有效性，我们在NIST 2007数据库上进行了尝试性的实验，通过 NIST 2003 的数据我们得到了声道无关的 UBM 模型，利用这一模型对 NIST 2007 的测试数据进行声道规整（即估计∧α的值），训练集没有进行声道规整，主要是考虑到实验的时间消耗问题，所采用的特征是 56 维的 SDC 特征，对不同时长的测试分别作出对比，通过等错误率（EER）的比较（见下表），发现仅仅在测试集上对特征进行声道规整就可以获得 10%左右的提升。

所以在我们以后的实验中，VTLN 被作为一项重要的前端处理技术，并且在后来，我们对于训练集数据也做了声道规整，根据的一些已有的实验结论，这样可以进一步提高系统的性能。

可以关注音频核公众号了解更多哦

总结

以上是生活随笔为你收集整理的声道长度规整的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇：电容麦克风测试软件,章和电气AudioE
下一篇：音频的测试