欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

ASR声学特征

发布时间:2024/3/24 编程问答 73 豆豆
生活随笔 收集整理的这篇文章主要介绍了 ASR声学特征 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

声学特征类型

声学特征类型包括:Fbank (FilterBank) 特征、梅尔频率倒谱系数MFCCs (Mel-Frequency Cepstral Coefficeitns) 特征、PLP特征。目前更为常见的是使用Fbank和MFCCs特征,下表是两种特征的对比。

特征类型提取流程应用场景常见特征维度
Fbank分帧->傅立叶变换FFT->梅尔滤波组NN模型(NN-HMM/CTC/RNNT/LAS等)40/80
MFCCsFbank->离散余弦变换DCTGMM-HMM模型13

MFCCs是在Fbank的基础上做了离散余弦变化DCT (Discrete Cosine Transform),DCT的作用是去掉特征维间的相关性,由于NN模型能够对特征维间的相关性建模,所以在使用NN建模时,一般采用Fbank特征,使用传统GMM-HMM建模时常采用MFCCs特征。

Fbank特征提取

通过命令compute-fbank-feats提取Fbank特征,compute-mfcc-feats提取MFCCs特征,通过–config传入配置参数文件

compute-fbank-feats/compute-mfcc-feats --config featrue.conf

其中配置文件featrue.conf文件如下,dither默认值为1,作用是在计算滤波器系数能量时加入随机扰动,防止能量为0的情况出现,会导致同一条音频的输出特征前后不一致。如果需要保持一致,要在配置文件中设置–dither=0。

--use-energy=false --num-mel-bins=40 --num-ceps=40 --low-freq=20 --high-freq=-400 --dither=1

总结

以上是生活随笔为你收集整理的ASR声学特征的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。