当前位置：首页 >

睡眠音频分割及识别问题(五)--YAMNet进一步分析

发布时间：2024/8/23 107 豆豆

生活随笔收集整理的这篇文章主要介绍了睡眠音频分割及识别问题(五)--YAMNet进一步分析小编觉得挺不错的,现在分享给大家,帮大家做个参考.

简介

YAMNet 是一个经过预训练的深度网络，可基于 AudioSet-YouTube 语料库预测 521 种音频事件类别，并采用Mobilenet_v1深度可分离卷积架构。

输入

模型训练所使用的音频特征计算方式如下：

所有音频均重采样为 16 kHz 单声道。
通过长度 25 毫秒，步长为 10 毫秒，且具有周期性 Hann 时间窗的短时距傅里叶变换计算出声谱图。
通过将声谱图映射到覆盖 125 至 7500 Hz 范围的 64 个梅尔仓计算出梅尔声谱图。
然后将这些特征分帧成具有 50% 重叠且长度为 0.96 秒的示例，每个示例覆盖 64 个梅尔频段，总共 96 帧，每帧 10 毫秒。

声谱图(spectrogram)

声音信号是一维信号，直观上只能看到时域信息，不能看到频域信息。通过傅里叶变换(FT)可以变换到频域，但是丢失了时域信息，无法看到时频关系。为了解决这个问题，产生了很多方法，短时傅里叶变换，小波等都是很常用的时频分析方法。

短时傅里叶变换(STFT)，就是对短时的信号做傅里叶变换。原理如下：对一段长语音信号，分帧、加窗，再对每一帧做傅里叶变换，之后把每一帧的结果沿另一维度堆叠，得到一张图（类似于二维信号），这张图就是声谱图。

梅尔频谱

由于得到的声谱图较大，为了得到合适大小的声音特征，通常将它通过梅尔尺度滤波器组(Mel-scale filter banks)，变为梅尔频谱。

频率的单位是HZ，人耳能听到的频率范围是20-20000HZ，但是人耳对HZ单位不是线性敏感，而是对低HZ敏感，对高HZ不敏感，将HZ频率转化为梅尔频率，则人耳对频率的感知度就变为线性。变换公式如下：

输出

将这些 96x64 的片段馈送到 Mobilenet_v1 模型，以在卷积之上针对 1024 个内核生成一个 3x2 的激活函数数组。平均之后将得到 1024 维的嵌入向量，然后通过单个逻辑层得到对应于 960 毫秒输入波形段的 521 个按类别的输出得分（由于采用窗口分帧，您至少需要 975 毫秒的输入波形才能获得第一帧输出得分）。

模型

模型采用了大量的卷积和深度可分离卷积层。

总结

以上是生活随笔为你收集整理的睡眠音频分割及识别问题(五)--YAMNet进一步分析的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。