当前位置：首页 >

论文笔记：MobileNet v2

发布时间：2025/3/21 33 豆豆

生活随笔收集整理的这篇文章主要介绍了论文笔记：MobileNet v2 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

原论文：MobileNetV2: Inverted Residuals and Linear Bottlenecks

MobileNet v2

要解决什么问题？

用了什么方法解决？

效果如何？

作者在论文中给出了一系列任务下的实验结果：ImageNet图像分类、目标检测、语义分割等，MobileNet v2均取得了比MobileNet v1更好的效果。
就目标检测来说，由MobileNet v2扩展构建的网络，其性能相比于其他架构如：Faster-RCNN、RFCN等还是逊色不少，但是考虑到模型的实时性和计算量，MobileNet v2在各项任务的表现相比于同一量级的模型是state-of-the-art的。

还存在什么问题？

社区对其的评价普遍都挺高，但也有一些人说自己复现（基于TensorFlow的）无法达到论文中的精度。网上也有挺多开源的复现代码（基于Pytorch），用的时候还是自己复现一下再下定论吧。

基本思想就是：讲一个普通的卷积操作拆分成两个卷积操作。第一层为depthwise卷积，分别对每个输入通道进行卷积；第二层是pointwise卷积，实质就是 $\times 1$ 卷积，主要是用来将前面depthwise输出的特征组合起来构建新的特征。

文中，经过激活层后的张量被称为manifold of interest（看到网上将其翻译为兴趣流形，总觉得有点不到位，所以后面都直接用英文代替）。
在manifold of interest（经过ReLU后的张量）非0的情况下，ReLU只是一个线性变换。
ReLU只有在input manifold处于输入空间的子空间的情况下，才能保留input manifold的全部信息。
- 换句话说，只要使用了ReLU，就不可避免地要损失该通道内的一部分信息。
- 文中还给了一个示例，将input先映射到高维空间然后接一个ReLU后再还原回原来的维度。
- 示意图如下，可以看出映射的维度越高，还原的效果越好，保留的原始信息越多。

普通的residual block与inverted residual block之间的对比：
- 每个长方体的厚度象征着通道数。
- a为传统的residual block。结构为： $\times 1$ 卷积（降维）+ReLU–> $\times 3$ 卷积+ReLU–> $\times 1$ 卷积（升维）+ReLU。
- b为反转的residual block(inverted residual block)。结构为： $\times 1$ 卷积（升维）+ReLU–> $\times 3$ depthwise separable卷积+ReLU–> $\times 1$ 卷积（降维）（注意，这里是不带ReLU的，即前面提到的linear bottleneck）。

以上是生活随笔为你收集整理的论文笔记：MobileNet v2的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。