CV学习笔记-Alexnet

Moresweet猫甜

分类：机器学习

发布时间 2023.07.19阅读数 1122 评论数 0

Alexnet

1. 背景

AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。也是在那年之后，更多的更深的神经网络被提出。

2. 网络结构

原网络结构：

这个原述解释的是上面一半与下面一半分别跑在不同的GPU上，所以将原生网络简化成下面结构，来具体看看中间的过程如何计算。

详解：

输入接收一个三通道的二维 $224\times224$ 矩阵，故而原始输入图片输入网络应当先进行处理，resize到(224,224,3)。
使用步长为 $\times 4$ ，大小为 $11\times11$ 的卷积核对图像进行卷积，输出的特征(feature map)为96层（也即输出有96个通道）

详细计算方式在笔者的前一篇文章已有介绍，此处作推演。

输出的通道数与卷积核的个数（3通道，卷积核的通道数与原输入通道数应为一致）一致，所以输出通道数经过卷积操作是可以人为定义的。这里使用了96个11 $\times$ 11卷积核进行了卷积，输出为55 $\times$ 55 $\times$ 96，55怎么算来的呢，使用了公式N=(W-F+2P)/S + 1，W为输入大小，F为卷积核大小，P为填充值大小，S为步长大小，代入公式可得，N=(224-55+2 $\times$ 0)/4 +1=54，很多层都进行了LRN操作，可参考《深度学习饱受争议的局部响应归一化(LRN)详解》，笔者在这里就不作介绍了
然后进入池化操作，池化操作不改变输出通道数，池化的pool_size为3 $\times$ 3，故而输出大小为(55-3)/2+1=27，故最终输出为 $27\times 27\times 96$
然后经过same方式padding后，用5 $\times$ 5的卷积核进行了卷积操作，输出通道为256，same方式下经过计算输出为 $\lceil \frac{27}{1} \rceil = 27$ ，输出大小不变，故最终输出为 $27 \times 27 \times 256$

一般深度学习框架中的padding填充方式有两种，same和vaild，same方式下，尽量保持输出与输入大小一致（不含通道数），是根据上述计算公式进行反推P值，以决定外围加几圈0，则输出大小为 $=\lceil \frac{W}{S} \rceil$

valid方式时指定P=0，则输出大小为 $\lceil \frac{W-F+1}{S}\rceil$

对比：valid方式表示只进行有效的卷积，对边界数据不处理；same代表保留边界处的卷积结果，通常会导致输出shape与输入shape相同
然后使用3 $\times$ 3的窗口，以步长为2 $\times$ 2的窗口进行最大池化操作，池化不改变通道数，输出为(27-3+0)/2 + 1 = 13，故输出大小为 $13 \times 13 \times 256$
然后再经过same方式加padding，输出为 $\lceil \frac{13}{1} \rceil = 13$ 输出通道指定为384，也即用了384个 $\times 3$ 的卷积核（卷积核个数等于输出通道数），最终输出为 $13 \times 13 \times 384$
然后保持384的输出通道不变，加一圈padding（即P=1），用3 $\times$ 3的卷积核进行卷积，输出为(13-3+2)/1 + 1 = 13，故最终输出为 $13 \times 13 \times 384$
然后设置输出通道为256，加一圈padding（即P=1），用3 $\times$ 3的卷积核进行卷积，输出为(13-3+2)/1 + 1 = 13，故最终输出为 $13 \times 13 \times 256$
然后使用3 $\times$ 3的窗口大小、2 $\times$ 2的步长进行最大池化操作，池化不改变通道数，通道数仍为256，输出为(13-3+0)/2 + 1 = 6，故最终输出为 $\times 6 \times 256$
由于FC（全连接层）只接收一维向量，故需要将 $\times 6 \times 256$ 转换成 $\times 1 \times 9216$ 的向量，输入为9216个参数，这个过程形象的成为拍扁的过程，原理是用与原featuremap大小相同的卷积核进行卷积，个数即输出通道数，然后经过三层FC，再通过softmax分类器进行分类，softmax的输出个数即你要分的类别数，FC层中的过程相当于用1 $\times$ 1的卷积核进行卷积的过程。

个人学习笔记，仅交流学习，转载请注明出处！

人工智能神经网络 AlexNet 学习笔记

打赏 0

上一篇：CV学习笔记-BP神经网络代码Python实例

下一篇：CV学习笔记-卷积神经网络

CV学习笔记-Alexnet

Moresweet猫甜

Alexnet

1. 背景

2. 网络结构

为你推荐

支持向量机原理(四)SMO算法原理

行人重识别(8)——代码实践之数据管理器（dataset_manager.py）

微调Hugging Face中图像分类模型

精选手把手搭建经典神经网络系列（1）——AlexNet

强化学习基础 Ⅵ: DQN 原理与实战

[基于Pytorch的MNIST识别02]用户数据集的读取

关于作者

Moresweet猫甜

33

0

100

2

精选CV学习笔记-MobileNet

CV学习笔记-浅述CV方向

精选CV学习笔记-BP神经网络代码Python实例

相关推荐

精选经典文献阅读之--TwinLiteNet(可行驶区域和车道分割的高效轻量级模型)

AD1. 自动驾驶的简介和历史

步态识别之GaitSet

机械臂论文笔记（二）【实时抓取点检测】Real-Time Grasp Detection Using Convolutional Neural Networks

基于Pytorch查看本地或者远程服务器GPU及使用方法

卷积神经网络（AlexNet）识别Fashion-MNIST数据集（Pytorch版）

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

CV学习笔记-Alexnet

Moresweet猫甜

Alexnet

1. 背景

2. 网络结构

为你推荐

支持向量机原理(四)SMO算法原理

行人重识别(8)——代码实践之数据管理器（dataset_manager.py）

微调Hugging Face中图像分类模型

精选手把手搭建经典神经网络系列（1）——AlexNet

强化学习基础 Ⅵ: DQN 原理与实战

[基于Pytorch的MNIST识别02]用户数据集的读取

评论（0）

关于作者

Moresweet猫甜

33

0

100

2

精选CV学习笔记-MobileNet

CV学习笔记-浅述CV方向

精选CV学习笔记-BP神经网络代码Python实例

相关推荐

精选经典文献阅读之--TwinLiteNet(可行驶区域和车道分割的高效轻量级模型)

AD1. 自动驾驶的简介和历史

步态识别之GaitSet

机械臂论文笔记（二）【实时抓取点检测】Real-Time Grasp Detection Using Convolutional Neural Networks

基于Pytorch查看本地或者远程服务器GPU及使用方法

卷积神经网络（AlexNet）识别Fashion-MNIST数据集（Pytorch版）

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板