如何理解空洞卷积?

教育网编2023-03-11 19:522590

CNN网络中在对图像进行下采样时,常常使用pooling操作,包括average pooling和max pooling。

其作用在仿照人的视觉系统进行降维,同时扩大了感受野(perceptual field)。对卷积层提取的特征进行降采样,从而能够获取到更高级的特征。此外pooling层也可以保证特征位置和旋转不变形。最后引入pooling还能起到降少网络参数,防止过拟合的问题。

如何理解空洞卷积?

但是采用pooling也有其缺点,在降采样的同时也会丢失一部分特征信息,损失了原始图像中的信息。

空洞卷积(diluted convolution)就是为解决pooling层的缺点而提出的。它首先是针对图像语义分割而产生的一种卷积方法。不同于一般的卷积,空洞卷积的卷积核更加“蓬松”,也就是在卷积核中加入空洞,以此来扩大感受野。引入了一个新的参数空洞率(dilation rate),即卷积核的间隔数目,正常卷积核的空洞率等于1。

如下图就是一个空洞率为2的3*3空洞卷积。我们可以发现,空洞卷积不仅扩大了感受野降低了维度,同时没有增加计算量。

如何理解空洞卷积?

但是由于引入了一个超参数,就需要权衡每次卷积时的参数,如果空洞率过大,那么就很有可能捕捉不到图像中小物体的信息,因此再使用时需要设置好合适的空洞率。此外,如果叠加多个空洞率为2的3*3卷积核,那么就会出现网格效应(the gridding effect),丢失了大量信息。因此在设计空洞卷积时,需要考虑不同层设置不同的空洞率,这样就能够让卷积操作尽可能的获得到最多的信息。

如何理解空洞卷积?

评论区