橙色云资讯 - 工业互联网行业信息门户

经典论文系列 | Group Normalization & BN的缺陷

CV技术指南 2021-06-25

norm bn background

1300 字丨阅读本文需 6 分钟

前言：

本文是何凯明在18年发表的论文，论文提出了BN中存在的问题，即模型性能受到Batch Size的影响，当batch size比较小时，模型性能退化严重，且BN的存在使得在受到内存限制的应用很难使用预训练。

本文基于这些问题提出了Group Normalization，GN很好地避免了这些问题，模型性能不会受到BatchSize的影响。

此外，在论文中作者将两者与其它一些归一化方法（如Layer Normalization、Instance Normalization）进行了介绍与实验对比。

论文：Group Normalization

更多内容请关注公众号CV技术指南,专注于计算机视觉的技术总结,最新技术跟踪。

Batch Normalization（BN）是深度学习发展中的一个里程碑式技术，它使各种网络都可以进行训练。然而，沿batch维度进行归一化会带来问题：由于批次统计信息估算不准确，当batch size变小时，BN的误差会迅速增加。这限制了BN用于训练更大的模型以及将特征转移到计算机视觉任务（包括检测，分割和视频）的应用，这些任务需要小批量，并且受内存消耗的限制。

在本文中，我们提出了Group Normalization（GN）作为BN的一种简单替代方案。

GN将通道分为几组，并在每组内计算均值和方差以进行归一化。GN的计算不受批次大小的影响，并且其精度在各种批次大小中都是稳定的。在使用ImageNet训练的ResNet-50上，当使用2的批次大小时，GN的错误比其BN低10.6％；

当使用常用的batch size时，GN与BN性能接近，并且胜过其他归一化方法。而且，GN可以自然地从预训练过渡到fine-tuning。 GN在COCO中的目标检测和分割以及Kinetics中的视频分类方面，可以胜过其基于BN的同类模型，这表明GN可以在各种任务中有效替代功能强大的BN。

只需几行代码即可轻松实现GN。

为方便基础薄弱的读者理解，先简单回顾一下Batch Normalization。

在公众号模型解读系列里《Inception系列之Inception_v2》（点击进入）中有对Batch Normalization进行完整解读。

BN算法如上图所示，BN算法计算同一个batch中数据的均值和方差，再进行归一化，最后进行尺度缩放和偏移。注：BN只计算一个batch中同一个通道上的数据，每个通道都会计算一次的均值和方差，这也就是为什么代码中（如nn.BatchNorm2d）中需要输入通道数。

可以看到上面这个算法是依赖于m（也就是batchsize）的，且ɣ和β都是在训练中学习的参数，这两个因素也是导致BN存在问题的关键所在。

回到本文，如下图所示，当batch size变小时，ImageNet 分类错误率急剧增加。这是因为小batch size下均值和方差代表的样本数量少，相比于大batch，随机性更大。尺度缩放和偏移的估计也没那么准确。在一些需要大分辨率的计算机视觉任务上（如目标检测，语义分割）由于内存限制而只能使用小batchsize，这也导致了预训练模型在ImageNet这种小分辨率图像上的预训练后得出的尺度缩放系数和偏移系数不够准确。

作者将几种归一化方法用如下示意图进行了对比，这个图很好地体现了这几种方法的区别。这里为了表示方便，把HxW reshape成了H*W。

可以看到，Batch Norm是将一个batch下同一通道下进行归一化；Layer Norm是在同一个样本下所有通道进行归一化；Instance Norm是每个样本的每个通道进行归一化；Group Norm是将一个样本下的通道分成G组，对每组进行归一化。

Layer Norm和Instance Norm可以当成是Group Norm的两种特殊情况，即G取C通道大小时，Group Norm就变成了Instance Norm，G取1时，就变成了Layer Norm。

从图中可以看出，除了Batch Norm，后面三个都与Batch Size无关，因此这三种归一化都不会受到Batch Size的影响。

结合前面对Batch Norm算法的简要回顾，介绍到这里，Group Norm其实就已经很清楚了，因为它使用的归一化公式也是Batch Norm的公式，只是在计算均值和方差所用到的数据的范围不一样。其实这三种方法的区别也都是这个。

如下所示是GroupNorm用tensorflow实现的代码：

如上图所示，在训练阶段，GN的错误率略低于BN，而在验证阶段，BN的错误率略低于GN，但都明显优于LN和IN。

如上图和下表所示，当使用不同的batch Size，BN的性能明显退化，而GN的模型始终都一致。

对所有归一化方法做了一个技术总结，放在CV技术总结系列，在公众号中可看待该文章。

本文来源于公众号《CV技术指南》的论文分享系列，更多内容请关注公众号 CV技术指南。

最近把公众号(CV技术指南)所有的技术总结打包成了一个pdf，在公众号中回复关键字“技术总结”可获取。

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：CV技术指南

0 0

参与评论

登录后参与讨论 0/1000

下一篇使用 TensorFlow 2.x API 介绍图像中的显着性图

TensorFlow 2．x 简介在计算机视觉领域中，...

2022-08-08

经典论文系列 | Group Normalization & BN的缺陷

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

经典论文系列 | Group Normalization & BN的缺陷

参与评论

为你推荐

埃夫特今日敲钟，股票大涨400%！核心竞争力助股价腾飞！

大咖对话：预见2021年数据存储最新9大趋势

机器人技术趋势：协作机器人，农业机器人和医疗机器人

机智云边缘管理系统与银河麒麟V10完成兼容适配

基于S7-PLCSIM Advanced搭建S7通信仿真环境

落地不到20万满足购置税减半，这几款轿车大气又实惠

我乐：天生有序，但永远要冒险

看数字孪生技术如何驱动智能制造 ——探访2021高交会

4G路由器解决方案 工业CPE串口转WiFi模块的功能与应用

边缘 AI 平台的比较

多年来环氧涂料和技术的进步

柠檬豆发布革命性新型不锈钢，成本降低20-30%，高耐蚀！高强度！高抗菌！

用于集成在体感试衣镜系统里检测是否有人站在镜子前的超声波传感器

将高科技融入电梯中，苏州电梯镜面显示屏将会带来更多便利

陈根：太阳形成需要多少时间？

《LoRa物联网通信技术》，一部物联网专著现已震撼上市

瓷音未来Mars，设计精致的入门价位耳机，音质确实不错

视觉定位-边缘轮廓检测

氮化铝陶瓷基板PK氧化铝陶瓷基板,封装的未来在哪？

NFT卖出6200万元，周杰伦一分钱也拿不到？

【机遇】中国望弯道超车 机器人产业发展迎机遇

变频电磁加热技术的出现对负重前行的工业加热行业来说无疑是一道曙光

最简单的背景颜色检测方法

极光尔沃Artist-D pro四种打印模式演示

科翔股份：拟定增募集资11亿元 建设印制电路板及半导体项目

测量数据远程管理系统

大数据平台架构有哪些

中国信通院首届3SCON软件供应链安全会议成功召开 聚焦软件供应链全链路安全

ArmPi FPV机械臂，带你玩转ROS开发，敲开编程学习的大门！

华为汽车BU架构调整，王军转任COO

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

4G路由器解决方案工业CPE串口转WiFi模块的功能与应用

【机遇】中国望弯道超车机器人产业发展迎机遇

科翔股份：拟定增募集资11亿元建设印制电路板及半导体项目

中国信通院首届3SCON软件供应链安全会议成功召开聚焦软件供应链全链路安全