CapProNet: 从胶囊投影网络的突破到Weight Normalization的高维推广
网络推广 2021-03-15 15:04

  

  应许多盆友的规定,在下面的原文最终,得出了一个简易地卷积和化胶囊投影的思路

  

  ============= 原文==============

  胶囊神经元网络(Capsule Nets)的定义最开始有G. Hinton在2011年的一篇毕业论文“Transformation Auto-Encoders"中明确提出,以后在2017年发布的"Dynamic Routing between Capsules"后引起了学界和工业领域的普遍关心。

  

  即便如此,因为Capsule Nets和dynamic routing 的多元性,促使Hinton明确提出的Capsule Nets无法营销推广到十分深的构造上,而通常多层的胶囊网络架构也难以在精确度上击败别的流行的深层网络架构。

  

  另外,更重要的是,大家发觉只是将一个特点层(feature map)中的多个安全通道(channel)分为好多个胶囊(capsule),以后依照Hinton的假定,根据这类胶囊的长短来表式对不一样定义的置信度也没法很合的提升鉴别准确度。

  

  根据之上的难题,大家明确提出了一直新的胶囊投影互联网(Capsule Project Networks)构架,

  1)不但保证在一样互联网的复杂性(network size)下,在一系列数据上把归类差错率降低10-20%;并第一次促使胶囊网络的分类准确度超出了别的的流行网络架构;

  2)另外表明了投影胶囊结构与weight normalization中间的刻骨铭心联络,强调了weight normalization是投影胶囊的一维状况下的充分必要条件,而胶囊投影将weight normalization非凡地营销推广到高维的情况,为极大地提高深层互联网的特性强调了一条新思路;

  3)根据剖析投影胶囊互联网的Back Propagation训炼全过程,大家发觉了这类CapProNet 结构能够根据合理地运用包括在垂直平分胶囊子空间的特点份量,合理地提升对胶囊子空间的升级高效率,从而表述了CapProNet的高精密、低互联网复杂性的結果。

  

  有关工作中发布在全新的NeurIPS2018大会上,有关编码也发布在github网址 Lab for MAchine Perception and LEarning (MAPLE)

  

  

  

  下边大家简单扼要的详细介绍下CapProNet的结构。

  

  其核心内容防止立即将特点层中的多个安全通道汇聚成好多个胶囊。反过来,大家应用数个子空间意味着要模型的胶囊,而上一层键入的矩阵的特征值x,则根据正交和投影到这好多个胶囊子空间获得相对的胶囊表明:

  

  这儿, 意味着一个胶囊子空间基向量构成的权重值引流矩阵,这时候一个根据训炼学习培训获得的互联网主要参数;而 便是相匹配于这一子空间的胶囊特点。

  

  和Hinton的胶囊互联网相近,大家用胶囊的模 来意味着归属于相匹配定义的置信度来获得归类和鉴别的目地。不可以看得出,这一模能够表明成

  在其中,大家有

  

  这儿,当子空间仅有一维的情况下,主要参数引流矩阵衰退变成一个主要参数空间向量。这时候可以看出,胶囊空间向量在没有更改其模尺寸的状况下,能够等额的的表明成

  而这一实际上便是根据归一化 而完成的weight normalization。

  

  从这个意思上罢了,一般的weight normalization是胶囊投影在一维胶囊子空间上的充分必要条件,而一个被胶囊投影互联网则取得成功地将weight normalization营销推广到更一般的高维情况,这些展现了CapProNet的实用性。实际来讲,在高维一般情况下的weight normalization是

  

  换句话说,对weight matrix 的高维情况下的归一化,是根据 来完成。

  

  更一般地,大家剖析了根据反向传播全过程训炼胶囊投影互联网的全过程。不可以看得出,用于升级互联网主要参数的差值梯度方向是

  

  在其中 是将键入特点x投影到与胶囊子空间正交和的方位上。

  

  显而易见,这一正交和份量能够表述成包含了尚沒有被胶囊子空间包括的信息内容。而根据上边这一梯度方向来升级胶囊子空间时,子空间会被顺着这一正交和方位升级,这样一来,升级后的胶囊子空间便会包括大量新的特点信息内容,进而更合理地对网络架构开展训炼。

  

  从试验上看,改胶囊投影互联网能够非常好地将不一样词义定义的样版,在不一样的子空间中按投影胶囊的模长把正负极样版分离(如下图在CIFAR10数据上的結果)。

  

  

  另外,只是根据更换最终一层神经元网络,我们在一系列数据上也获得了相对性与ResNet和DenseNet很好的結果。

  

  

  最终,大家还和非投影的胶囊互联网(简易地把神经细胞汇聚成胶囊,无投影算法,但根据同样的backbone network)干了比照,发觉在投影胶囊要远远地好于非投影的互联网,以下。

  

  

  

  

卷积和化的胶囊投影互联网思路

  后边大家将进一步把投影网络架构卷积和化来全卷积和的胶囊投影结构。这儿提下全卷积和胶囊投影的思路。简易地而言,一个卷积和实际操作事实上便是一个线性运算。

  

  大家考虑到一个胶囊投影层,键入的feature map有n的channel,历经胶囊投影卷积和后,键入的feature map有m个channel。考虑到一个尺寸w乘于h的卷积核,那麼这一卷积核便是n x w x h x m。大家把这个卷积核reshape成nwh x m的引流矩阵W。

  这一引流矩阵便是和大家上边的权重值引流矩阵W是一样的,只不过是它完成的是一个从有n个channel的键入feature map图象上w x h patch到有m个channel的輸出feature map图象上一个清晰度的线形转变。

  对这一reshape后的权重值引流矩阵W,我们可以一样的依据高维weight normalization 的公式计算,来获得normalization后的权重值引流矩阵,即 。最终,把获得的normalize后的nwh x m的权重值引流矩阵再次转换回n x w x h x m的卷积核就可以。

  

  

  

  最终有关毕业论文参照

https://8/Schedule?showEvent/span>

  NIPS 2018

NIPS 2018

  编码

  

Lab for MAchine Perception and LEarning (MAPLE)

  

  最终,大家热烈欢迎有兴趣爱好的盆友一起将卷积和化的胶囊投影互联网用在大量的深度神经网络架构上。大家将十分愿意地在大家的github首页上认同和共享大伙儿新编码和构造。

  

  热烈欢迎关心大家的栏目 深度神经网络最前沿科学研究(MAPLE试验室)和关心文中创作者@赵国君

  

  



客户服务热线

15727267871

在线客服