第八篇论文读后总结-使用合成梯度的解耦神经接口

发布时间:2021-12-02 13:00:07

Decoupled Neural Interfaces using Synthetic Gradients
使用合成梯度的解耦神经接口。

Max Jaderberg 1 Wojciech Marian Czarnecki 1 Simon Osindero 1 Oriol Vinyals 1 Alex Graves 1 David Silver 1 Koray Kavukcuoglu1


?


Proceedings of the 34 th InternationalConference on Machine


Learning, Sydney, Australia, PMLR 70, 2017. Copyright 2017


by the author(s).


本文讲了什么问题?

神经网络的误差拟传播算法(BP算法)是基于梯度下降策略,训练有向神经网络通常需要将数据前向传播通过整个图,然后再反向传播误差信号,从而生成权重更新。因此,网络中所有层或模块就会被锁定,他们必须等待该网络的剩余部分前向执行,然后反向传播误差之后才能实现更新。例如分布于多台机器的大型分布式网络,有时候需要网络中的所有模块等待网络中的其它所有模块都执行完成和反向传播梯度,这个过程非常耗时,而且甚至无法解决。如果我们解耦了这些模块之间的接口,那么我们就能让每一个模块都独立地更新,而不会受到网络中其它的部分的锁定。


解决办法

本文引入了合成梯度的概念,通常,神经网络将其预测与数据集进行比较,以决定如何更新其权重。然后使用反向传播来确定每个权重应该如何移动,以使预测更加准确。然而,对于合成梯度来说,数据的最佳预测由各层完成,然后基于这个预测更新权重。这个最佳预测被称为合成梯度。数据仅用于帮助更新每个层的合成梯度生成器。这使得(大部分情况下)单个层独立学*,提升了训练的速度。





如上图所示,与(a)相比,(b)(c)解耦了接口,分别用梯度生成器更新各层的梯度,这显然更快。


?


使用合成梯度





如上图所示,最左边的框显示了如何更新神经网络的第一层。第一层前向传播到合成梯度生成器(M i+1),然后返回梯度。使用此梯度而不是实际梯度(这将需要一个完整的正向传播和反向传播来计算)。然后,权重正常更新,并认为该合成梯度是真实的梯度值。


?


生成合成梯度


合成梯度生成器实际上就是一个合成神经网路,当进行全部的正反向传播时,实际上得到了正确的梯度。我们可以用比较神经网络的输出和数据集的方法,将正确梯度与合成梯度进行比较。因此,我们可以通过假设真实梯度来自于虚拟数据集来训练合成神经网络。





如上图第二部分。梯度(M i+2)是如何通过(f i+1)反向传播到达M(i+1),每一个合成梯度生成器实际上只使用了来自下一层的合成梯度进行训练。因此,只有最后一层实际上是在数据上训练的。其他所有层,包括,合成梯度生成器网络,均基于合成梯度训练。因此,网络只需等待来自下一层的合成梯度就可以训练每个层。


?


?


解耦神经接口应用

DNI 能适用任一通用的神经网络架构,而不只是前馈网络。例如循环神经网络(RNN)。一个 RNN 有一个展开的、反复使用的循环核心(recurrent core)来处理序列数据。训练 RNN 的理想情况是:我们能在整个序列(可能无限长)上展开该核心,使用沿时间的反向传播(BPTT)将误差梯度传播穿过整个图(graph)。然而在实践中,由于内存的约束以及需要频繁计算更新我们的核心模型,我们只能在有限的步上展开,这被称之为截断的沿时间的反向传播(truncated BPTT)。如果我们不在 BPTT 的边界之间使用反向传播,而是使用 DNI 和产生合成梯度,我们可以将一个合成梯度模型整合到核心中,以使得在每一个时间步骤,该 RNN 核都会在产生输出的同时产生合成梯度。





?


?


?


?


?


?


?


?

相关文档

  • 财务出纳年终工作总结范文
  • Java8??串行流与并行流
  • 最新市场部新员工的辞职报告范文
  • 巨蟹座女明星有哪些
  • 新驾驶员自我评价的范文
  • 山羊和小刺猬的故事
  • 观看专题片南粤党旗红心得体会
  • 建筑项目居间合同样本
  • 蓝图怎么看架立筋
  • 已解决:Vue的main.js中引入echarts后报 “export ‘default‘ (imported as ‘echarts‘) was not found in ‘echarts‘
  • 头发有气味怎么办
  • 2015下半年计算机一级PS图像格式全面解读
  • 团队建设举措_失败举措的历史
  • 初二读后感作文4篇
  • 绿萝黑斑病用肥皂水吗
  • 怎样清洗你的笔记本电脑
  • 吃早餐让肥胖患者更有活力
  • 三星s8状态栏图标解释
  • Centos7 安装nexus3.x 安装
  • 网络十大流行歌曲排行榜:夏天的风上榜,第九乃“治愈神曲”
  • 用华为手机助手备份恢复的问题解决
  • 教师参观永不磨灭的丰碑焦裕禄事迹展心得桧精选多篇
  • 我喜欢的小动物(转载)
  • 秦始皇陵中真有水银做的“江河大海”吗?
  • 第一次学炒菜
  • js onclick事件出现 xx is not defined错误
  • Java中是如何实现原子操作的?
  • 关于法制天地手抄报
  • 中学生吸烟喝酒的危害
  • uva1608
  • 猜你喜欢

  • (广东专版)2018年秋八年级数学上册 第二章《实数》2.4 估算习题讲评教案 (新版)北师大版
  • 小学五年级数学上册 第二单元位置(第三课时)教学设计
  • 关于唱响中国梦的演讲稿
  • 中国石拱桥优秀的教案
  • 江苏省南通市启东市吕四中学2020届高三第一次质量检测数学试卷Word版
  • 深圳市兴至诚实业有限公司企业信用报告-天眼查
  • 7、安全地垫(塑胶场地)分包合同
  • 在河北省太行山东南部*原区深部开展煤炭资源调查评价的建议
  • 关于描写奶奶那双手的精选作文600字
  • YKSL3000型循环水泵电机漏油分析及策论文
  • 2019年小学一年级语文美丽的小路[人教版]精品教育.ppt
  • 高中语文教学反思合集
  • (新人教版)最新高考语文二轮复*专题七 精准训练十九《论语》文化经典专练【必做练*】
  • 北京大学ACM暑期课讲义-弗洛伊德算法
  • 八年级数学下册 17.3.2 一次函数的图象*题课件 (新版)华东师大版
  • 电厂职工培训工作总结
  • element-ui 两个el-select关联 事件触发一级el-select 还原清空二级el-select问题
  • 人教版语文七年级下册第18课《一棵小桃树》ppt课件
  • 新手做生意是在失败中吸取教训
  • 小学三年级作文《牛头山》500字(共9页PPT)
  • 学校的松树
  • 描写夏雨的优美句子
  • 第4章建设项目设吉锥喂こ淘旒奂萍塾肟刂
  • TPM实施5步骤
  • 四川省2016年瑟肽昙嗬砉こ淌χ匆底矢瘢汗こ淌Φ目谕分甘究际允跃
  • 更多时候,阻碍你晋升的,不是专业能力,而是职业素养
  • 九年级物理同步小册子训练课件(人教版)13.第2节 内能
  • 为患病学生捐款倡议书范例
  • 茄汁萝卜丸子的做法【美味佳肴食谱】
  • (精选)大型超市规章管理制度
  • 植树护绿美化家园
  • 白鹤的外形特征
  • 台州市祺思琪妙贸易有限公司(企业信用报告)- 天眼查
  • 中学生思想品德学*兴趣调查问卷 稿
  • 蓝桥杯JavaB组,2013年省赛真题
  • 怀远县名仕电子商务有限公司企业信用报告-天眼查
  • 人教版七年级上册英语Unit2Thisismy+sister.检测题听力原文及参考答案
  • 幼儿园课间操评比
  • 园林绿化施工质量管理相关要点探究 质量管理五大工具
  • 很权威的现金流量表分析教程 精品
  • 初中数学9、有理数的除法_同步练*2
  • 废旧塑料片项目投资商业计划书范本(投资融资分析)
  • 电脑版