游戏攻略网
当前位置: 首页 游戏攻略

微软人工智能深度学习框架交流(微软亚研院与南大)

时间:2023-06-19 作者: 小编 阅读量: 1 栏目名: 游戏攻略

微软亚洲研究院的研究员们分析发现该问题是由于推理运行时各个核上不均衡的任务分配所导致。该方法既消除了DVFS响应不及时所带来的错位,也使AsyMo在延迟降低的同时大幅度节约了能耗。然而,这种优化限制于单个边缘云服务器的计算性能,对于超清视频的推理任务仍然有很大的挑战。但简单的均匀分割方式可能会将完整的物体切割成碎片,从而降低模型的精确度。

编者按:近年来中国的学术研究水平快速提升,在移动计算和网络领域当然也不例外。在今年计算机网络领域国际顶会 MobiCom 2021(Summer Round)接收的19篇论文中,微软亚洲研究院有三篇论文成功入围。这三篇论文,其中有两篇关于功耗优化、高效推理,有一篇则在深度学习的基础上提出了一种创新的隐私保护技术。

作为 CCF A 类会议,MobiCom 在网络通信和移动计算领域广受好评,尤其是它严格的审稿过程,在学界盛名已久。

据悉,每一篇被录用的论文都要经过技术程序委员会(Technical Program Committee)成员的讨论通过,并安排专人对论文最终版本的修改进行指导,以保证审稿意见的采纳和所有被录用论文的质量。

而今年尤其严格,MobiCom 2021(Summer Round)一共收录了19篇论文,其中,微软亚洲研究院有三篇论文被收录:

  • “AsyMo: Scalable and Efficient Deep-Learning Inference on Asymmetric Mobile CPUs”,是通过高效利用端侧异构多核 CPU 来加速模型推理的工作。
  • 论文:https://www.msra.cn/wp-content/uploads/2021/03/mobicom21-asymo.pdf
  • “Elf: Accelerate High-resolution Mobile Deep Vision with Content-aware Parallel Offloading”,旨在并行利用多台边缘服务器来加速高分辨率模型推理的工作。
  • 论文:https://www.msra.cn/wp-content/uploads/2021/03/mobicom21-elf.pdf
  • “PECAM: Privacy-Enhanced Video Streaming and Analytics via Securely-Reversible Transformation”,提出了一种基于深度学习的、可安全恢复的视觉信息变换及隐写,高效且实时地增强视觉隐私信息的保护。论文:https://www.msra.cn/wp-content/uploads/2021/03/mobicom21-pecam.pdf

下面我们就来介绍一下这三篇论文的更多细节。

AsyMo:用端侧硬件资源加速模型推理

深度学习模型已被大量使用于各类终端应用中。与传统部署在云上的深度学习模型推理相比,移动端侧的本地推理不仅能保护用户隐私且不依赖于网络连接,因此受到越来越广泛的重视,业界不少企业也都推出了端侧推理框架。然而,端侧硬件资源的有限性和异构性以及对低能耗的要求,给高效的模型推理实现带来了更大的挑战。

CPU 是移动端侧最主要的计算资源,目前端侧大部分模型推理也都在 CPU 完成。端侧 CPU 多采用大小核的异构多核架构,以同时满足低能耗和高性能的需求。但当增加小核硬件资源时,现有的模型推理实现并不能取得相应的性能加速(如图1左),而且还浪费了宝贵的硬件资源。

图1:(左)Kirin970 上加上小核后部分框架推理时间不降反增;(右)MobilenetV1 推理过程中频率响应不及时。

微软亚洲研究院的研究员们分析发现该问题是由于推理运行时各个核上不均衡的任务分配所导致。比如在运行常用的 CNN 模型时,平均的小核利用率甚至不足10%,大核利用率也只有70%左右。现有的各种端侧推理实现仍然沿用传统的服务器端同构并行任务划分的方式,没有考虑异构多核在计算和数据访问能力上的差异,以及端侧硬件资源有效性,因此 CPU 利用率很低。

此外,在能耗方面,研究员们也发现,由于缺乏对执行任务的理解,现有操作系统的动态电压频率调节(DVFS)不能及时对推理执行做出响应(如图1右),推理的开始和结束与 CPU 频率(即图1中功耗)的升降并不匹配,而且 DVFS 也无法找到最低能耗的 CPU 频率,所以造成了额外的能耗开销。

为了解决以上问题,微软亚洲研究院的研究员们提出了 AsyMo 解决方案,通过高效利用端侧异构多核 CPU 来加速模型推理的工作。AsyMo 充分考虑了端侧 CPU 的异构性、缓存资源的有限性和执行环境的不确定性,结合推理执行的确定性、算子的易并行性和计算/访存的密集性,实现了基于延迟开销模型的任务划分策略、面向异构的任务调度策略和最优能耗频率设置策略三个关键技术。

图2:AsyMo 工作流程图

并行任务划分对模型推理性能有很大影响,为了找到在大小核上最合适的任务大小,研究员们通过分析不同任务大小对并行度、访存和任务调度开销等带来的影响,构建了任务大小和延迟开销的关系模型,利用该模型可以直接计算得到大小核上延迟最小的任务尺寸。当模型运行时,面向异构的任务调度会将这些划分好的任务公平地分配到相应的大核或小核上执行,并根据各个核运行的情况适时地调整任务分配,以达到各个核的任务均衡。整个划分和执行过程如图3所示。因此,在 AsyMo 的作用下,推理执行过程中各个核所执行的任务数与其计算能力一致,并使各个核的利用率都提升到了90%以上。

图3:矩阵乘算子的初始化任务划分和运行时的任务调度图

对于能耗方面,AsyMo 根据目标深度学习模型的数据重用率,以及 CPU 在不同频率下的计算和访存能耗曲线,为不同深度学习模型确定了推理执行的能耗最低频率。该方法既消除了 DVFS 响应不及时所带来的错位,也使 AsyMo 在延迟降低的同时大幅度节约了能耗。

研究员们在多个硬件、操作系统、以及深度学习框架上对 AsyMo 进行了评估,AsyMo 均能取得非常好的加速和能耗节省效果。

图4:在提升性能的同时也降低了能耗

例如,在 Kirin970 上,相比于优化过的 Tensorflow 基线(在默认 TensorFlow 之上实现了矩阵-向量乘法的并行及模型参数拷贝消除),对于卷积占主导的模型 AsyMo 可以在达到46%加速的同时降低37%的能耗,对于全连接占主导的模型则可以达到最高97%的加速,以及降低55%能耗。

Elf:用多边缘云服务器加速模型推理

如今,基于深度学习的移动端视觉应用被广泛接受,例如视频类社交 App 上通过物体识别、人形追踪所进行的视频美化。为了进一步加速深度学习推理任务在移动端的运行速度,很多相关科研工作都在探索如何将复杂的计算上传至边缘云。然而,这种优化限制于单个边缘云服务器的计算性能,对于超清视频的推理任务仍然有很大的挑战。

微软亚洲研究院和中国科学技术大学、美国 Rutgers 大学等合作, 发现通过分割图片视频来利用多服务器进行并行计算是可行的更优加速方式。但简单的均匀分割方式可能会将完整的物体切割成碎片,从而降低模型的精确度。同时这种方式还可能会让不包含任何物体的切片上传至服务器,从而造成网络资源和计算资源的浪费(如图5左)。此外,如何有效地匹配切片的计算复杂度,以及服务器当前的计算资源也是很大的挑战。

图5:(左)简单的均匀分割;(右)理想的分割

为此,作者们通过高效的任务分割,利用多边缘云服务器的并行计算以加速模型推理,并提出了名为 Elf 的解决方案。Elf 充分考虑了推理任务的计算复杂度,图片视频中候选区域的位置、计算需求分布以及多个边缘云服务器网络、计算资源的动态不确定性,重点实现了候选区域的高速追踪预测、基于候选区域的视频流分割,和基于多边缘云服务器性能感知的并行上传计算。

图6:Elf 系统工作流程图

在移动端,Elf 系统根据候选区域在历史视频帧的位置分布,通过轻量级的注意力 LSTM 深度学习网络,而不是主流的高复杂度的基于卷积神经网络的模型,来预测当前帧中的候选区域的位置。同时,为了提升预测的精确度,作者们还提出了候选区域快速匹配,以及低像素补偿的方法。

在视频流分割上,作者们提出了内容认知、计算复杂度认知,以及网络计算资源认知的方法。内容认知可以帮助分割候选区域的完整性,从而不影响应用的精确度,并有效移除无关的背景区域;计算复杂度认知可以帮助考虑分割碎片的异构计算资源需求,进而实现多边缘云计算服务器的负载均衡;网络计算资源认知则可以帮助考虑边缘云计算服务器高动态的资源变化,以减少计算瓶颈情况的出现。

总的来说,Elf 系统通过以上步骤,可有效地在移动端将视频帧分割成多碎片,再上传至多个边缘云服务器进行并行计算,来大幅提升计算速度,同时不影响视觉应用的精确度。

图7:Elf 系统中视频帧分割的流水线作业

该论文在多个硬件、操作系统、以及深度学习模型上对 Elf 进行了评估,Elf 均取得了非常好的加速效果,同时不影响视觉应用的精确度。例如在Jetson TX2,802.11.ax,690Mbps,4台Intel Xeon (E5-2640 v4,2.40GHz)边缘云服务器的平台上,Elf 实现了平均4.85倍的推理性能加速,52.6%的网络传输降低,以及小于1%的视觉应用精确度的损失。

图8:Elf 对于不同深度学习模型在不同服务器数量的评估

PECAM:可安全恢复的视觉信息变换及隐写技术

视频流分发与智能分析(Video Streaming & Analytics,VSA)系统(如图9所示)近年来被广泛部署,并且在智慧城市、居家安防、养老看护等应用场景中发挥了重要的作用。但越来越多的无死角摄像区域容易造成人们的焦虑和压迫感,特别是引起人们对个人和空间隐私泄漏的担忧。如何在 VSA 系统中平衡出色的分析能力与视觉的隐私保护就成了一个十分重要并具有挑战的研究问题。具体来讲,就是需要做到在保证 VSA 的分享观看、智能分析、和调查取证的服务质量的同时,有效且实时地增强视觉隐私信息的保护。

图9:常见的视频流分发与智能分析系统。视频流分析系统通常包含两个主要部分,前端视频源和后端订阅用户。前端视频源通过网络将实时视频流传输到相应的后端订阅用户。后端订阅者会对视频进行分享观看/人工检查、智能检测以及数据存储。当被授权时,授权方可以利用视频流进行取证,比如进行犯罪现场分析。

针对上述问题,微软亚洲研究院与南京大学软件新技术国家重点实验室等,合作提出了一种基于深度学习的、可安全恢复的视觉信息变换及隐写 PECAM,并利用该技术设计了较为通用的 VSA 隐私增强架构及系统实现。

PECAM 可以实时运行在智能摄像头上,无需对后端服务改动,保证了 VSA 的功能,减少了带宽要求,还能够抵御非法的隐私视频恢复。

图10展示了将 PECAM 应用在交通监控场景中进行事故检测的工作样例:左侧被监控摄像头所采集到的原始视频帧中包含了车牌号,车牌号对于多数司机来说是敏感信息,但这些信息并不影响事故检测的结果。

图10:配备 PECAM 的 VSA 系统中的视频帧。PECAM 的隐私保护是应用于整帧的。在平时分析时,PECAM 可以隐去隐私信息,而在合法取证时,PECAM 则可以重建隐私信息。

PECAM 系统可以有效的把该原始视频转换成类似于卡通的隐私保护视频,此时车牌号会被保护起来但车的形状依然是可以辨识的。当在保护后的视频中检测到交通事故时,被授权的工作人员,如警察,则可以将该保护后的视频重建成原始视频,从而完成调查取证。值得一提的是,PECAM 去掉的是监控画面中所有物体的细节而不仅仅是车牌号。

支撑 PECAM 实现安全可逆变换的是一个安全增强的生成对抗模型,研究员们还引入了密钥机制来保证 PECAM 保护后的视频无法被攻击者还原。图11是以 Alice 的 PECAM 系统为例展示了该对抗网络的工作流程。在运行时,Alice 的编码器(Encoder)会实时地对视频进行隐私保护,被保护后的视频可以用于人工检查、智能分析和存储以备回溯分析。

图11:安全增强的生成对抗模型的工作流程

在得到 Alice 授权后,就可以用 Alice 的解码器(Decoder)从被保护的视频中重建出原始视频,该重建过程不需要借助任何额外存储的数据。实验显示,未经授权的攻击者难以非法还原 Alice 保护后的视频。因此,该模型能够帮助 PECAM 解决 VSA 系统中事故发现前视觉隐私信息保护与事故发现后个体标识信息取证之间的需求矛盾。

研究员们也在商业硬件上实现了 PECAM 原型,并进行了深入的安全分析和全面的性能测试,如图12所示,PECAM 有效地保护了 VSA 场景下的视觉隐私。

图12:经由 PECAM 保护的两组连续视频帧

该论文还论证了,拥有最新人脸识别工具和丰富计算资源的攻击者无法在 PECAM 保护的视频中检测到任何人脸身份。同时,对于未经修改的 VSA 后端任务,PECAM 转换后的隐私保护视频至少可以达到原始视频分析精度的96%。

此外,PECAM 系统针对隐私保护视频优化了网络带宽使用,在相同传输数据质量的情况下,PECAM 的带宽效率是H.264的1.8倍。PECAM 同时对系统运行性能进行了优化,其运行延迟满足 VSA 前端源的实时要求,比流行的 CycleGAN 和 YoloV3 的计算速度分别快12.3倍和46.8倍。

    推荐阅读
  • steam棋牌游戏推荐(幸运之夜新版本亮相TGC)

    steam棋牌游戏推荐12月1日,2017腾讯游戏嘉年华正式在成都开幕,腾讯的VR社交游戏《幸运之夜》在现场发布了最新版本。VR《幸运之夜》在TGC2017上惊艳亮相《幸运之夜》新版本发布邀请好友一起游戏今年7月底,《幸运之夜》正式在Steam发布,并推出了首款游戏作品“德州扑克”。今年的TGC2017现场,《幸运之夜》全新版本便带来了对互动性方面的提升。

  • 儿童睡前故事卖火柴的小女孩大全(卖火柴的小女孩)

    在长发公主的故事里,兔子小姐变成了手持宝剑的骑士,穿过了山川和河流,战胜了地狱恶犬,最终救出了长着一头金黄色长发的熊猫先生。随着一阵空间的波动,熊猫先生和兔子小姐来到了冰天雪地的圣诞节。小女孩被这突如其来的变化惊呆了。熊猫先生没有回答,轻轻摸了摸小女孩的头。小女孩点燃了第二根火柴。熊猫先生和兔子小姐则来到壁炉前,商量起小女孩最后一个愿望。熊猫先生蹲下来,握起小女孩的手。

  • 怎样做ppr管快一点(PPR管安装方法及技巧)

    怎样做ppr管快一点PPR管安装方法及技巧首先准备好需要的材料:热熔机,小剪刀,ppr管,管件,手巾。一定要根据自己热熔ppr管的口径,准备相应的热熔头。清洁:清洁管材与管件的焊接段部位,建议用95%浓度酒精擦净。在熔接时间内迅速的将管材无旋转的垂直插入管件中,并维持5秒以上,然后按相应冷却时间冷却。热熔后做到横平竖直,美观大方。

  • 大托特包搭配技巧(大托特包搭配技巧简述)

    西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄搭配撞色托特包,优雅而不失俏皮,让气场变得灵动起来内搭白色连帽卫衣,减龄又可爱,接下来我们就来聊聊关于大托特包搭配技巧?大托特包搭配技巧西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄。衬衫+托特包白色的衬衫休闲慵懒,给人一种空灵的感觉以及干净纯粹的气质。

  • 刘涛电视剧口碑(电视剧景气指数第一)

    还记得3月份刘涛在和周渝民主演的《大宋宫词》中扮嫩出演少妇被很多观众吐槽。万万没想到时隔数月,刘涛带着她的新剧《星辰大海》杀回来了。目前主要的剧情线在刘涛饰演的女主简爱身上。因为小时候意外发现母亲出轨的事,得知真相的父亲激愤之下杀死母亲并自杀,简爱因此成为了一个孤女。逃出傻子家的简爱在与姑姑的争执中误伤姑姑,从此开启逃命生涯。简爱从面馆辞职走投无路,误打误撞进入大公司之后面临着同事的故意刁难。

  • 外墙装修材料有哪些 外墙装修材料有哪些类型

    外墙涂料具有装饰性良好、耐污染耐老化以及施工维修容易和价格合理的特点。一般来说釉面外墙砖有亚光面与无光面两大类。它的装饰的效果也不错,有柚木色、深灰色等等可供选择。由于它的表面的肌理很清晰,所以色泽漂亮且装饰性极强。本站,中国知名大型装修平台,装修领导品牌。

  • 世界上有哪些花(世界上有哪些花 名字)

    瓜叶菊、香豌豆、夏兰、石竹、石蒜、荷花、翠菊、睡莲、福禄考、晚香玉、万寿菊、千日红、建兰、铃兰、报岁兰、香堇、大岩桐、水仙、小草兰、瓜叶菊、蒲包花、免子花、入腊红、三色堇、百日草、鸡冠花、一串红。孔雀草、大波斯菊、金盏菊、非洲凤仙花、菊花、非洲菊、观赏凤梨类、射干、非洲紫罗兰、天堂鸟、炮竹红、菊花、康乃馨、红掌、满天星、星辰花、三角梅、虞美人。

  • 长歌行李长歌母亲是谁杀的(长歌行李长歌的简介)

    下面更多详细答案一起来看看吧!长歌行李长歌母亲是谁杀的《长歌行》李长歌母亲是自杀的。李长歌,太子李建成之女,生母则是回纥王族。父母手足均死于玄武门之变,满怀愤恨的长歌凭高超武艺逃出皇宫,并在追捕过程中制造“坠崖假死”而逃生,其后女扮男装隐瞒身份流落民间,一心只想为父母复仇,在家和国的利害冲突中,最后放弃复仇,和阿诗勒隼一起成为了民族和解的使者。

  • 什么时候喝蛋白粉增肌效果最好(什么时候喝蛋白粉增肌效果最好)

    从长远来看,这种方法被证明可以促使肌肉明显增长。如果摄入量超过一定的阈值,蛋白质的合成就会受限。如果是以乳清饮料的形式摄入乳清蛋白,运动者可以在运动结束后立即饮用。按每公斤体重1克的标准,在健身前后立即摄入以及在运动后1小时内摄入可快速吸收的碳水化合物,可以明显抑制肌肉分解,并大大促进肌肉快速和明显的增长。在这种情况下,大量分泌的胰岛素促进了氨基酸向工作中的肌肉运输,为蛋白质合成奠定基础。

  • 窦骁周冬雨山楂树之恋结局(周冬雨18岁第一次出演)

    周冬雨18岁第一次出演要说最近最火的电影,非《少年的你》莫属,上映14天,已经收获了12.45亿的票房成绩,成为现阶段最强的票房黑马而作为该片主演的周冬雨和易烊千玺,也凭借在该片中的精彩演出,演技得到大众的进一步认可作为“。