游戏攻略网
当前位置: 首页 游戏攻略

高可用及其实现方式(构建高可用和可扩展的在线应用)

时间:2023-08-22 作者: 小编 阅读量: 1 栏目名: 游戏攻略

构建高可用和可扩展的在线应用1.⽤Ray构建⾼可⽤和可扩展的在线应⽤蔡腾纬蚂蚁集团12.初露头⻆-⽤户场景//pseudocodepublicclassStrategy{•⼤量⽀付机构(渠道)的策略和指标计算publicvoid。

1.⽤Ray构建⾼可⽤和可扩展的 在线应⽤ 蔡腾纬 蚂蚁集团 1

2. 初露头⻆ - ⽤户场景 // pseudocode public class Strategy { • ⼤量⽀付机构(渠道)的策略和指标计算 public void calc(long time, Map banksAndIndicator){ for(Entry e : banksAndIndicator.entrySet()){ String bank = e.getKey(); for(String indicator : e.getValues()){ • 单机瓶颈 } calcIndicator(time, bank, indicator); } } • 机构数量上涨 public void calcIndicator(long time, String bank, List indicators){ • 数据量、计算量上涨 for(String indicator : indicators){ calcBankIndicators(time, bank, indicator); } // do indicators' data calculation • 复杂的计算逻辑,重构代价 } public void calcBankIndicators(long time, String bank, • 有没有⾼性价⽐的分布式计算⽅案? // do bank data calculation String indicator){ } } 2

3. 初露头⻆ - 期望⽅案 What’s What Ray running can do • 我们期望的新⽅案 Service Ray Worker Trigger Trigger • rpc 或者消息触发, 低时延完 Process Results gather results 成计算 Task #0 Result #0 Ray Worker • parallel exec 容易在原有代码上改写 Task #1 Result #1 Task #0 Result #0 Ray Worker • 动态的任务执⾏ Task #N Result #N Task #1 Result #1 Ray Worker Process Results Task #N Result #N 3

4. 初露头⻆ - 基于 Ray 的系统设计 AppMaster Actor User App create & control • AppMaster - 控制所有计算 User Job #0 Actor ⽣命周期与状态 Worker Actor L1 User Code Dispatcher • 创建 Trigger Actor 来接收外 trigger task Trigger Actor RPC Server Dispatcher ExecutionRuntime Worker Actor L2 User Code Dispatcher 部计算任务 & wait for results (within 2xx ms) Worker Actor L1 ExecutionRuntime ExecutionRuntime User Code Dispatcher • 预拉起计算 Actor,减少初始 Trigger Actor RPC Server Dispatcher ExecutionRuntime Worker Actor L2 化时间 ExecutionRuntime Worker Actor L1 User Code Dispatcher ExecutionRuntime User Code Dispatcher • Dispatcher 负责将上层 Actor L1 worker ExecutionRuntime L2 worker 路由到下层计算 Actor execute execute `calcIndicator` `calcBankIndicators` 4

5. 模型服务 User App RPC Call • 在线机器学习 Streaming Serving Ray Actor • 分钟级的持续模型导出 Ensamble Prediction LR Engine Engine Model • 模型尽快更新到线上服务 Serving Runtime Ray Actor Ray Actor • NLP/CV Training Prediction NN Prediction NN Engine Model Engine Model • 异构 model serving Serving Runtime Serving Runtime Update Model • Ensemble model serving ~ 10-30 minutes per Iterate 5

6. FaaS Eventing (Knative) Serving Ray Actor • 事件驱动平台(如 Knative Event FaaS Runtime User Func A Source Eventing)将消息转为 RPC RPC Send Serving Runtime Trigger Events • 基于 Ray Actor 的 FaaS 实例 Event Source Ray Actor 根据 workload ⾃动扩缩容 FaaS Runtime User Func A (建设中) Serving Runtime Send/Pull Send Events Events Ray Actor Event User Platform App FaaS Runtime User Func B RPC Direct Call Serving Runtime 6

7. 在线资源分配(运筹优化) • 解决⼤规模线性规划问题 • 详情可以观看蚂蚁集团在 Ray Summit 上的 Talk "Application of online resource allocation based on Ray" 7

8. Ant Ray Serving: 设计⽬标 • Ant Ray Serving:⼀个基于Ray的通⽤在线服务框架 • 挑战: • ⾼可⽤, SLA > 99.9% • 快速更新(10分钟内更新 1k个实例) • ⾜够的灵活度和扩展性 8

9. 跨集群架构 - 集群编排 • ⾼可⽤:多集群容灾 Start/Stop Service Serving ServingKeeper Client • 引⼊跨集群 Ray 作业编排:Serving Keeper Scale/Upgrade • 多集群的服务管理 Serving Cluster I Serving Cluster II • ⾃动编排(单元化部署架构) AppMaster AppMaster Actor I Actor II • 代理多集群的服务管理(扩缩容、升级) Proxy Proxy Proxy Proxy • 跨集群的协调 Actor Actor Actor Actor • 根据集群、容量事件协调集群间流量⽐例 Backend Backend Backend Backend Actor Actor Actor Actor • ⽀持蓝绿发布、⾦丝雀发布 9

10. 跨集群架构 - 服务发现 User Application RPC Trigger select living instance • 跨集群的服务发现 Serving Client (local- rst load balance) pull instances • 两层服务发现 RPC call selected instance service.global.xxx.com • 本地、时延优先的负载均衡策略 weight: 2 weight: 1 • 弹性调整流量 service.i.xxx.com service.ii.xxx.com • ⽀持 Ray 集群的容灾和滚动更新 Serving Cluster I Serving Cluster II Proxy Proxy Proxy Actor Actor Actor 10 fi

11. AppMaster 状态管理 Scene #1: AppMaster Actor 容灾 • AppMaster 状态 1. Ray 重建 AppMaster actor • 服务元数据 2. AppMaster 发现只是⾃身重建, 恢复所有状态到内存并继续服 务 • Proxy & backend actor handler Scene #2: 整个服务的容灾 • 服务配置如 replica 数量以及 backend con g 1. 整个服务作业被⽤户或者 Serving Keeper 重启 等 2. AppMaster 发现是作业重启, ⾃动恢复服务元数据和配置等, 重置 runtime 状态 • Proxy, backend 及服务本身的 status 等 3. AppMaster 根据配置重建 proxy/backend actor,并更新状态 • AppMaster 状态⾼可⽤ change AppMaster persistent State • 可扩展的 AppMaster state backend: MySQL, State ⽂件, Redis 等等 AppMaster Backend restore 11 fi

12. 服务更新 • 根据更新步⻓、策略等配置确定更 Remove itself Pre- Prepare resource & from service con guration Updating discovery 新步骤 Detache Serving • d 更新前先摘除流量 Rollback to Upgrade State Machine of Reload/Upgrade • previous 在 serving backend runtime ⽀持 version Serving Backend after no tra c 并尽量采⽤原地更新 Rollbacki Upgradin Validate ng Success g • 在线学习场景中更新后的 Validatin Self validate Validating ⾮常重要 Validate Fail with recorded requests g 12 fi ffi

13. 可扩展性 • 基于 K8S/Yarn 的弹性调度 • Autoscale (探索中) • 难点:准确的策略和⾜够快扩容速度 • 基于时序的策略或模型预测 • SLA - Serving or Scheduling level agreement 13

14. 整体架构 User Application User Application (Data Plane) (Controll Plane) Serving Client ServingKeeper Serving Client pull instances Service Discovery register Serving Cluster I Serving Cluster II Serving Cluster III Control Instruction Ray Node Ray Node AppMaster AppMaster Data Requests Proxy Proxy … Java Backend Python Backend … Java Backend Python Backend … Serving Cluster X Ray Node Ray Node Ray Node Ray Node Proxy Proxy Ray Node Ray Node Backend Backend … Backend Backend … 14

15. 未来 • ⽀持在线学习模型服务秒级更新 • 在⽣产场景⽀持⾃动扩缩容 • ⽀持在线复杂、有状态计算 • 与 Ray Serve 合作 • 在 Ray Serve 中增加 Java ⽀持 • 构建可插拔的 controller, 服务发现, rpc 实现等 15


    推荐阅读
  • steam棋牌游戏推荐(幸运之夜新版本亮相TGC)

    steam棋牌游戏推荐12月1日,2017腾讯游戏嘉年华正式在成都开幕,腾讯的VR社交游戏《幸运之夜》在现场发布了最新版本。VR《幸运之夜》在TGC2017上惊艳亮相《幸运之夜》新版本发布邀请好友一起游戏今年7月底,《幸运之夜》正式在Steam发布,并推出了首款游戏作品“德州扑克”。今年的TGC2017现场,《幸运之夜》全新版本便带来了对互动性方面的提升。

  • 儿童睡前故事卖火柴的小女孩大全(卖火柴的小女孩)

    在长发公主的故事里,兔子小姐变成了手持宝剑的骑士,穿过了山川和河流,战胜了地狱恶犬,最终救出了长着一头金黄色长发的熊猫先生。随着一阵空间的波动,熊猫先生和兔子小姐来到了冰天雪地的圣诞节。小女孩被这突如其来的变化惊呆了。熊猫先生没有回答,轻轻摸了摸小女孩的头。小女孩点燃了第二根火柴。熊猫先生和兔子小姐则来到壁炉前,商量起小女孩最后一个愿望。熊猫先生蹲下来,握起小女孩的手。

  • 怎样做ppr管快一点(PPR管安装方法及技巧)

    怎样做ppr管快一点PPR管安装方法及技巧首先准备好需要的材料:热熔机,小剪刀,ppr管,管件,手巾。一定要根据自己热熔ppr管的口径,准备相应的热熔头。清洁:清洁管材与管件的焊接段部位,建议用95%浓度酒精擦净。在熔接时间内迅速的将管材无旋转的垂直插入管件中,并维持5秒以上,然后按相应冷却时间冷却。热熔后做到横平竖直,美观大方。

  • 大托特包搭配技巧(大托特包搭配技巧简述)

    西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄搭配撞色托特包,优雅而不失俏皮,让气场变得灵动起来内搭白色连帽卫衣,减龄又可爱,接下来我们就来聊聊关于大托特包搭配技巧?大托特包搭配技巧西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄。衬衫+托特包白色的衬衫休闲慵懒,给人一种空灵的感觉以及干净纯粹的气质。

  • 刘涛电视剧口碑(电视剧景气指数第一)

    还记得3月份刘涛在和周渝民主演的《大宋宫词》中扮嫩出演少妇被很多观众吐槽。万万没想到时隔数月,刘涛带着她的新剧《星辰大海》杀回来了。目前主要的剧情线在刘涛饰演的女主简爱身上。因为小时候意外发现母亲出轨的事,得知真相的父亲激愤之下杀死母亲并自杀,简爱因此成为了一个孤女。逃出傻子家的简爱在与姑姑的争执中误伤姑姑,从此开启逃命生涯。简爱从面馆辞职走投无路,误打误撞进入大公司之后面临着同事的故意刁难。

  • 外墙装修材料有哪些 外墙装修材料有哪些类型

    外墙涂料具有装饰性良好、耐污染耐老化以及施工维修容易和价格合理的特点。一般来说釉面外墙砖有亚光面与无光面两大类。它的装饰的效果也不错,有柚木色、深灰色等等可供选择。由于它的表面的肌理很清晰,所以色泽漂亮且装饰性极强。本站,中国知名大型装修平台,装修领导品牌。

  • 世界上有哪些花(世界上有哪些花 名字)

    瓜叶菊、香豌豆、夏兰、石竹、石蒜、荷花、翠菊、睡莲、福禄考、晚香玉、万寿菊、千日红、建兰、铃兰、报岁兰、香堇、大岩桐、水仙、小草兰、瓜叶菊、蒲包花、免子花、入腊红、三色堇、百日草、鸡冠花、一串红。孔雀草、大波斯菊、金盏菊、非洲凤仙花、菊花、非洲菊、观赏凤梨类、射干、非洲紫罗兰、天堂鸟、炮竹红、菊花、康乃馨、红掌、满天星、星辰花、三角梅、虞美人。

  • 长歌行李长歌母亲是谁杀的(长歌行李长歌的简介)

    下面更多详细答案一起来看看吧!长歌行李长歌母亲是谁杀的《长歌行》李长歌母亲是自杀的。李长歌,太子李建成之女,生母则是回纥王族。父母手足均死于玄武门之变,满怀愤恨的长歌凭高超武艺逃出皇宫,并在追捕过程中制造“坠崖假死”而逃生,其后女扮男装隐瞒身份流落民间,一心只想为父母复仇,在家和国的利害冲突中,最后放弃复仇,和阿诗勒隼一起成为了民族和解的使者。

  • 什么时候喝蛋白粉增肌效果最好(什么时候喝蛋白粉增肌效果最好)

    从长远来看,这种方法被证明可以促使肌肉明显增长。如果摄入量超过一定的阈值,蛋白质的合成就会受限。如果是以乳清饮料的形式摄入乳清蛋白,运动者可以在运动结束后立即饮用。按每公斤体重1克的标准,在健身前后立即摄入以及在运动后1小时内摄入可快速吸收的碳水化合物,可以明显抑制肌肉分解,并大大促进肌肉快速和明显的增长。在这种情况下,大量分泌的胰岛素促进了氨基酸向工作中的肌肉运输,为蛋白质合成奠定基础。

  • 窦骁周冬雨山楂树之恋结局(周冬雨18岁第一次出演)

    周冬雨18岁第一次出演要说最近最火的电影,非《少年的你》莫属,上映14天,已经收获了12.45亿的票房成绩,成为现阶段最强的票房黑马而作为该片主演的周冬雨和易烊千玺,也凭借在该片中的精彩演出,演技得到大众的进一步认可作为“。