游戏攻略网
当前位置: 首页 游戏攻略

实时数据解析(一文搞懂离线数据)

时间:2023-07-17 作者: 小编 阅读量: 1 栏目名: 游戏攻略

很多业务产品或运营搞不懂两者的区别。数据从业务端产生,到分析或者反哺业务使用,需要经过一系列的清洗、处理过程,而这一过程带来时间窗口大小,就是数据的时效性。按照数据延迟的大小,可以将数据分为离线数据和以及实时数据(准实时)。有人也称之为T1的数据,把数据日期当作T,叫法不同,但本质都是指的今天处理的数据最新日期是截止昨天。

编辑导语:在业务分析过程中,你应该选择实时数据还是离线数据?这需要依据业务场景来进行判断,不能盲目选择。那么,二者的优缺点是什么?各自适合应用于什么场景?本篇文章里,作者针对如何选择离线数据和实时数据这一问题做了解答,一起来看一下。

做数据和用数据的人绕不开的问题是数据的时效性,离线数据、实时数据分别指的是什么,业务应用时,究竟该以什么标准选择呢?很多业务产品或运营搞不懂两者的区别。提数据分析需求,想着肯定越实时越好,数据团队怎样拒绝?

一、什么是离线数据、实时数据?

数据从业务端产生,到分析或者反哺业务使用,需要经过一系列的清洗、处理过程,而这一过程带来时间窗口大小,就是数据的时效性。按照数据延迟的大小,可以将数据分为离线数据和以及实时数据(准实时)。

1. 离线数据

离线数据一般是指T-1的日期,例如今天的日期T=2021-11-12,那么数据结果中,能够体现的业务数据只包括前一天的(昨日数据)。有人也称之为T 1的数据,把数据日期当作T,叫法不同,但本质都是指的今天处理的数据最新日期是截止昨天。

2. 实时数据

实时数据主要是指的数据延迟小,例如毫秒、秒、分钟级的延迟,小时级的延迟称之为“准实时数据“更为准确了。例如,你熬夜赶在双十一晚上的最后1分钟,成功付了尾款,在双十一实时统计大屏中,GMV的值又滚动了一下。

二、处理技术有何差异

1. 离线数据处理

离线数据处理也称之为“批处理”,数据产生之后,不会立即进行清洗,而是在固定的周期进行ETL,例如每天在凌晨12:00之后,处理前一天产生的数据。上大学的时候,有的舍友喜欢将袜子攒起来,一个星期洗一次,这就是批处理的思想。

离线数据处理技术是大数据发展更早,目前已经非常成熟的一套体系,最常见是Hadoop,它是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行数据处理。核心组件是HDFS、Mapreduce、Hive。以HDFS进行数据存储,Mapreduce计算,Hive进行数据仓库建设或者基于HiveSQL进行数据查询。

主要优点是:

  • 能够处理的数据量巨大,从企业成立以来的历史数据,都可以存储、计算处理、分析应用。
  • 数据更准确,对于一些交易类的业务,存在订单状态流转,例如酒店,用户早上下了订单,但是下午有突发情况行程有变,取消了。在离线数据处理时,取当天订单成功状态,就不会计算在内。但对于数据漂移,即12点前下单,12点后取消的情况,就也无法统计到了,这种情形,在数据清洗任务处理时,可以采用全量更新的方式,每日更新全部数据,取最终的订单状态。

缺点:

离线数据的缺点也很明显,就是慢。今天的数据,要隔天(明天)才能看得到。

2. 实时数据处理技术

实时数据处理,也称之为“流式”数据处理,数据像水流一样每时每刻源源不断地产生后,就立即被清洗处理。这就好比,穿的袜子脏了就洗,今日事今日毕,而不是都攒着。

实时数据一般是业务端即席产生(水源),通过Kafka等消息通道(水流管道)进行传输,利用Storm或flink等实时组件进行消费处理。例如,双十一统计每秒钟的订单数。

主要优点:

数据时效性强,可以做到秒级或者毫秒级时延,“所见即所得”。

缺点

  • 需要不停地进行数据计算,即每秒钟或者每分钟进行数据清洗和计算,集群资源消耗大。离线数据处理,任务一天跑一次,一次1小时,实时数据处理每分钟跑一次,一天24小时都在跑。
  • 数据周期短,由于是流式处理的方式,相应的组件在实时处理方面能力强,但是没办法存储太长时间的数据,如果容器只进不出,水终究会溢出。因此,一般数据计算的周期会限定在一周内居多。
三、离线、实时各自适用的场景是什么,如何选择?

数据的应用场景总结下来其实就是两个,数据分析与数据应用。

1. 在分析方面,数据时效性的选择依据是什么呢?

1)业务经营分析、财务分析准确性大于时效性

即对于数据分析的场景,更在意的是能够更加准确地反映业务表现情况,即使T 1天后才可以看到数据也可以接受。尤其是财务结算,一般是月度结算或者季度财报,准确性是第一位的。

2)预警监控类分析,需要追求实时性

如果所有的分析数据都是需要隔天才能看到,肯定是不行的。如果系统宕机了,或者服务异常导致产品不可用,用户投诉才发现或者隔天数据分析才发现,带来的业务损失就无法挽回了。因此,还需要有实时的数据分析模块,对业务核心指标、系统服务指标进行最小延迟的预警监控。

所以,在数据分析场景下,离线数据为主,实时分析要有但不宜过度追求实时性。一般的数据可视化平台,有一个实时数据模块就可以了,其他的主题分析以离线数据为主。

2. 数据应用方面,数据时效性要求高于准确性

1)个性化推荐,用户行为需要实时反馈

你在浏览头条的时候,对推荐的内容点击了“不感兴趣”,相关的内容很快就隐藏了。同样,你在淘宝上搜索或加购了某个产品,再看列表页时,推荐的也都是相关内容。针对个性化推荐的场景,就要做到数据的最小延迟,如果等用户都退出App了数据才计算完成更新,用户就流失掉了。

2)用户运营及营销场景

在用户运营场景中,流失用户召回、会员运营等活动中,对数据时效性要求并没那么高,例如你要对某个城市的下单用户进行短信营销(apppush),不对今天当天下单的用户营销影响也不大。

而对于实时的场景触达,就需要实时数据了,例如,用户打开App,实时判断用户是否是新客(截至本次访问未下过单),发放新客大礼包。

所以在CDP用户运营平台的标签建设时,既需要有离线标签,也需要有实时标签。

3)选择依据小结

数据时效性的选择时,要看具体应用场景对准确性、时效性的要求,实时和离线数据的应用场景选择可以参考下图:

四、总结

不管是离线数据还是实时数据最终都是为了解决业务场景下的问题,搞懂其差别和基本原理后,再去选择到底是实时还是离线,可以做到用最小的资源成本达成业务目标,而不是一味地追求实时,或者永远只能离线。

#专栏作家#

数据干饭人,微信号公众号:数据干饭人,人人都是产品经理专栏作家。专注数据中台产品领域,覆盖开发套件,数据资产与数据治理,BI与数据可视化,精准营销平台等数据产品。擅长大数据解决方案规划与产品方案设计。

本文原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议

,
    推荐阅读
  • steam棋牌游戏推荐(幸运之夜新版本亮相TGC)

    steam棋牌游戏推荐12月1日,2017腾讯游戏嘉年华正式在成都开幕,腾讯的VR社交游戏《幸运之夜》在现场发布了最新版本。VR《幸运之夜》在TGC2017上惊艳亮相《幸运之夜》新版本发布邀请好友一起游戏今年7月底,《幸运之夜》正式在Steam发布,并推出了首款游戏作品“德州扑克”。今年的TGC2017现场,《幸运之夜》全新版本便带来了对互动性方面的提升。

  • 儿童睡前故事卖火柴的小女孩大全(卖火柴的小女孩)

    在长发公主的故事里,兔子小姐变成了手持宝剑的骑士,穿过了山川和河流,战胜了地狱恶犬,最终救出了长着一头金黄色长发的熊猫先生。随着一阵空间的波动,熊猫先生和兔子小姐来到了冰天雪地的圣诞节。小女孩被这突如其来的变化惊呆了。熊猫先生没有回答,轻轻摸了摸小女孩的头。小女孩点燃了第二根火柴。熊猫先生和兔子小姐则来到壁炉前,商量起小女孩最后一个愿望。熊猫先生蹲下来,握起小女孩的手。

  • 怎样做ppr管快一点(PPR管安装方法及技巧)

    怎样做ppr管快一点PPR管安装方法及技巧首先准备好需要的材料:热熔机,小剪刀,ppr管,管件,手巾。一定要根据自己热熔ppr管的口径,准备相应的热熔头。清洁:清洁管材与管件的焊接段部位,建议用95%浓度酒精擦净。在熔接时间内迅速的将管材无旋转的垂直插入管件中,并维持5秒以上,然后按相应冷却时间冷却。热熔后做到横平竖直,美观大方。

  • 大托特包搭配技巧(大托特包搭配技巧简述)

    西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄搭配撞色托特包,优雅而不失俏皮,让气场变得灵动起来内搭白色连帽卫衣,减龄又可爱,接下来我们就来聊聊关于大托特包搭配技巧?大托特包搭配技巧西装外套+托特包复古时尚的格子,由黑白交错的条纹形成,文艺而又端庄。衬衫+托特包白色的衬衫休闲慵懒,给人一种空灵的感觉以及干净纯粹的气质。

  • 刘涛电视剧口碑(电视剧景气指数第一)

    还记得3月份刘涛在和周渝民主演的《大宋宫词》中扮嫩出演少妇被很多观众吐槽。万万没想到时隔数月,刘涛带着她的新剧《星辰大海》杀回来了。目前主要的剧情线在刘涛饰演的女主简爱身上。因为小时候意外发现母亲出轨的事,得知真相的父亲激愤之下杀死母亲并自杀,简爱因此成为了一个孤女。逃出傻子家的简爱在与姑姑的争执中误伤姑姑,从此开启逃命生涯。简爱从面馆辞职走投无路,误打误撞进入大公司之后面临着同事的故意刁难。

  • 外墙装修材料有哪些 外墙装修材料有哪些类型

    外墙涂料具有装饰性良好、耐污染耐老化以及施工维修容易和价格合理的特点。一般来说釉面外墙砖有亚光面与无光面两大类。它的装饰的效果也不错,有柚木色、深灰色等等可供选择。由于它的表面的肌理很清晰,所以色泽漂亮且装饰性极强。本站,中国知名大型装修平台,装修领导品牌。

  • 世界上有哪些花(世界上有哪些花 名字)

    瓜叶菊、香豌豆、夏兰、石竹、石蒜、荷花、翠菊、睡莲、福禄考、晚香玉、万寿菊、千日红、建兰、铃兰、报岁兰、香堇、大岩桐、水仙、小草兰、瓜叶菊、蒲包花、免子花、入腊红、三色堇、百日草、鸡冠花、一串红。孔雀草、大波斯菊、金盏菊、非洲凤仙花、菊花、非洲菊、观赏凤梨类、射干、非洲紫罗兰、天堂鸟、炮竹红、菊花、康乃馨、红掌、满天星、星辰花、三角梅、虞美人。

  • 长歌行李长歌母亲是谁杀的(长歌行李长歌的简介)

    下面更多详细答案一起来看看吧!长歌行李长歌母亲是谁杀的《长歌行》李长歌母亲是自杀的。李长歌,太子李建成之女,生母则是回纥王族。父母手足均死于玄武门之变,满怀愤恨的长歌凭高超武艺逃出皇宫,并在追捕过程中制造“坠崖假死”而逃生,其后女扮男装隐瞒身份流落民间,一心只想为父母复仇,在家和国的利害冲突中,最后放弃复仇,和阿诗勒隼一起成为了民族和解的使者。

  • 什么时候喝蛋白粉增肌效果最好(什么时候喝蛋白粉增肌效果最好)

    从长远来看,这种方法被证明可以促使肌肉明显增长。如果摄入量超过一定的阈值,蛋白质的合成就会受限。如果是以乳清饮料的形式摄入乳清蛋白,运动者可以在运动结束后立即饮用。按每公斤体重1克的标准,在健身前后立即摄入以及在运动后1小时内摄入可快速吸收的碳水化合物,可以明显抑制肌肉分解,并大大促进肌肉快速和明显的增长。在这种情况下,大量分泌的胰岛素促进了氨基酸向工作中的肌肉运输,为蛋白质合成奠定基础。

  • 窦骁周冬雨山楂树之恋结局(周冬雨18岁第一次出演)

    周冬雨18岁第一次出演要说最近最火的电影,非《少年的你》莫属,上映14天,已经收获了12.45亿的票房成绩,成为现阶段最强的票房黑马而作为该片主演的周冬雨和易烊千玺,也凭借在该片中的精彩演出,演技得到大众的进一步认可作为“。