数据中台01:数据中台的发展:什么是中台、什么是数据中台_数据不出中台是什么意思-程序员宅基地

技术标签: 数据中台  中台  

一、什么是中台

中台是2019年开始火起来的一个概念,它最早是由阿里在2015年提出的“大中台,小前台”战略中延伸出来的概念,灵感来源于一家芬兰的小公司Supercell——一家仅有300名员工,却接连推出爆款游戏,是全球最会赚钱的明星游戏公司。2015年年中,马云带领阿里巴巴集团高管,拜访了位于芬兰赫尔辛基的这家移动游戏公司,这家看似很小的公司,设置了一个强大的技术平台,来支持众多的小团队进行游戏研发。这样一来,他们就可以专心创新,不用担心基础却又至关重要的技术支撑问题。恰恰是这家小公司,开创了中台的“玩法”,并将其运用到了极致。
下面我们举个例子,通过IT行业的发展来进一步理解什么是中台?为什么要出现中台?

1、传统IT时代

在这里插入图片描述
在传统IT时代,无论项目如何复杂,都可以分为 前台 和 后台 两部分,简单明了。
每一个业务线负责维护自己的前台和后台。

这里的前台不仅仅包含前端页面,还包含提供的各种服务。

后台指的是底层的服务,例如我们提取的一些工具服务。

在当时,项目的发展相对稳定,并不需要像互联网时代那么快速的去迭代和试错,所以这种架构没有什么问题。

2、传统IT时代存在的问题

在这里插入图片描述
发展到现在这个时代,传统的前台+后台这种架构是存在一些问题的,每一个产品线之间都会有一些重复的内容,例如这里面的用户模块和支付模块,每一个产品线都需要,如果每一个产品线都是自己开发自己的,这样就会有三套用户模块和支付模块,对于集团公司而言,这就叫重复造轮子。如果后期又增加了新的产品线,还要重新再开发用户模块和支付模块。

所以说为了提高开发效率,我们有必要抽取出一个中间组织,为所有的产品线提供一些公共资源,这个中间组织就是中台。

下面来看一个引入了中台之后的案例。

在这里插入图片描述
本来是各个部门都建立了自己的数据采集,数仓,数据模型等内容,重复开发,浪费成本。各个部门的数据也没有打通,数据很难产生很大的价值。
引入了中台之后,构建了统一的数据采集、统一的数据资产中心、统一的数据建模、分析与挖掘、统一的数据服务,最终向各部门统一提供数据支撑。

3、阿里”大中台小前台架构 ”

接下来这个是阿里的大中台 小前台架构
在这里插入图片描述
阿里许多产品线的共通业务经过下沉,形成了中台的各种业务中心,为各大业务线提供支持。
这样前台应用就会更加灵活,想要构建一个新的前台应用也是比较快速容易的。

4、中台架构主要解决的问题

下面我们来总结一下中台这种架构主要解决的问题。

1、信息获取成本高,之前是每一个产品线都需要单独维护自己的数据,成本比较高。
2、服务具有不确定性,通过中台可以以不变应万变
3、互联互通成本高,不同产品线的数据想要打通成本过高。
4、低水平重复建设,不同产品线需要重复建设相同的模块。
通过中台,可以很好的解决这些问题。

5、中台的延伸

中台是一个大而全的概念,基于中台延伸出了多个方向
技术中台
移动中台
业务中台
数据中台
研发中台
组织中台
等等…

在这里我们可以把中台理解为航空母舰,这些中台都是基于这个航空母舰延伸出来的

1、技术中台提供了技术支撑能力,帮助我们解决了基础设施,分布式数据库等底层技术问题,为前台特种兵提供了精良的武器装备。

2、移动中台提供了战场一线火力支援能力,帮助我们提供更加个性化的服务,增强用户体验,为战场提供了陆军支援能力,随机应变,所向披靡。
注意:这里的移动中台并不是说这个中台会移动,这里的移动表示的是移动端的意思,就是手机端。

3、业务中台提供重用服务,例如用户中心,订单中心之类的开箱即用可重用能力,为战场提供了强大的后台炮火支援能力,随叫随到,威力强大。

4、数据中台提供了数据分析能力,帮助我们从数据中学习改进,调整方向,为战场提供了强大及时的雷达监测能力,帮助我们掌控战场。

5、研发中台提供了技术实践支撑能力,帮助我们快速搭建项目,管理进度,测试,持续集成,持续交付,是前台特种兵的训练基地及快速送达战场的机动运输部队。

6、组织中台为我们的项目提供投资管理、风险管理、资源调度等,是战场的指挥部,战争的大脑,指挥前线,调度后方。

6、阿里中台技术栈全景

接下来我们来看一下阿里的中台技术栈全景

在这里插入图片描述
最下面是一些基础设施和基础中间件
上层是业务中台和数据中台
其中业务中台里面是以业务进行区分,抽取出来的一些公共组件,
例如:会员中心,商品中心,交易中心、订单中心、支付中心、评价中心
后期如果新增的产品线需要用到这些功能的时候可以从业务总台中直接开箱即用,提高效率。
数据中台中包含大数据计算服务(包含离线和实时)、大数据开发套件(这里面包含的是一些小工具)、画像分析、数据可视化、数仓规则、数据服务等,可以实现数据的一站式接入和使用。
移动中台包含了很多移动端的公共组件和功能。
基于这些中台就可以快速为上层这些应用提供各种支持了。

二、什么是数据中台

前面我们讲了什么是中台,中台其实是一个统称,基于中台也延伸出了很多分支。
每一个分支深究起来都有很多内容,不过目前来说,在这些中台的分支里面,数据中台是最为火热的,因为数据是可以直接为企业决策提供支持,可以直接产生价值的。

下面我们就来具体分析一下什么是数据中台
针对数据中台的定义业内目前有很多种说法,没有官方的定义,不同的人有不同的理解。

通俗来讲数据中台是指利用大数据技术,对海量数据统一进行采集、计算、存储,并且对外提供数据服务。
数据中台的主要作用在于将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,对内对外提供一致的,高可用的大数据服务。

正式一点来说,可以这样理解
数据中台是一套可持续 ”让企业的数据用起来 ” 的机制
通过数据中台把数据变为一种服务能力,既能提升决策水平,又能直接支撑企业业务
数据中台不仅仅是技术,也不仅仅是产品,而是一套完整的让数据用起来的机制。
数据中台不是单纯的技术叠加,不是一个技术化的大数据平台,二者有本质区别。
大数据平台更关心技术层面的事情,包括研发效率,平台的大数据处理能力,针对的往往是技术人员
而数据中台的核心是数据服务能力,数据中台不仅面向技术人员,更需要面向多个部门的业务人员。

1、数据中台的演进过程

数据中台并不是直接就有的,也是根据时代的发展,企业的需求,一步一步演进出来的。
下面我们就来看一下数据中台的演进过程。

(1)数据库阶

最开始是 数据库阶段,主要是OLTP(联机事务处理)的需求;
以淘宝为例,最开始淘宝还只是一个简单的网站,淘宝的整个结构就是前端的一些页面,加上后端的数据库,只是个简单的OLTP系统,主要就是交易的事务处理。

这个阶段,互联网黄页才刚刚出现,数据来源大部分还是传统商业的ERP/CRM的结构化数据,数据量并不大,也就是GB的级别。简单的数据库就能满足需求。

随着淘宝用户超过100万,分析需求的比重就越来越大。淘宝需要知道它的交易来自于哪些地区,来自于哪些人,谁在买淘宝的东西等等,于是,就进入了数据处理的第二个阶段:数据仓库阶段。

(2) 数据仓库阶段

数据仓库阶段,OLAP(联机分析处理)成为主要需求;
OLTP和OLAP对数据存储和计算的需求是不一样的,OLTP处理的是结构化的交易数据,而OLAP对应的是互联网数据,而互联网里面数据量最大的是日志,90%以上的数据都是用户点击之类的非结构化的日志数据,而且数据量已经达到了TB的级别。

针对分析需求,就诞生了数据仓库,数据仓库主要解决大量数据的存储和计算需求,也就是把非结构化的数据转化成结构化数据,存储下来。

这个阶段,数据仓库支持的主要就是BI和报表需求。

随着数据量越来越大,从TB进入了PB级别,原来的技术架构越来越不能支持海量数据处理,这时候就进入了第三个阶段:数据平台阶段。

(3)数据平台阶段

主要解决BI和报表需求的技术问题;
这个阶段解决的还是BI和报表需求,但是主要是在解决底层的技术问题,也就是数据库架构设计的问题。

这在数据库技术领域被概括为「Shared Everything、Shared Nothing、或Shared Disk」,说的就是数据库架构设计本身的不同技术思路之争。

Shared Everything一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,典型的代表SQLServer。

Shared Disk的代表是Oracle RAC,用户访问RAC就像访问一个数据库,但是这背后是一个集群,RAC来保证这个集群的数据一致性。

问题在于Oracle RAC(实时应用集群)是基于IOE架构的(使用IBM的小型机、Oracle数据库、EMC存储设备)。在海量数据处理上,IOE架构有天然的限制,不适合未来的发展。

Shared Nothing的代表就是Hadoop。Hadoop的并行处理和扩展能力更好。

Hadoop的好处是如果要增加数据处理的能力和容量,只需要增加服务器就好,成本不高,在海量数据处理和大规模并行处理上有很大优势。

综上所述,第三阶段就是,建立Shared Nothing的海量数据处理平台来解决数据存储成本增长过快的问题。

(4)数据中台阶段

通过系统来对接OLTP(事务处理)和OLAP(报表分析)的需求,强调数据业务化的能力。
这个阶段的特征是数据量呈现指数级增长,从PB迈向了EB级别,未来会到什么量级,谁也说不清楚。

主要是因为,2015年之后,IOT(物联网)发展起来,带动了视频、图像、声音数据的增长,未来90%的数据可能都来自于视频、图像、声音这些非结构化数据,这些数据需要视觉计算技术、图像解析引擎+视频解析引擎+音频解析引擎来转换成结构化数据。5G技术的发展,可能会进一步放大视频、图像、声音数据的重要性。

线下要想和线上一样,通过数据来改善业务,就要和线上一样能做到行为可监测,数据可收集,这是前提。线下最大量的就是视频、图像、声音数据,而这些数据靠人来手工收集,肯定是不靠谱的,依靠IOT(物联网)技术和算法的进步,最终会通过智能端来自动化获取数据。

要使用这些数据,光有视觉算法和智能端也不行,要有云来存储和处理这些数据,以及打通其它领域的数据。

目前的数据中台,最底层的数据平台还是偏技术的,是中台技术方案的其中一个组件,主要解决数据存储和计算的问题;在往上面就是一层数据服务层,数据服务层通过服务化API能够把数据和前台的业务层对接;数据中台里面都是系统去做对接,通过智能算法,能把前台的分析需求和交易需求去做对接,最终赋能业务。

2、数据中台 VS 数据仓库

数据仓库主要支持管理决策和业务分析。
数据中台是将数据服务化之后提供给业务系统,目的是将数据能力渗透到各个业务环节,不限于决策分析类场景。
数据中台建设包含数据体系建设,也就是数据中台包含数据仓库的完整内容。
所以说数据仓库阶段的成果是可以转化到数据中台阶段的,并不会全部推倒重做。

3、数据中台需要具备的四大能力

根据我们前面对数据中台的分析,总结起来,数据中台需要具备以下能力:

(1)数据汇聚整合

随着业务的发展,企业内部往往有多个信息部门和数据中心,大量系统、功能和应用重复建设,存在巨大的数据资源、计算资源和人力资源的浪费,同时组织壁垒也会导致数据孤岛的出现,使得内外部数据难以全局规划,数据中台需要对数据进行整合和完善。

(2)数据提纯加工

数据就像石油,需要经过提纯加工才能使用,这个过程就是数据资产化。
数据中台必须联通全域数据,通过统一的数据标准和质量体系,建设提纯加工后的标准数据资产体系,以满足企业业务对数据的需求。

(3)数据服务可视化

为了尽快让数据用起来,数据中台必须提供快捷,快速的数据服务能力,让相关人员能够迅速开发数据应用,支持数据资产场景化能力的快速输出,以响应客户的动态需求。

(4)数据价值变现

数据中台通过打通企业数据,提供以前单个部门无法提供的数据服务能力,以实现数据的更大价值变现。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_40612128/article/details/123547396

智能推荐

linux里面ping www.baidu.com ping不通的问题_linux桥接ping不通baidu-程序员宅基地

文章浏览阅读3.2w次,点赞16次,收藏90次。对于这个问题我也是从网上找了很久,终于解决了这个问题。首先遇到这个问题,应该确认虚拟机能不能正常的上网,就需要ping 网关,如果能ping通说明能正常上网,不过首先要用命令route -n来查看自己的网关,如下图:第一行就是默认网关。现在用命令ping 192.168.1.1来看一下结果:然后可以看一下电脑上面百度的ip是多少可以在linux里面ping 这个IP,结果如下:..._linux桥接ping不通baidu

android 横幅弹出权限,有关 android studio notification 横幅弹出的功能没有反应-程序员宅基地

文章浏览阅读512次。小妹在这里已经卡了2-3天了,研究了很多人的文章,除了低版本api 17有成功外,其他的不是channel null 就是没反应 (channel null已解决)拜托各位大大,帮小妹一下,以下是我的程式跟 gradle, 我在这里卡好久又没有人可问(哭)![image](/img/bVcL0Qo)public class MainActivity extends AppCompatActivit..._android 权限申请弹窗 横屏

CNN中padding参数分类_cnn “相同填充”(same padding)-程序员宅基地

文章浏览阅读1.4k次,点赞4次,收藏6次。valid padding(有效填充):完全不使用填充。half/same padding(半填充/相同填充):保证输入和输出的feature map尺寸相同。full padding(全填充):在卷积操作过程中,每个像素在每个方向上被访问的次数相同。arbitrary padding(任意填充):人为设定填充。..._cnn “相同填充”(same padding)

Maven的基础知识,java技术栈-程序员宅基地

文章浏览阅读790次,点赞29次,收藏28次。手绘了下图所示的kafka知识大纲流程图(xmind文件不能上传,导出图片展现),但都可提供源文件给每位爱学习的朋友一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长![外链图片转存中…(img-Qpoc4gOu-1712656009273)][外链图片转存中…(img-bSWbNeGN-1712656009274)]

getFullYear()和getYear()有什么区别_getyear和getfullyear-程序员宅基地

文章浏览阅读469次。Date对象取得年份有getYear和getFullYear两种方法经 测试var d=new Date;alert(d.getYear())在IE中返回 2009,在Firefox中会返回109。经查询手册,getYear在Firefox下返回的是距1900年1月1日的年份,这是一个过时而不被推荐的方法。而alert(d.getFullYear())在IE和FF中都会返回2009。因此,无论何时都应使用getFullYear来替代getYear方法。例如:2016年用 getFullYea_getyear和getfullyear

Unix传奇 (上篇)_unix传奇pdf-程序员宅基地

文章浏览阅读182次。Unix传奇(上篇) 陈皓 了解过去,我们才能知其然,更知所以然。总结过去,我们才会知道我们明天该如何去规划,该如何去走。在时间的滚轮中,许许多的东西就像流星一样一闪而逝,而有些东西却能经受着时间的考验散发着经久的魅力,让人津津乐道,流传至今。要知道明天怎么去选择,怎么去做,不是盲目地跟从今天各种各样琳琅满目前沿技术,而应该是去 —— 认认真真地了解和回顾历史。 Unix是目前还在存活的操作系_unix传奇pdf

随便推点

ACwing 哈希算法入门:_ac算法 哈希-程序员宅基地

文章浏览阅读308次。哈希算法:将字符串映射为数字形式,十分巧妙,一般运用为进制数,进制据前人经验,一般为131,1331时重复率很低,由于字符串的数字和会很大,所以一般为了方便,一般定义为unsigned long long,爆掉时,即为对 2^64 取模,可以对于任意子序列的值进行映射为数字进而进行判断入门题目链接:AC代码:#include<bits/stdc++.h>using na..._ac算法 哈希

VS配置Qt和MySQL_在vs中 如何装qt5sqlmysql模块-程序员宅基地

文章浏览阅读952次,点赞13次,收藏27次。由于觉得Qt的编辑界面比较丑,所以想用vs2022的编辑器写Qt加MySQL的项目。_在vs中 如何装qt5sqlmysql模块

【渝粤题库】广东开放大学 互联网营销 形成性考核_画中画广告之所以能有较高的点击率,主要由于它具有以下特点-程序员宅基地

文章浏览阅读1k次。选择题题目:下面的哪个调研内容属于经济环境调研?()题目:()的目的就是加强与客户的沟通,它是是网络媒体也是网络营销的最重要特性。题目:4Ps策略中4P是指产品、价格、顾客和促销。题目:网络市场调研是目前最为先进的市场调研手段,没有任何的缺点或不足之处。题目:市场定位的基本参数有题目:市场需求调研可以掌握()等信息。题目:在开展企业网站建设时应做好以下哪几个工作。()题目:对企业网站首页的优化中,一定要注意下面哪几个方面的优化。()题目:()的主要作用是增进顾客关系,提供顾客服务,提升企业_画中画广告之所以能有较高的点击率,主要由于它具有以下特点

爬虫学习(1):urlopen库使用_urlopen the read operation timed out-程序员宅基地

文章浏览阅读1k次,点赞2次,收藏5次。以爬取CSDN为例子:第一步:导入请求库第二步:打开请求网址第三步:打印源码import urllib.requestresponse=urllib.request.urlopen("https://www.csdn.net/?spm=1011.2124.3001.5359")print(response.read().decode('utf-8'))结果大概就是这个样子:好的,继续,看看打印的是什么类型的:import urllib.requestresponse=urllib.r_urlopen the read operation timed out

分享读取各大主流邮箱通讯录(联系人)、MSN好友列表的的功能【升级版(3.0)】-程序员宅基地

文章浏览阅读304次。修正sina.com/sina.cn邮箱获取不到联系人,并精简修改了其他邮箱代码,以下就是升级版版本的介绍:完整版本,整合了包括读取邮箱通讯录、MSN好友列表的的功能,目前读取邮箱通讯录支持如下邮箱:gmail(Y)、hotmail(Y)、 live(Y)、tom(Y)、yahoo(Y)(有点慢)、 sina(Y)、163(Y)、126(Y)、yeah(Y)、sohu(Y) 读取后可以发送邮件(完..._通讯录 应用读取 邮件 的相关

云计算及虚拟化教程_云计算与虚拟化技术 教改-程序员宅基地

文章浏览阅读213次。云计算及虚拟化教程学习云计算、虚拟化和计算机网络的基本概念。此视频教程共2.0小时,中英双语字幕,画质清晰无水印,源码附件全课程英文名:Cloud Computing and Virtualization An Introduction百度网盘地址:https://pan.baidu.com/s/1lrak60XOGEqMOI6lXYf6TQ?pwd=ns0j课程介绍:https://www.aihorizon.cn/72云计算:概念、定义、云类型和服务部署模型。虚拟化的概念使用 Type-2 Hyperv_云计算与虚拟化技术 教改