前言有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL ...
前言有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL ...
作者:胡加华团队:大数据团队一、前言在 2019 年 1 月份的时候,我们发表过一篇博客 SparkSQL在有赞大数据的实践,里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的...
作者:郭理想 & 任海潮部门:数据中台一、背景有赞是一家商家服务公司,向商家提供强大的基于社交网络的,全渠道经营的 SaaS 系统和一体化新零售解决方案。随着近年来社交电商的火爆...
有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 ...
有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 ...
背景 小米Kylin生产环境部署的是基于社区2.5.2修改的内部版本,所依赖HBase集群是一个公共集群,小米内部很多离线计算服务共享使用该HBase集群。由于Kylin已经...
原标题:有赞数据仓库实践之路一、大数据环境下的有赞数仓关于数据仓库,在维基百科中将它定义为 用于报表和数据分析的系统,是商务智能 Business Intelligence 的核心部分。在数据仓库诞生之初, 它只被设计成面向...
作者:叶瑞典团队:数据中台一、大数据环境下的有赞数仓关于数据仓库,在维基百科中将它定义为用于报表和数据分析的系统,是商务智能 Business Inte...
作者:叶瑞典团队:数据中台一、大数据环境下的有赞数仓关于数据仓库,在维基百科中将它定义为用于报表和数据分析的系统,是商务智能 Business Inte...
大数据面试题(完整) 2020大数据面试题真题总结(附答案):点击这里 技术栈 Hadoop 万亿数据下 Hadoop 的核心竞争力:点击这里 HBase HBase应用与高可用实践:点击这里 Kafka 基于 Kafka 的实时计算引擎如何选择?...
本篇文章是作者作为Presto小白时期,经过调研、线上调试、生产环境稳定运行这个过程中大量的实践经验和资料检索,沉淀下来的一个读书笔记。本文从原理入门、线上调优、典型应用等几个方面为读者全面剖析Presto,希望...
有赞数据开发工程师赵原向大家分享了HBase在有赞的产品定位,重点介绍了有赞HBase和相关管控平台的研发建设、以及在HBase 1.2.6版本之上所做的改造、改造原因以及给业务实践带来的价值。 以下内容根据演讲嘉宾视频...
有赞数据开发工程师赵原向大家分享了HBase在有赞的产品定位,重点介绍了有赞HBase和相关管控平台的研发建设、以及在HBase 1.2.6版本之上所做的改造、改造原因以及给业务实践带来的价值。 以下内容根据演讲嘉宾视频...
hive架构介绍、SQL引擎与NoSQL引擎的对比什么是hive?什么是数据仓库?数据仓库的构建过程OLTP应用和OLAP应用数据仓库中的数据模型什么是hiveHIVE的体系结构hive的体系结构之元数据hive的体系结构之HQL的执行过程...
导语 | 随着直播电商行业的兴盛,有赞业务高速发展。但同时数据仓库中存储资源和计算资源消耗也非常高,甚至一度超过了整个平台业务的增速,显然不是一个可持续发展的态势。本文是对有赞技术副总裁...