从Hive迁移到SparkSQL，有赞的大数据实践

前言有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL ...

从 Hive 大规模迁移作业到 Spark 在有赞的实践

作者：胡加华团队：大数据团队一、前言在 2019 年 1 月份的时候，我们发表过一篇博客 SparkSQL在有赞大数据的实践，里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的...

大数据 | Spark on K8S 在有赞的实践

标签：大数据 spark kubernetes

随着近几年业务快速发展与迭代，大数据的成本也水涨船高，如何优化成本，建设低成本高效率的底层服务成为了有赞数据基础平台2020年的主旋律。本文主要介绍了随着云原生时代的到来，经历7年发展的有赞离线计算平台...

有赞大数据离线集群迁移实战

标签：大数据分布式 hadoop

作者：郭理想 & 任海潮部门：数据中台一、背景有赞是一家商家服务公司，向商家提供强大的基于社交网络的，全渠道经营的 SaaS 系统和一体化新零售解决方案。随着近年来社交电商的火爆...

SparkSQL 在有赞的实践

有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 ...

SparkSQL在有赞的实践

有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 ...

大数据离线集群数据迁移实战项目

标签：大数据 hadoop java

大数据离线集群数据迁移与元数据迁移

Kylin 迁移到 HBase 实践在小米的实践

背景小米Kylin生产环境部署的是基于社区2.5.2修改的内部版本，所依赖HBase集群是一个公共集群，小米内部很多离线计算服务共享使用该HBase集群。由于Kylin已经...

数据仓库—stg层_有赞数据仓库实践之路

标签：数据仓库—stg层

原标题：有赞数据仓库实践之路一、大数据环境下的有赞数仓关于数据仓库，在维基百科中将它定义为用于报表和数据分析的系统，是商务智能 Business Intelligence 的核心部分。在数据仓库诞生之初，它只被设计成面向...

有赞数据仓库实践之路

作者：叶瑞典团队：数据中台一、大数据环境下的有赞数仓关于数据仓库，在维基百科中将它定义为用于报表和数据分析的系统，是商务智能 Business Inte...

【实践案例分享】有赞数据仓库实践之路

作者：叶瑞典团队：数据中台一、大数据环境下的有赞数仓关于数据仓库，在维基百科中将它定义为用于报表和数据分析的系统，是商务智能 Business Inte...

全面认识当前市面99%的大数据技术框架（附:各大厂大数据技术应用文章）

标签：大数据 hadoop spark

大数据面试题(完整） 2020大数据面试题真题总结(附答案)：点击这里技术栈 Hadoop 万亿数据下 Hadoop 的核心竞争力：点击这里 HBase HBase应用与高可用实践：点击这里 Kafka 基于 Kafka 的实时计算引擎如何选择？...

Presto在大数据领域的实践和探索

本篇文章是作者作为Presto小白时期，经过调研、线上调试、生产环境稳定运行这个过程中大量的实践经验和资料检索，沉淀下来的一个读书笔记。本文从原理入门、线上调优、典型应用等几个方面为读者全面剖析Presto，希望...

“十年磨一剑”--有赞的HBase平台实践和应用之路 ...

有赞数据开发工程师赵原向大家分享了HBase在有赞的产品定位，重点介绍了有赞HBase和相关管控平台的研发建设、以及在HBase 1.2.6版本之上所做的改造、改造原因以及给业务实践带来的价值。以下内容根据演讲嘉宾视频...

“十年磨一剑”--有赞的HBase平台实践和应用之路

有赞数据开发工程师赵原向大家分享了HBase在有赞的产品定位，重点介绍了有赞HBase和相关管控平台的研发建设、以及在HBase 1.2.6版本之上所做的改造、改造原因以及给业务实践带来的价值。以下内容根据演讲嘉宾视频...

hive架构介绍、SQL引擎与NoSQL引擎的对比

hive架构介绍、SQL引擎与NoSQL引擎的对比什么是hive？什么是数据仓库？数据仓库的构建过程OLTP应用和OLAP应用数据仓库中的数据模型什么是hiveHIVE的体系结构hive的体系结构之元数据hive的体系结构之HQL的执行过程...

存储成本降低80%，有赞数据中台成本治理怎么做的？

标签：大数据编程语言 hadoop

导语 | 随着直播电商行业的兴盛，有赞业务高速发展。但同时数据仓库中存储资源和计算资源消耗也非常高，甚至一度超过了整个平台业务的增速，显然不是一个可持续发展的态势。本文是对有赞技术副总裁...