java读parquet文件乱码 - 程序员宅基地

kali视频学习笔记

kali学习笔记

1-3 交互式查询工具Impala

一、Impala概述 1.1 什么是Impala Impala是Cloudera提供的一款开源的针对HDFS和HBASE中PB级别数据进行交互式实时查询（Impala速度快），Impala是参照谷歌中新三篇论文中Dremel实现而来，其中旧三篇论文分别是...

Spark Sql(DataFrame 创建与保存、Mysql 数据库的读取与写入、Hive 数据仓库的读取与写入)

标签： spark scala sql

1. maybe a semicolon is missing before `value toDF'? 2. DataFrame 创建与保存 3. Mysql 数据库的读取与写入 4. Hive 数据仓库的读取与写入

大数据课程基础与商城,共享单车,互联网广告实战视频

标签：购物车 JavaSE HDFS

├─01-JavaSE基础-15天 │ ├─javaSE-day01 │ │ 01.什么是计算机软件——计算机能看懂的描述特定功能的剧本.mp4 │ │ 02.什么数据软件开发--利用编程语言来写剧本.mp4 │ │ 03....│ │ 04....│ │ 05....

数仓之新零售项目

标签：数据仓库数据库开发

新零售项目1.新零售概述1.1行业背景1.2业务模块介绍1.3clouderamanager工具介绍1.4项目环境部署操作1.5数据仓库的基本概念2.维度分析2.1维度分析的基本介绍3.数仓建模3.1数仓建模概念3.2常见的数仓建模理论3.3事实表...

目前最新《最新大数据24期共十天附课件源码》

课程目录：大数据24期-01-JavaSE基础-15天第一天： 01.什么是计算机软件 02.什么数据软件开发--利用编程语言来写剧本 03.什么是jdk--怎么安装jdk 03.什么是jdk--怎么安装jdk ...07.第一个java编程作品--HelloWor...

如何获取Hive库表字段分区信息

标签： hive hdfs

所以直接使用Mysql去读，Hive在Mysql保存的信息如下图所示：获取Hive的所有数据库信息 &emsp；如果注释字段中文乱码，则需要修改字符集（正常情况都需要修改）。 SELECT `NAME` NAME, ANY_VALUE ( `DESC` ...

面经总结(大数据开发相关)

标签：大数据

整理收集一些面试遇到的简单问题

Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)

标签： hive hadoop big data

第一种方式：配置文件向识别的网卡兼容 1、通过一个主机复制出多个主机 2、开启复制的主机，启动时选择“复制” 3、启动后查看IP ifconfig 查看系统识别的网卡 Ifconfig -a 这里ifconfig看不到IP 是因为系统...

Spark Sql之基础知识

标签： spark 大数据

Spark Sql之基础知识一、Spark SQL概述 Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块 Spark SQL比Spark core执行效率快，内部做了一些额外的优化 Spark SQL 它提供了2个编程抽象, 类似 ...

大数据-案例-离线数仓-电商：【MySQL(业务)-ETL(Kettle)】+【前端JS埋点-＞日志-＞Flume-＞HDFS-＞ETL...

标签：大数据数据仓库

大数据-BI案例（二）-电商：数据仓库+OLAP【MySQL-ETL(Kettle)-＞ Hive（ODS层-数据清洗-＞DW层（DWD-统计分析-＞DWS））-导出结果-＞MySQL】-＞可视化

sparksql性能调优

spark.sql.codegen 默认值为false，当它设置为true时，Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢？它可以提高大型查询的性能，但是如果进行小规模的查询的时候反而会变慢

Hive

标签： hive

尚硅谷大数据技术之Hive (作者：尚硅谷大数据研发部) ...Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序所有的MR模...

数仓环境搭建及案例

标签：大数据 docker hadoop

1.安装Docker 1.查看版本 cat /etc/redhat-release #查看centos版本 2.添加yum源 yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo ...

大数据学习-离线数仓项目实战笔记（上）

标签： hadoop 大数据数据仓库

1. 前置 1.1. 软件版本产品版本 Hadoop 2.9.2 Hive 2.3.7 Flume 1.9 DataX 3.0 Airflow 1.10 Atlas 1.2.0 Griffin 0.4.0 Impala impala-2.3.0-cdh5.5.0 ...√ seconderyna

sqoop 导入MySQL数据到Hive

注意：部署sqoop和hive的时候，需要将hive和sqoop部署到同一节点上。不然使用sqoop导入数据的时候会报错。错误示例如下： Database Class Loader started - derby.database.classpath='' ...java....

hive

尚硅谷大数据技术之Hive ...Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序图1-1 HQL转换MR流程 1）Hive处理的数据存...

hive基础命令和配置

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层的实现是MapReduce 3）执行...

Hive基本概念

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层的实现是MapReduce 3）执行...

简单介绍Hadoop实操

标签：大数据

Hadoop实操这是Fayson创建的学习交流的公众号,包含非常多优质hadoop相关的文章. 新的一年希望自己能够好好学习Hadoop实操里的所有内容,并整理出对应的文档,整理对应的blog. lcz加油! 这是hadoop实操的汇总文章的...

MySQL spark离线计算_Spark SQL实现日志离线批处理

标签： MySQL spark离线计算

一、基本的离线数据处理架构：数据采集 Flume：Web日志写入到HDFS数据清洗脏数据 Spark、Hive、MR等计算框架来完成。清洗完之后再放回HDFS数据处理按照需要，进行业务的统计和分析。也通过计算框架完成处理结果...

数据仓库——上篇

标签：大数据

文章目录一、数仓分层1.1 数仓的分层1.1.1 ODS(原始数据层)层1.1.2 DWD(数据明细层)层1.1.3 DWS(数据服务层)1.1.4 DWT(数据主题层)1.1.5 ADS（数据应用层）1.1.6 总结二、数仓理论2.1 范式、2.2 函数依赖2.3 常见的...

从入门到精通 - Fayson带你玩转CDH

Fayson保持每天推一篇文章，本文随之每天更新。 ... 还没附上超链接的文章是还没上传的，会再后续更新后陆续补上 1.规划设计 1.1.on-premise部署规划 0001-《CDH网络要求(Lenovo参考架构)》 0062-《如何为Hadoop集群...

Hive第五天：解决数据倾斜问题、Hive并行优化、严格模式、JVM重用、推测执行、Hive压缩、执行计划（Explain...

标签： Hive Hive优化 Hive数据倾斜

接上篇第9章的9.3.10：Hive第四天：Hive函数、Hive压缩配置、Hive文件存储格式、Orc与Parquet、Hive企业级调优、Hive大小表Join、MapJoin、GroupBy、行列过滤去重统计、动态分区调整 9.4数据倾斜 9.4.1合理设置Map...

大数据技术之Hive

标签： hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层的实现是MapReduce 3）执行...

大数据开发笔记

大数据开发笔记0 Brief1 Java2 SQL3 大数据技术底层原理FlumeKafkaFlinkKuduHbaseImpalaHiveParquet 0 Brief Hadoop业务的整体开发流程： Hadoop Hadoop是一个开源框架来存储和处理大型数据在分布式环境中。它包含...

邵奈一的技术博客导航

标签：学习指导报错解决

导航我的博客，整理出来，方便导航~

【Spark实战】慕课网日志分析（三）：清理后数据的存储、统计和入库

标签： spark 慕课网日志分析

coalesce(1)保证只有一个输出文件 mode(SaveMode.Overwrite)保证能够覆盖原有文件 package com.imooc.log import org.apache.spark.sql.{SaveMode, SparkSession} /** * 使用Spark完成我们的数据清洗操作 */ ...

单机到集群安装ambari

标签： ambari

1 单机到集群安装ambari ambari单机到集群安装，通过VM虚拟机安装。 1.1 文档规范代码块和vi编辑块用灰色区域标记 $后跟的linux命令 2 安装准备 2.1 节点分配操作系统：CentOS7.5 节点分配如下表 ...2.2...

”java读parquet文件乱码“ 的搜索结果

kali视频学习笔记

1-3 交互式查询工具Impala

Spark Sql(DataFrame 创建与保存、Mysql 数据库的读取与写入、Hive 数据仓库的读取与写入)

大数据课程基础与商城,共享单车,互联网广告实战视频

数仓之新零售项目

目前最新《最新大数据24期共十天附课件源码》

如何获取Hive库表字段分区信息

面经总结(大数据开发相关)

Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)

Spark Sql之基础知识

大数据-案例-离线数仓-电商：【MySQL(业务)-ETL(Kettle)】+【前端JS埋点-＞日志-＞Flume-＞HDFS-＞ETL...

sparksql性能调优

Hive

数仓环境搭建及案例

大数据学习-离线数仓项目实战笔记（上）

sqoop 导入MySQL数据到Hive

hive

hive基础命令和配置

Hive基本概念

简单介绍Hadoop实操

MySQL spark离线计算_Spark SQL实现日志离线批处理

数据仓库——上篇

从入门到精通 - Fayson带你玩转CDH

Hive第五天：解决数据倾斜问题、Hive并行优化、严格模式、JVM重用、推测执行、Hive压缩、执行计划（Explain...

大数据技术之Hive

大数据开发笔记

邵奈一的技术博客导航

【Spark实战】慕课网日志分析（三）：清理后数据的存储、统计和入库

单机到集群安装ambari

推荐文章