java读parquet文件乱码 - 程序员宅基地

Cloudera Manager安装CDH6教程-（二）搭建Cloudera和CDH6

手把手搭建CM和CDH

hive 添加字段_Hive分区表动态添加字段

场景描述：公司埋点项目，数据从接口服务写入kafka集群，再从kafka集群消费写入HDFS文件系统，最后通过Hive进行查询输出。这其中存在一个问题就是：埋点接口中的数据字段是变化，后续会有少量字段添加进来。这导致...

Hive元数据信息获取

放到mysql中存储，mysql中默认表被创建的时候用的是默认的字符集(latin1)，所以会出现中文乱码。（2）修改hive-site.xml中Hive读取元数据的编码（注意原先是否配置过）注意的是，之前创建的表的元数据已经损坏了，...

07-hive--高级部分1

标签： hadoop hive

hive学习的记录

SparkDF操作与SQL交互和相关函数整理

标签： sql spark python

通过读取文件创建DF二、保存文件三、DF相关API1.Action2.RDD类操作3.Excel类操作四、DF与SQL交互操作1.查询 select,selectExpr,where2.表连接 join,union,unionAll3.表分组 groupby,agg,pivot4.窗口函数、爆炸函数、...

实践数据湖iceberg 第十一课测试分区表完整流程(造数、建表、合并、删快照)

标签： big data

实践数据湖iceberg 第三课在sqlclient中，以sql方式从kafka读数据到iceberg 实践数据湖iceberg 第四课在sqlclient中，以sql方式从kafka读数据到iceberg（升级版本到flink1.12.7）实践数据湖iceberg 第五课 hive ...

史上最详细大数据基础知识

标签：大数据 mysql

大数据知识详解

1、Hive数据仓库——概念及架构

标签：数据仓库 hive 架构

文章目录Hive 1.2.1Hive 是什么 Hive 1.2.1 Hive 是什么 Hive是建立在Hadoop上的数据仓库基础

CDH6.3.2集群部署

标签： cdh

CDH 6.3.2 组件版本 Component Component Version Apache Avro 1.8.2 Apache Flume 1.9.0 Apache Hadoop 3.0.0 Apache HBase 2.1.4 HBase Indexer 1.5 Apache Hive ... K

【持续更新】NebulaGraph详细学习文档

标签：数据库数据库架构大数据

Nebula Graph图数据库的介绍、部署、数据导入、Supervisor进程守护Nebula Graph、部署Nebula Graph遇到的问题等

【H2O系列】H2O概述

标签： chrome插件 intellij idea spring boot

H2O 概述：开源，分布式内存机器学习平台为了社会和经济稳定，让每个人都可以使用 AI 非常重要H2O 的核心代码是用 Java 编写的，它的 REST API 允许从外部程序或脚本访问 H2O 的所有功能。该平台包括用于 R，Python...

Hive基础

标签： hive hadoop 数据仓库

本文主要是Hive基础知识包括什么是Hive以及存储结构等

大数据运维 (四) 大数据平台运维总结

标签： hive hadoop big data

大数据CDH的运维点点滴滴

hive学习-----基础介绍

标签： hive 数据仓库 big data

hive的框架介绍以及一些基础知识的介绍

Ada 私密社区小助手周报「2022-12-14」

下面是上周你的 CSDN 社交圈的总结：我关注的人中, 在过去一周点赞最多的博客是: 排名标题点赞数1 从idea中复制配置文件到外部或提交到svn中文乱码解决 1 2 ubuntu22.04安装deepin-wine报错：The following ...

大数据开发面试知识点复习2

标签：大数据面试 hadoop

1.4、Hadoop主要的配置文件1.5、Hadoop集群重要命令1.6、HDFS的垃圾桶机制1.7、HDFS写数据流程1.8、Hadoop读数据流程1.9、SecondaryNameNode的作用1.10、HDFS的扩容、缩容（面试）1．动态扩容1.1．基础准备1.2． ...

026 数据仓库

标签：数据仓库数据库数据挖掘

1、数据仓库数仓分层：ODS直接存放原始数据，DWD对数据进行清洗，DIM轻度汇总，DWS重度汇总，ADS提供报表数据；分层原因：简化复杂问题，减少重复开发，隔离原始数据；几个概念：1）数据集市部门级的，2）数据...

复习笔记一

标签：数据库 sql 服务器

数据开发复习笔记第一部分

HiveDay01

标签： hive

hive

Hive介绍

标签： hive 数据仓库 big data

文章目录Hive是什么Hive与传统数据库的比较Hive的存储格式Hive的四大常用存储格式存储效率及执行速度对比Hive操作客户端Hive的metastore Hive是什么 Hive是建立在Hadoop上的数据仓库的基础架构。...

Flink学习-HDFSConnector(StreamingFileSink)

Flink学习-HDFSConnector(StreamingFileSink) Flink系列文章 ... ... ...本文主要介绍Flink中的DataStream之HDFSConnector(StreamingFileSink)，包含概念介绍、源码解读、实际Demo，已经更新到最新的Flink 1.10。...

Hive教程-详细全部

标签： hive

第1章Hive基本概念 1.1 什么是Hive 1.2 Hive的优缺点 1.2.1 优点 1.2.2 缺点 1.3 Hive架构原理 1.4 Hive和数据库比较 1.4.1 查询语言 1.4.2 数据更新 1.4.3 执行延迟 1.4.4 数据规模 ...2.3.2 配置Met

ubuntu安装软件包及问题集锦apt

标签： ubuntu python linux

1.bash: add-apt-repository: command not found 原因:add-apt-repository包未安装解决：执行如下命令 sudo apt-get install software-properties-common python-software-properties 2.安装gcc 9 ...