kali视频学习笔记
标签: kali linux
标签: kali linux
一、Impala概述 1.1 什么是Impala Impala是Cloudera提供的一款开源的针对HDFS和HBASE中PB级别数据进行交互式实时查询(Impala速度快),Impala是参照谷歌中新三篇论文中Dremel实现而来,其中旧三篇论文分别是...
1. maybe a semicolon is missing before `value toDF'? 2. DataFrame 创建与保存 3. Mysql 数据库的读取与写入 4. Hive 数据仓库的读取与写入
├─01-JavaSE基础-15天 │ ├─javaSE-day01 │ │ 01.什么是计算机软件——计算机能看懂的描述特定功能的剧本.mp4 │ │ 02.什么数据软件开发--利用编程语言来写剧本.mp4 │ │ 03....│ │ 04....│ │ 05....
课程目录: 大数据24期-01-JavaSE基础-15天 第一天: 01.什么是计算机软件 02.什么数据软件开发--利用编程语言来写剧本 03.什么是jdk--怎么安装jdk 03.什么是jdk--怎么安装jdk ...07.第一个java编程作品--HelloWor...
标签: 大数据
Spark Sql之基础知识 一、Spark SQL概述 Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块 Spark SQL比Spark core执行效率快,内部做了一些额外的优化 Spark SQL 它提供了2个编程抽象, 类似 ...
大数据-BI案例(二)-电商:数据仓库+OLAP【MySQL-ETL(Kettle)-> Hive(ODS层-数据清洗->DW层(DWD-统计分析->DWS))-导出结果->MySQL】-> 可视化
spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢?它可以提高大型查询的性能,但是如果进行小规模的查询的时候反而会变慢
尚硅谷大数据技术之Hive (作者:尚硅谷大数据研发部) ...Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 所有的MR模...
1.安装Docker 1.查看版本 cat /etc/redhat-release #查看centos版本 2.添加yum源 yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo ...
1. 前置 1.1. 软件版本 产品 版本 Hadoop 2.9.2 Hive 2.3.7 Flume 1.9 DataX 3.0 Airflow 1.10 Atlas 1.2.0 Griffin 0.4.0 Impala impala-2.3.0-cdh5.5.0 ...√ seconderyna
注意:部署sqoop和hive的时候,需要将hive和sqoop部署到同一节点上。不然使用sqoop导入数据的时候会报错。 错误示例如下: Database Class Loader started - derby.database.classpath='' ...java....
尚硅谷大数据技术之Hive ...Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 图1-1 HQL转换MR流程 1)Hive处理的数据存...
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行...
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行...
标签: 大数据
Hadoop实操 这是Fayson创建的学习交流的公众号,包含非常多优质hadoop相关的文章. 新的一年希望自己能够好好学习Hadoop实操里的所有内容,并整理出对应的文档,整理对应的blog. lcz加油! 这是hadoop实操的汇总文章的...
一、 基本的离线数据处理架构:数据采集 Flume:Web日志写入到HDFS数据清洗 脏数据 Spark、Hive、MR等计算框架来完成。 清洗完之后再放回HDFS数据处理 按照需要,进行业务的统计和分析。 也通过计算框架完成处理结果...
文章目录一、数仓分层1.1 数仓的分层1.1.1 ODS(原始数据层)层1.1.2 DWD(数据明细层)层1.1.3 DWS(数据服务层)1.1.4 DWT(数据主题层)1.1.5 ADS(数据应用层)1.1.6 总结二、数仓理论2.1 范式、2.2 函数依赖2.3 常见的...
Fayson保持每天推一篇文章,本文随之每天更新。 ... 还没附上超链接的文章是还没上传的,会再后续更新后陆续补上 1.规划设计 1.1.on-premise部署规划 0001-《CDH网络要求(Lenovo参考架构)》 0062-《如何为Hadoop集群...
接上篇第9章的9.3.10:Hive第四天:Hive函数、Hive压缩配置、Hive文件存储格式、Orc与Parquet、Hive企业级调优、Hive大小表Join、MapJoin、GroupBy、行列过滤去重统计、动态分区调整 9.4数据倾斜 9.4.1合理设置Map...
标签: hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行...
大数据开发笔记0 Brief1 Java2 SQL3 大数据技术底层原理FlumeKafkaFlinkKuduHbaseImpalaHiveParquet 0 Brief Hadoop业务的整体开发流程: Hadoop Hadoop是一个开源框架来存储和处理大型数据在分布式环境中。它包含...
导航我的博客,整理出来,方便导航~
标签: ambari
1 单机到集群安装ambari ambari单机到集群安装,通过VM虚拟机安装。 1.1 文档规范 代码块和vi编辑块用灰色区域标记 $后跟的linux命令 2 安装准备 2.1 节点分配 操作系统:CentOS7.5 节点分配如下表 ...2.2...