spark2.x - 程序员宅基地

大数据笔记--Spark机器学习（第一篇）

三、Spark MLlib介绍 1、简介 2、MLlib基本数据类型 Ⅰ、概述 Ⅱ、本地向量 Ⅲ、向量标签的使用 Ⅳ、本地矩阵 Ⅴ、分布式矩阵的使用 3、MLlib统计量基础 Ⅰ、概述 Ⅱ、计算基本统计量 Ⅲ、计算相关系数 ...

Spark GraphX图计算框架原理概述

GraphX是Spark中用于图和图计算的组件，GraphX通过扩展Spark RDD引入了一个新的图抽象数据结构，一个将有效信息放入顶点和边的有向多重图。如同Spark的每一个模块一样，它们都有一个基于RDD的便于自己计算的抽象数据...

提高spark任务稳定性1 - Blacklist 机制

标签： spark 稳定性 blacklist

一个 spark 应用的产生过程：获取需求 -&amp;amp;gt; 编写spark代码 -&amp;amp;gt; 测试通过 -&amp;amp;gt; 扔上平台调度。往往应用会正常运行一段时间，突然有一天运行失败，或是失败了一次才...

Spark对HiveMetastore客户端的多版本管理、兼容性探究以及栅栏实现

标签： spark hive metastore

文章目录前言详述对Hive的基本调研对Hive In Spark的兼容性探究的起因升级以后的Spark能否正常工作？通过Shims来增量支持高版本的Hive 的接口变化Spark对Hive版本支持的灵活配置以loadDynamicPartitioins方法来了解...

Spark On Yarn中spark.yarn.jar属性的使用

refer: ... ...今天在测试spark-sql运行在yarn上的过程中，无意间从日志中发现了一个问题： spark-sql --master yarn 14/12/29 15:23:17 INFO Client: Requesting a new applicatio

解决Spark GraphX报错： java.lang.ArrayIndexOutOfBoundsException: -1

标签： spark java 大数据

最近用spark做了一个有关风险传导的算子，其中调用了GraphX进行计算，测试时用的数据量比较少，所以没有意外地执行完毕了。但是在数据量增加之后，首先报了shuffle读写不平衡的错，这是在图计算中产生的大量...

如何处理Spark数据倾斜

标签：数据倾斜

一、什么是数据倾斜在分布式集群计算中，数据计算时候数据在各个节点分布不均衡，某一个或几个节点集中80%数据，而其它节点集中20%甚至更少数据，出现了数据计算负载不均衡的现象。数据倾斜在MR编程模型中是十分...

Spark程序运行常见错误解决方法以及优化

标签： spark 大数据

执行spark任务遇到数据量巨大的表时，任务经常出现心跳超时报错 org.apache.spark.rpc.RpcTimeoutException: Cannot receive any reply in 120 seconds. This timeout is controlled by spark.rpc.askTimeout at ...

Spark：图（Graph）

标签： spark graph

目录图(Graph)的基本概念图的术语图的经典表示方法Spark GraphX创建Graph通过文件加载属性图应用图的算子图(Graph)的基本概念图是由定点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构。通常表示...

Spark3.0.1 结合CDH6.1.0 编译打包

标签： spark

0.下载spark代码 git clone https://github.com/apache/spark.git cdspark git checkout -b v3.0.1_cdh6.1.0 v3.0.1# 新开一个分支 1.添加Cloudera maven镜像及 Hadoop3.0 profile 在spark的...

MaxCompute Spark 使用和常见问题

标签： spark 大数据 hbase

一. MaxCompute Spark 介绍 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算... 社区原生Spark运行在MaxCompute里，完全兼容Spark的API，支持多个Spark版本同时运行统一的计算资源像MaxCompute SQL/MR等

Apache Zeppelin 中 Spark 解释器

标签： Zeppelin 0.7.2 中文文档

概述 Apache Spark是一种快速和通用的集群计算系统。它提供Java，Scala，Python和...Zeppelin支持Apache Spark，Spark解释器组由5个解释器组成。名称类描述％spark SparkInterpreter 创建一个Spa

Spark系列(一) —— SparkCore详解

标签： Spark

1. =》Spark 引入首先看一下MapReudce 计算和 Spark 计算的区别： MapReudce : 分布式计算框架缺点：执行速度慢，shuffle 机制：数据需要输出到磁盘，而且每次 shuffle 都需要进行排序操作框架的机制：只有 ...

【Spark】Spark错误记录

标签： spark

提交Spark任务到Yarn上运行，得到如下报错信息???? 研究了一会儿发现是自己粗心大意导致的，自己在本地IDEA跑多了，打包的时候忘记删除setMaster了，如下???? 虽然我们在提交任务到Yarn的时候，指定了Master，奈何...

Spark3.1.2 on k8s配置日志存储路径：spark-defaults.conf

标签： spark big data hadoop

Spark3.1.2 on k8s配置日志存储路径：spark-defaults.conf 使用的Hadoop版本是2.7.3 ...spark.yarn.historyServer.address=192.168.x.x:18080 spark.history.ui.port=18080 spark.eventLog.enabled true spark.eventLo

spark错题本

标签： spark scala big data

一，Task not serializable 原因：用了mysql的jdbc，其connect需要在各个服务器上单据创建，不能集群共享一个数据连接。下图中的driver和excutor不在同一台服务器，connection不能共享。

【六】Spark SQL中SparkSession的使用

标签： Spark SQL SparkSession

Spark2.X中Spark SQL的入口点：SparkSession。项目目录 pom.xml &lt;project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

spark程序报错：java.lang.IndexOutOfBoundsException

读入的text文档，x.split("\\|").toDF。如果最后一列（或最后几列）有空数据，map(x =&gt; x(lastone))，就会报数组越界的错，java.lang.IndexOutOfBoundsException。所以只要用x.split("\\|&...

spark大型项目实战:电商用户行为分析大数据平台（一）

标签：spark,大数据，电商，用户行为项目介绍：本项目主要用于互联网电商企业中，使用spark技术开发的大数据统计分析平台，对电商网站的各种用户行为（访问行为，购物行为，广告点击行为等）进行复杂的分析。用...

Spark 读写Hbase

标签： spark

启动 zookeeper----》hadoop----》hbase 创建hbase表student create 'student' ，'info' 添加数据 put 'student' ，'1' ，'info:name','James' ...put 'student' ，'2' ，'info:name','Smith' put 'studen

windows下安装spark + hadoop + pyspark

标签： spark hadoop big data

建议大家用JDK8 + hadoop2.7+ spark3.X，各个版本互相有依赖安装Java 到官网下载JDK 有一个问题：spark不支持最新的JDK，所以建议直接JDK8（似乎有说法高版本JDK带旧版本JDK？反正不支持就是了）安装在没有...

spark报错处理

Spark报错处理 1、问题：org.apache.spark.SparkException: Exception thrown in awaitResult 分析：出现这个情况的原因是spark启动的时候设置的是hostname启动的，导致访问的时候DNS不能解析主机名导致。问题...

《深入理解Spark》之并行度和参数(spark.default.parallelism)之间的关系

package ... import org.apache.spark.{SparkConf, SparkContext} class T1 { def f1(sc:SparkContext): Unit ={ val rdd = sc.parallelize(1 to 100,10) println("[原始RDD] rdd.partitions...

Spark Sql 分布式SQL引擎&&Pandas PySpark使用

标签： Spark Sql 分布式SQL引擎 Pandas PySpark使用

Spark Sql 分布式SQL引擎 Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在这个模式下，用户或...对应HiveServer2 于Hive 1.2.1中的。可以使用Spark或Hive附带的beeline脚本测试JDBC服务器启动...

基于Docker快速安装Spark及基础使用

标签： spark scala docker

基于Docker快速安装Spark及基础使用实战环境信息docker编排工具docker-compose安装使用官网指导方式安装（不推荐）使用国内镜像源安装(推荐)安装docker的spark镜像结果通过 Spark Shell 进行交互分析基础操作新建RDD...

学习笔记Spark（五）—— 配置Spark IDEA开发环境

标签： spark idea scala

一、配置Spark开发环境 1. 1、配置Spark开发依赖包创建一个Scala工程（scala插件及工程创建教程：https://www.cnblogs.com/frankdeng/p/9092512.html）点击菜单栏中的“File”->“Project Structure”，打开...

spark任务常见错误

标签： java kafka 开发语言

1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法：add export SPARK_LOCAL_IP="127.0.0.1" to ...

Spark DataFrame中na.drop()、drop()、filter(col.isNotNull())、filter(col.isNull())区别

标签： spark etl

@Author : Spinach | GHB ... 文章目录前言前言 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则...

【hive/beeline/spark】建表多分隔符，报：org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe

标签： hive hadoop spark

【hive/beeline/spark】建表多分隔符，报：org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe前言HIVE SHELL调整报错解决方案BEELINE调整报错解决方案SPARK调整解决方案后记前言大数据平台数据入湖逻辑...

Apache Spark：Task not serializable异常的排查和解决

标签： spark apache scala

当前内容主要为排查在排序的时候Spark突然出现的java.io.NotSerializableException问题，以及解决思路 2. 还原报错代码实体类：User import java.io.Serializable; public class User implements Serializable { ...

”spark2.x“ 的搜索结果

大数据笔记--Spark机器学习（第一篇）

Spark GraphX图计算框架原理概述

提高spark任务稳定性1 - Blacklist 机制

Spark对HiveMetastore客户端的多版本管理、兼容性探究以及栅栏实现

Spark On Yarn中spark.yarn.jar属性的使用

解决Spark GraphX报错： java.lang.ArrayIndexOutOfBoundsException: -1

如何处理Spark数据倾斜

Spark程序运行常见错误解决方法以及优化

Spark：图（Graph）

Spark3.0.1 结合CDH6.1.0 编译打包

MaxCompute Spark 使用和常见问题

Apache Zeppelin 中 Spark 解释器

Spark系列(一) —— SparkCore详解

【Spark】Spark错误记录

Spark3.1.2 on k8s配置日志存储路径：spark-defaults.conf

spark错题本

【六】Spark SQL中SparkSession的使用

spark程序报错：java.lang.IndexOutOfBoundsException

spark大型项目实战:电商用户行为分析大数据平台（一）

Spark 读写Hbase

windows下安装spark + hadoop + pyspark

spark报错处理

《深入理解Spark》之并行度和参数(spark.default.parallelism)之间的关系

Spark Sql 分布式SQL引擎&&Pandas PySpark使用

基于Docker快速安装Spark及基础使用

学习笔记Spark（五）—— 配置Spark IDEA开发环境

spark任务常见错误

Spark DataFrame中na.drop()、drop()、filter(col.isNotNull())、filter(col.isNull())区别

【hive/beeline/spark】建表多分隔符，报：org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe

Apache Spark：Task not serializable异常的排查和解决

推荐文章