spark2.x - 程序员宅基地

Spark-2.x 编译构建及配置安装

Spark-2.x 编译构建及配置安装 0. Spark-2.x 编译环境准备编译服务器：ip 编译目录：/data10/spark/ 1. Spark-2.x编译 a. note:提高Maven编译时的堆内存大小，防止编译过程中产生OOM异常,相关命令如下： ...

Spark On Yarn --jars/spark.yarn.jars 踩坑与提升spark submit速度

标签： spark yarn submit

Spark submit 可以选择 --jars 传入本地的jar也可以 --jars 传入HDFS的jar包，经过半下午的实验，终于搞清了两者的关系以及 spark.yarn.jars 和它们的区别二.--jars的使用 1.--jars 传入本地jar包 --jars a....

Hadoop3.x集成Spark

标签： spark hadoop big data

我们来看看如何在Hadoop3.x中集成Spark。 1. 下载与解压从镜像站下载下载地址，选择3.0.2版本。上传到服务器后解压到/app目录下 tar zxvf spark-3.0.2-bin-hadoop3.2.tgz -C /app # 修改目录名 cd /app # mv spark...

小白spark学习感悟 AND spark两大版本的比较！！！

标签： spark sparkSql Spark2

Spark2.x 与 Spark1.x 关系Spark2.x 引入了很多优秀特性，性能上有较大提升，API 更易用。在“编程统一”方面非常惊艳，实现了离线计算和流计算 API 的统一，实现了 Spark sql 和 Hive Sql 操作 API 的统一。Spark 2...

【Spark实战系列】sparkstreaming 结合 sparksql-2.x 实时写数据到 hive

标签： hive sparkstreaming spark2.3

今天主要来介绍一下SparkSql,2.x新版本操作hive的一个写法. Spark SQL 的功能之一是执行 SQL 查询.Spark SQL 也能够被用于从已存在的 Hive 环境中读取数据废话不多说,直接上代码: package spark import java....

Error while instantiating 'org.apache.spark.sql.hive.HiveExternalCatalog':

标签： spark-shell连接外部hive

使用spark-shell连接外部hive，出现下面错误： [diao@hadoop111 spark-2.1.1]$ bin/spark-shell 19/08/13 14:15:52 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using ...

java 覆盖jar默认配置_添加配置设置会覆盖所有默认的 spark.executor.extraJavaOptions 设置 - Azure ...

标签： java 覆盖jar默认配置

添加配置设置会覆盖所有默认的 spark.executor.extraJavaOptions 设置Adding a configuration setting overwrites all default spark.executor.extraJavaOptions settings03/10/2020本文内容问题Problem当通过在 ...

Hive On Spark搭建报错：Failed to create Spark client for Spark session xx: ..TimeoutException

FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session xxx: java.util.concurrent.TimeoutException: Client 'xxx ...

Spark ERROR: org.apache.spark.shuffle.FetchFailedException 问题追查

标签： spark

Spark ERROR: org.apache.spark.shuffle.FetchFailedException 问题追查

spark sql (一)-的这个variable.spark.sql.crossjoin.enabled = true 错误sql示例，不改数据库配置的案例

标签：数据库 sql spark

Detected implicit cartesian product for INNER join between logical plan variable.spark.sql.crossjoin.enabled = true的案例

Failed to load org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver: org/apache/hadoop/hive/cli/

标签： spark

Spark版本：2.4.0（未编译）执行 spark-sql 的 shell 脚本时，会报如下错误 [root@master bin]# sh spark-sql Warning: Failed to load org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver: org/apache/had...

升级ambari spark至spark3.0.2 bad substitution 和scala.MatchError: x.x (of class java.lang.String)...

标签： spark kafka big data

场景描述：由于业务要求想要使用Hudi，而hudi需要spark2.4.5+版本，canal+kafka+sss+hudi 当前版本: hdp3.1.4 hadoop 3.1.0 hive 3.1.0 spark 2.3.0 scala 2.11.8 原计划升级ambari,但发现ambari2.7.5spark版本为...

org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to scala.Tuple2

标签： spark 异常

今天在写spark 提数的时候遇到一个异常，如下Caused by: java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to scala.Tuple2 at $anonfun$1$$anonfun...

spark参数说明

spark.driver.maxResultSize 1g 对Spark每个action结果集大小的限制.。 spark.driver.memoryOverhead driverMemory * 0.10, with minimum of 384 为driver分配的堆外内存。支持on yarn和Kubernetes。 spark....

Spark开发-Spark内存溢出原因以及解决方式

标签： spark jvm java

Spark内存溢出堆内内存溢出堆外内存溢出堆内内存溢出具体说明Heap size JVM堆的设置是指java程序运行过程中JVM可以调配使用的内存空间的设置.JVM在启动的时候会自动设置Heap size的值，Heap size 的大小是Young ...

解决value sortByKey is not a member of org.apache.spark.rdd.RDD[Any, org.apache.spark.sql.Row]报错！...

标签： spark

spark2.3.0 hbase1.4.6 IDEA2019.1 输入数据源是多行的json格式的数据，利用如下代码进行处理： val session = SparkSession.builder().getOrCreate() import session.implicits._ val DF = session.read.json...

spark sql 中 java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.Gener

最近在做推荐系统的项目，使用了spark 2.0，需要给每个userid 推荐出一个list ，...org.apache.spark.SparkException: Failed to execute user defined function($anonfun$calcMaxSimilarity$2$1: (string, array) =>

WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading l

19/05/15 11:29:42 WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME. 19/05/15 11:29:42 WARN yarn.Client: Neither spark.yar...

Hadoop 1.x 和 Hadoop 2.x 有什么区别？

标签：大数据 hadoop

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系 ...

hive on spark 配置时报错：Job failed with java.lang.ClassNotFoundException: org.apache.spark....

标签： hive spark

1.执行sql语句，报错信息。 hive> insert into table student values(1,'abc'); Query ID = atguigu_20200814150018_318272cf-ede4-420c-9f86-c5357b57aa11 Total jobs = 1 Launching Job 1 out of 1 In order ...

Spark2x原理剖析（一）

标签： spark 大数据

Spark是基于内存的分布式计算框架。在迭代计算的场景下，数据处理过程中的数据可以存储在内存中，提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层...Spark2x的开源新特性请参考Spark2x开源新特性。

springboot2.x,3.x打jar包在spark yarn 集群上部署运行

标签： spark jar spring boot

/home/software/spark-3.1.2/bin/spark-submit --class cnki.bdms.servicespark.BdcServiceSparkApplication \ --conf spark.yarn.jars="hdfs://0.0.0.0:8020/spark/apps/jars/*,hdfs://0.0.0.0:8020/lib/*" \ --...

Spark Streaming2.3.x大数据企业级项目实战

标签： spark spark streaming spark安装

本课程为项目实战课，项目各个环节既深入讲解理论知识，又结合项目业务进行实操，从而达到一站式掌握大数据离线项目。

spark读取hive表异常

标签： spark hive

为了性能spark对元数据做了缓存，如果外部系统更新了元数据，spark使用时要更新缓存过的该表元数据. /** * Invalidates and refreshes all the cached data and metadata of the given table. For performance * ...

spark worker 启动失败 failed to launch org.apache.spark.deploy.worker.Worker

标签： spark

failed to launch org.apache.spark.deploy.worker.Worker

spark版本升级问题org.apache.spark.Logging

标签： spark版本升级问题

git下面有一个spark项目，用的版本是1.6.2，据说很稳定的一个版本，因为在2.0以后出来一个sparksession整合df和df 于是将spar库版本升到2.4.3，下面是遇到的问题 1.升级后找不到org.apache.spark.Logging。 1.6.2...

Futures timed out after [10 seconds]. This timeout is controlled by spark.executor.heartbeatInterva

标签： org.apache.spark.rpc.RpcTimeoutExce spark executors stderr Issue commun ERROR ApplicationMaster: Uncaught e

问题描述：提交spark-submit时，在ssh终端提交没有问题，但是在代码中ssh登陆后，再提交命令就出现以下问题了，开始怀疑是用户问题，但是如果是用户问题，那么我在ssh终端同一个用户执行又执行正确，故排除了此情况...

解决spark.rdd.MapPartitionsRDD cannot be cast to streaming.kafka010.HasOffsetRange问题

最近在做sparkstreaming测试的时候,自己出了一个小问题,记录下. 贴部分代码: package com.ybs.screen.test.data import java.lang import java.util.Properties import com.ybs.screen.constant.Constants import ...

Spark的master和worker之间的通信方式Akka

标签：大数据

akka是spark独有的node之间的RPC通信。 RPC主要是用在大型企业里面，因为大型企业里面系统繁多，业务线复杂，而且效率优势非常重要的一块，这个时候RPC的优势就比较明显了。 Spark在很多模块之间的通信选择是Scala...

漫谈大数据 - Spark SQL详解，参数调优

标签： spark sql

SparkSQL详解，底层原理，执行过程，参数调优

”spark2.x“ 的搜索结果

Spark-2.x 编译构建及配置安装

Spark On Yarn --jars/spark.yarn.jars 踩坑与提升spark submit速度

Hadoop3.x集成Spark

小白spark学习感悟 AND spark两大版本的比较！！！

【Spark实战系列】sparkstreaming 结合 sparksql-2.x 实时写数据到 hive

Error while instantiating 'org.apache.spark.sql.hive.HiveExternalCatalog':

java 覆盖jar默认配置_添加配置设置会覆盖所有默认的 spark.executor.extraJavaOptions 设置 - Azure ...

Hive On Spark搭建报错：Failed to create Spark client for Spark session xx: ..TimeoutException

Spark ERROR: org.apache.spark.shuffle.FetchFailedException 问题追查

spark sql (一)-的这个variable.spark.sql.crossjoin.enabled = true 错误sql示例，不改数据库配置的案例

Failed to load org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver: org/apache/hadoop/hive/cli/

升级ambari spark至spark3.0.2 bad substitution 和scala.MatchError: x.x (of class java.lang.String)...

org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to scala.Tuple2

spark参数说明

Spark开发-Spark内存溢出原因以及解决方式

解决value sortByKey is not a member of org.apache.spark.rdd.RDD[Any, org.apache.spark.sql.Row]报错！...

spark sql 中 java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.Gener

WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading l

Hadoop 1.x 和 Hadoop 2.x 有什么区别？

hive on spark 配置时报错：Job failed with java.lang.ClassNotFoundException: org.apache.spark....

Spark2x原理剖析（一）

springboot2.x,3.x打jar包在spark yarn 集群上部署运行

Spark Streaming2.3.x大数据企业级项目实战

spark读取hive表异常

spark worker 启动失败 failed to launch org.apache.spark.deploy.worker.Worker

spark版本升级问题org.apache.spark.Logging

Futures timed out after [10 seconds]. This timeout is controlled by spark.executor.heartbeatInterva

解决spark.rdd.MapPartitionsRDD cannot be cast to streaming.kafka010.HasOffsetRange问题

Spark的master和worker之间的通信方式Akka

漫谈大数据 - Spark SQL详解，参数调优

推荐文章