spark2.x - 程序员宅基地

Spark1.x编译与安装

标签： spark

1. Spark1.x编译与安装 1.1. 基础准备见《1、基础准备（JDK、Maven、服务器配置）》。 1.2. Hadoop集群准备见《2、Hadoop2.2.0 编译与安装》 1.3. Scala安装 1) 下载集群中每台机器安装Scala；Scala官方下载...

spark-sql调优

标签： spark-sql

sparksql性能调优性能优化参数代码实例 import java.util.List; ...import org.apache.spark.SparkConf;...import org.apache.spark.api.java....import org.apache.spark.sql.api.java.JavaSQLContext

Spark常用端口号

2）Spark Master内部通信服务端口号：7077 （类比于Hadoop的8020（9000）端口） 3）Spark Standalone模式Master Web端口号：8080（类比于Hadoop YARN任务运行情况查看端口号：8088） 4）Spark历史服务器端口号：...

Chapter 2: Developing Applications with Spark Chapter 3: External Data Sources Chapter 4: Spark SQL Chapter 5: Spark Streaming Chapter 6: Getting Started with Machine Learning using MLlib Chapter 7: ...

Spark报Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResultSize

标签： spark

Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResultSize 1024M. Total size of serialized results of 12082 tasks is bigger than spark.driver.maxResultSize 1024M. Total ...

Spark DPP(动态分区裁剪)导致的DataSourceScanExec NullPointerException问题分析以及解决

标签： spark big data scala

本文基于spark 3.1.2,且运行在yarn模式下最近在调试 spark sql的时候遇到了空指针的问题，如下： Caused by: java.lang.NullPointerException at org.apache.spark.sql.execution.DataSourceScanExec.$init$...

Spark安装出错问题

标签： spark

Spark安装出错问题 1.环境 1.centos 7.0版本 2.jdk 1.8 3.hadoop 2.9.3 4.spark 2.4.3 spark-2.4.3-bin-without-hadoop.tgz 2.出现的问题 1.Spark-shell终端出错报错 Exception in thread "main" java.lang....

Spark3.2.* spark-shell在windows启动失败原因characterIllegal character in path at index

标签： spark windows 大数据

碰到这个问题也是一脸懵逼，刚开始以为是自己的环境问题，但是pyspark就没什么问题，后来在StackOverFlow中找到了解决方案 ...启动两个spark，一个master，然后用spark-shell连接masterspark-class org.apache.spa

FlinkCDC-Hudi:Mysql数据实时入湖全攻略二：Hudi与Spark整合时所遇异常与解决方案

标签： spark apache big data

在Hudi与Spark整合的过程中，会有不少坑。本文记录Hudi与Spark整合过程中发现的坑点及其解决方案。

Spark性能调优案例

标签： spark big data 大数据

除了对业务的理解之外，对于Spark本身的机制也要深入理解，这样才能通过各种调整，充分发挥Spark的优势，达成调优的目的。下面以一个案例尝试总结常用的Spark调优思路和实践。案例数据来源极客时间Spark 性能调优...

shell脚本安装jdk、mysql、hadoop、zookeeper、hbase、hive、spark...大一统

标签： shell脚本

shell脚本安装jdk、mysql、hadoop、zookeeper、hbase、hive、spark...大一统一、准备工作二、安装脚本及相关配置文件2.1 安装 jdk2.2 安装 mysql2.3 安装 hadoop2.4 安装 zookeeper2.5 安装 hbase2.6 安装hive2.7 ...

用IDEA开发spark应用，发生java.lang.ClassNotFoundException的解决

标签： java.lang.ClassNotFoundExcepti

在完成集群配置之后，我写了下面的demo进行测试如果把“spark://master:7077”变为local[2]就能正常运行，但是修改为spark集群就报错demo案例如下：package com.keduox import org.apache.spark.{SparkConf, ...

spark1.6+elasticsearch5.x 底层jar冲突

标签： spark elasticsearch

spark1.6.3 elasticsearch 5.4 bulk api ``` (Netty4Utils:117)-NoSuchMethodError io.netty.buffer.CompositeByteBuf.addComponents(ZLjava/lang/Iterable;)Lio/netty/buffer/CompositeByteBuf; at ...

spark读取Oracle教程

一、pom.xml中配置 <dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc6</artifactId> <version>11.2.0.3</version>...二、show the code...

spark-各版本特性

标签： spark 特性

0.3 Save Operations You can now save distributed datasets to the Hadoop filesystem (HDFS), Amazon S3, Hypertable, and any other storage system supported by Hadoop. There are convenience methods for se...

Spark运维中遇到的问题

标签： spark big data

查了一下应该是log的jar包冲突把hive-jdbc-2.1.1-cdh6.3.2-standalone.jar 这个jar包换了个名字再运行spark-shell 就可以了。以上提交参数中的--num-executors 40没有生效，executors 大于40并且占满yarn资源，...

spark 1.5.x Unable to acquire 33554432 bytes of memory

标签： spark spark-issu

java.io.IOException: Unable to acquire 33554432 bytes of memory修改spark.sql.tungsten.enabled false 在1.6进行修复https://issues.apache.org/jira/browse/SPARK-10309#userconsent#

[CDH] Spark 属性、内存、CPU相关知识梳理

标签： spark scala big data

文章目录spark properties常用配置spark taskspark task 使用的cpu核数spark architecturespark memoryspark on yarn问题1：什么情况下使用spark.executor.memoryOverhead问题2:什么情况下使用spark.executor.memory...

大数据——Spark GraphX介绍

标签：大数据 spark graphx

Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。众所周知，社交网络中人与人之间有很多关系链，例如Twitter、Facebook、...

MaxCompute Spark开发指南

标签： MaxCompute hadoop spark

MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务，它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持用户以熟悉的开发使用方式提交运行Spark作业，以满足更丰富的数据处理分析场景。...

Spark读取文件，报错java.lang.ArrayIndexOutOfBoundsException

在 Spark 解析文件的时候，忽然报错 java.lang.ArrayIndexOutOfBoundsException。排查问题，也没发现有任何的异常。最后发现文件中，有一行数据的最后一个字段是空的，没有数据的，如下所示： 95009,梦圆圆,女,18,MA...

拼写错误：value countBykey is not a member of org.apache.spark.rdd.RDD[(String, Int)]

标签： spark scala Windows

今天写了一行代码，感觉很简单啊，怎么报错呢，后来一看是一个超级低级错误，大小写搞错了,countByKey写成了countBykey，所以Spark的算子大小写一定不要搞错，有可能会报上面的错误。scala> sc.textFile("E:\\...

Sparksql 一个错误：org.apache.spark.sql.AnalysisException: character '　' not supported here;

标签： sparksql

遇到如下错误，但是在hive中单独运行，或者是在spark-shell中单独运行的也是毫无问题的，为何偏偏在sparksql中出问题，而且不存在所说的那个 character ’　’ 。还有就是我这个临时表本来是采用insert overwrite...

Spark Sql 相关设置及调优

标签： spark sql hive

Spark Sql 相关设置及调优...-- Spark 2.x 版本中默认不支持笛卡尔积操作，需要手动开启 set spark.sql.crossJoin.enabled=true; 设置 shuffle 的并行度因为笛卡尔积会产生 shuffle，默认的 shuffle 结果分区是 200

Spark 推测执行

Spark 推测执行是一种优化技术。在Spark中，可以通过推测执行，即Speculative Execution，来识别并在其他节点的Executor上重启某些运行缓慢的Task，并行处理同样的数据,谁先完成就用谁的... 2. 使用推测执行时应谨...

Cloudera Manager拓展SPARK2-2.3.0.cloudera3-1.cdh5.6.0.p0.1-el6.parcel

标签： spark 运维 cloudera

网上的资料提供的下载地址下载不了，只能基于原有的SPARK2-2.3.0.cloudera2-1.cdh5.13.3.p0.316101-el7.parcel修改从头制作可以参考如下参考地址1 二、开始适配 1.parcel包制作包名规则：以SPARK2-2.3.0....

Spark SQL

标签： spark sql 大数据

新手入门文章

spark-ml和jpmml-sparkml生成pmml模型过程种遇到的问题

需求：利用pmml(预测模型标记语言)来实现跨平台的机器学习模型部署。 pmml简介：参考链接1 如何将模型生成pmml格式：参考链接3 1、成功的写法：将数据的各种transform和模型全部都放...import org.apache.spark...

Spark 任务常见错误以及解决方案

标签： spark 大数据

Table or view not found: aaa.bbb The column number of the existing table dmall_search.query_embedding_data_1(struct<>) doesn’t match the data schema(struct<user_id:string,dt:string,sku_list:...

Spark运行程序异常信息： org.apache.spark.SparkException: Task not serializable 解决办法

标签： Spark 错误信息Task not s

Spark 运行程序异常信息： org.apache.spark.SparkException: Task not serializable 解决办法

”spark2.x“ 的搜索结果

Spark1.x编译与安装

spark-sql调优

Spark常用端口号

Spark.Cookbook.1783987065

Spark报Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResultSize

Spark DPP(动态分区裁剪)导致的DataSourceScanExec NullPointerException问题分析以及解决

Spark安装出错问题

Spark3.2.* spark-shell在windows启动失败原因characterIllegal character in path at index

FlinkCDC-Hudi:Mysql数据实时入湖全攻略二：Hudi与Spark整合时所遇异常与解决方案

Spark性能调优案例

shell脚本安装jdk、mysql、hadoop、zookeeper、hbase、hive、spark...大一统

用IDEA开发spark应用，发生java.lang.ClassNotFoundException的解决

spark1.6+elasticsearch5.x 底层jar冲突

spark读取Oracle教程

spark-各版本特性

Spark运维中遇到的问题

spark 1.5.x Unable to acquire 33554432 bytes of memory

[CDH] Spark 属性、内存、CPU相关知识梳理

大数据——Spark GraphX介绍

MaxCompute Spark开发指南

Spark读取文件，报错java.lang.ArrayIndexOutOfBoundsException

拼写错误：value countBykey is not a member of org.apache.spark.rdd.RDD[(String, Int)]

Sparksql 一个错误：org.apache.spark.sql.AnalysisException: character '　' not supported here;

Spark Sql 相关设置及调优

Spark 推测执行

Cloudera Manager拓展SPARK2-2.3.0.cloudera3-1.cdh5.6.0.p0.1-el6.parcel

Spark SQL

spark-ml和jpmml-sparkml生成pmml模型过程种遇到的问题

Spark 任务常见错误以及解决方案

Spark运行程序异常信息： org.apache.spark.SparkException: Task not serializable 解决办法

推荐文章