spark2.x - 程序员宅基地

spark 3.0连接hive 3.x数据库，查询不到表中的数据

178) at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:201) at org.apache.spark.rdd.RDD.$anonfun$partitions$2(RDD.scala:276) at scala.Option.getOrElse(Option.scala:189) at org.apache....

spark运行中的java.lang.OutOfMemoryError: Java heap space错误

标签： spark

问题描述：我在执行我的spark代码过程中，出现了如标题所示的问题以下为我执行的主要代码： ...diag_hos=l_patient.map(lambda x:(ss.get_hospital(x),ss.get_patient_diag(x))) dh_all=diag_

spark下线性模型 spark.mllib

我还是参考官方的文档来写这个部分，顺便梳理下原理，给出对应代码及运行结果，一点也不复杂。数学公式许多的机器学习的算法实际上可以被写成凸优化的问题，比如说寻找凸函数ff的极小值，它...x,y)，有几类mllib中的分

Spark Machine Learning(SparkML):机器学习(部分一)

MLlib是Apache Spark的可伸缩机器学习库。官网地址:[http://spark.apache.org/docs/latest/ml-guide.html] Spark的机器学习(ML)库提供了许多分布式ML算法。这些算法包括特征选取、分类、回归、聚类、推荐等任务。ML...

spark 无法读取hive 3.x的表数据

标签： spark hive

HDP3.0 集成了hive 3.0和 spark 2.3，然而spark却读取不了hive表的数据数据，准确来说是内表的数据。原因 hive 3.0之后默认开启ACID功能，而且新建的表默认是ACID表。而spark目前还不支持hive的ACID功能，因此...

Spark读写HBase（主要讲解SHC的使用）

标签： Spark读写HBase SHC的使用 SparkSQL读写HBase

参考链接2 其实都一样，后来有了Hortonworks公司的研发人员研发了一个Apache Spark - Apache HBase Connector，也就是我们熟悉的shc，通过这个类库，我们可以直接使用 Spark SQL 将 DataFrame 中的数据写入到 HBase ...

Spark03：Spark安装部署【集群】：Standalone模式以及ON YARN模式

标签： spark

2、ON YARN模式 ON YARN模式是说使用现有的Hadoop集群，后期开发的Spark任务会在这个Hadoop集群中执行，此时这个Hadoop集群就是一个公共的了，不仅可以运行MapReduce任务，还可以运行Spark任务，这样集群的资

spark遇到的错误总结

标签： spark错误总结

1、Operation category READ is not ...2、配置spark.deploy.recoveryMode选项为ZOOKEEPER 3、多Master如何配置 4、No Space Left on the device（Shuffle临时文件过多） 5、java.lang.OutOfMemory, unable to crea...

spark sql读取不到orc格式hive表数据问题

标签： hive spark orc

在做spark数据对账时，对于部分orc格式的hive表，会有spark sql读取表数据为空的情况排查过程中发现是因为使用了tez作为hive的执行引擎，然后执行insert select union all 时，对应的hdfs数据路径，不是直接存放...

Spark 3.0.0 + Hadoop3.1.3 + HIve 3.1.2 遇到的坑

前几天公司的集群从 Hadoop 2.7 + Spark 2.4 + Hive 2.X + Scala2.11 直接干到了Spark 3.0.0 + Hadoop3.1.3 + HIve 3.1.2 + Scala 2.12 ，然后项目就要跟着升级啦，结果问题就来了一堆了，此篇记录下遇到的几个问题...

spark使用IDEA实现算子

标签： spark

一、IDE安装Scala插件，并指定maven地址 1、IDE安装Scala插件二、编辑我们的 pom.xml 文件内容如下： <?xml version="1.0" encoding="UTF-8"?> <project xmlns=... xsi:sch.

Spark中的DataFrame和DataSet

标签： spark big data 大数据

DataFrame是spark1.3之后引入的分布式集合,DataSet是spark1.6之后引入的分布式集合。在spark2.0之后,DataFrame和DataSet的API统一了,DataFrame是DataSet的子集,DataSet是DataFrame的扩展。 (type DataFrame = org....

Spark 异常总结及解决办法

标签： spark

总结Spark开发中遇到的异常及解决办法，之前也写过几篇，之所以不再一个异常写一篇博客，是因为现在Spark用的比较熟悉了一些，觉得没必要把异常信息写那么详细了，所以就把异常总结在一篇博客里了，这样既能备忘也...

【spark on kubernetes】spark operator访问hdfs，hive

标签： hive spark hdfs

前一篇部署了spark operator，这边介绍spark访问hdfs，hive数据一. 编写代码 Java代码，访问hdfs及访问hive package com.seagate.client.zyspark; import java.io.File; import java.sql.Connection; import...

【Spark】Spark常见错误问题汇总(~持续更新)

标签： spark

一、SparkSQL相关 1.在执行insert 语句时报错，堆栈信息为：FileSystem closed。常常出现在ThriftServer里面。原因：由于hadoop FileSystem.get 获得的FileSystem会从缓存加载...2.在执行Spark过程中抛出：Failed t

spark3访问低版本hive填坑记

标签：大数据 spark hive

因业务需要引入spark组件，引用的为最新版本spark3.0.1. 业务上做测试，将Dataframe数据写入hive中。二、代码 scala代码 package com.shenyun.scala.exchange import org.apache.spark.sql.types.{String...

spark-参数配置总结

标签： spark 参数配置

Spark属性控制大多数应用程序设置，并为每个应用程序单独配置。这些属性可以直接在传递给你的SparkConf上设置 SparkContext。SparkConf允许您通过该set()方法配置一些常见属性（例如主URL和应用程序名称）以及...

Spark 处理log日志

标签： spark

文章目录Spark 处理log日志(数据清洗)源数据准备数据清洗要求准备环境开始清洗实现需求 Spark 处理log日志(数据清洗) 源数据准备准备一个 .log 格式的文件，内容如下所示数据清洗要求准备环境读取文件后，按照...

Spark如何进行动态资源分配

标签： spark hadoop docker

一、操作场景对于Spark应用来说，资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务，若分配给它多个Executor，可是却没有任何任务分配给它，而此时有其他的应用却...

sprk使用手册

标签： spark

1 spark-sql字符串截取操作 1.1 sql语句中使用 1 返回字符串A从start位置到结尾的字符串 select substring('abcde',3); cde select substring('abcde',-2); de 2 返回字符串A从start位置开始，长度为len的字符串 ...

spark的UI界面解析

标签： spark的UI界面解析

一：spark的UI界面二：spark的UI界面解析 1 代表job页面，在里面可以看到当前应用分析出来的所有任务，以及所有的excutors中action的执行时间。页可以分为两部分，一部分是event timeline，另一部分是进行中和...

六（1）、spark遇到的问题

标签： spark

1、意外退出spark-shell，而不是quit，然后再输入spark-shell命令的时候，报错： 19/04/11 13:42:32 WARN util.Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041. jps查看，Spark...

Spark的安装与配置

标签：大数据 hadoop spark

spark3.x的安装与配置，超详细

Windows下使用SparkR进行数据分析

标签： sparkR windows

SparkR的安装与使用

spark3.3.1 for CDH6.3.2 打包

标签： hadoop spark cdh

因为 CDH 在 6.3.2 之后开始收费，而自带的spark版本太低，还阉割了 spark-sql 功能。所以我们直接外挂spark3.3.1，使用 CDH 6.3.2 相关的 hadoop lib。

spark 官网首页

标签： spark 大数据 python

简单的spark概述：原文： Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general ...

Hive on Spark环境搭建

标签： hive spark hadoop

Hive 引擎包括：默认 MR、tez、spark最底层的引擎就是MR （Mapreduce）无需配置，Hive运行自带Hive on Spark：Hive 既作为存储元数据又负责 SQL 的解析优化，语法是 HQL 语法，执行引擎变成了 Spark，Spark 负责采用...

spark常见错误及调优

标签： spark

Master默认使用512M内存，当集群中运行的任务特别多时，就会挂掉，原因是master会读取每个task的event log日志去生成spark ui，内存不足自然会OOM，可以在master的运行日志中看到，通过HA启动的master自然也会因为这...

Spark GraphX 快速入门

标签：大数据 spark GraphX

教程目录0x00 教程内容0x01 Spark GraphX 图计算1. GraphX 介绍2. GraphX 的使用场景0x02 GraphX 理论基础1. GraphX 的使用2. 属性图3. 属性图编程示例0xFF 总结 0x00 教程内容 0x01 Spark GraphX 图计算 1. ...

Spark排错与优化

标签： Spark

2. worker挂掉或假死二. 运行错误 1.shuffle FetchFailedException 2.Executor&amp;Task Lost 3.倾斜 4.OOM 5.task not serializable 6.driver.maxResultSize太小 7.taskSet too large 8. dr...

”spark2.x“ 的搜索结果

spark 3.0连接hive 3.x数据库，查询不到表中的数据

spark运行中的java.lang.OutOfMemoryError: Java heap space错误

spark下线性模型 spark.mllib

Spark Machine Learning(SparkML):机器学习(部分一)

spark 无法读取hive 3.x的表数据

Spark读写HBase（主要讲解SHC的使用）

Spark03：Spark安装部署【集群】：Standalone模式以及ON YARN模式

spark遇到的错误总结

spark sql读取不到orc格式hive表数据问题

Spark 3.0.0 + Hadoop3.1.3 + HIve 3.1.2 遇到的坑

spark使用IDEA实现算子

Spark中的DataFrame和DataSet

Spark 异常总结及解决办法

【spark on kubernetes】spark operator访问hdfs，hive

【Spark】Spark常见错误问题汇总(~持续更新)

spark3访问低版本hive填坑记

spark-参数配置总结

Spark 处理log日志

Spark如何进行动态资源分配

sprk使用手册

spark的UI界面解析

六（1）、spark遇到的问题

Spark的安装与配置

Windows下使用SparkR进行数据分析

spark3.3.1 for CDH6.3.2 打包

spark 官网首页

Hive on Spark环境搭建

spark常见错误及调优

Spark GraphX 快速入门

Spark排错与优化

推荐文章