hive server2源码地址在哪_0510Spark应用访问Hive报错异常分析-程序员宅基地

技术标签: hive查看表中列的信息命令  hive 修改cluster by算法  hive server2源码地址在哪  

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

Fayson的github:

https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

1

故障描述

  • 运行环境说明

1.RedHat7.2

2.CM和CDH版本为5.15.0

3.Spark1.6

  • 问题现象

在代码中使用HiveContext对象访问Hive表ods_user(该表为Parquet格式)时发现作业报错,异常如下:

in thread 

2edb51b04dced801005df3f954cfcb33.png

2

问题诊断分析

报找不到cdh01.fayson.com主机,Fayson在之前对集群做过几次变更:

  • 集群启用HA前,SparkStreaming作业使用saveAsTable在Hive中保存了ods_user表,可以正常查询及写入数据。

  • 集群启用HA并更新NameNode URL后,Hive和Spark作业依然能够访问ods_user表。

  • 修改集群的hostname,将cdh01.fayson.com主机名修改为cdh1.fayson.com后,Spark作业访问ods_user表失败。

1.检查Spark和Hive的配置文件,在配置文件中均为发现cdh01.fayson.com记录

f55f65b469350284301c129ea60caf17.png

经过检查集群中Spark和Hive的配置文件,未发现有cdh01.fayson.com的配置信息,排除配置文件导致的问题。

2.检查Spark作业的运行环境,也未发现相应的配置信息

d7532fc9d7fa5861e02bd26e918ecc4a.png

在Spark作业的运行环境中也未找到cdh01.fayson.com相关的配置信息,继续分析。

3.在作业日志中可以看到,Spark访问HiveMetastore服务是成功的

73c75e5e0d1905f1265fa66ff4c3aa01.png

既然可以正常的访问HiveMetastore服务,那再次证明Hive和Spark配置是没有问题的。

4.既然能够正常的访问HiveMetastore服务,Spark服务直接通过访问HiveMetastore服务获取ods_user的元数据信息,推测可能是ods_user表元数据存在问题,查看ods_user表建表语句确认

5bceb5daf7a0e8113c564ddc39adf3d6.png

检查ods_user的建表语句发现,存在配置信息为cdh01.fayson.com的信息,由此推断可能是由于ods_user表中该属性导致。

3

问题解决

Fayson很清晰的记得在SparkStreaming作业中创建的ods_user表,,并未在建表语句中指定Spark SQL相关的配置参数。通过Spark官网资料找到相关信息(

http://spark.apache.org/docs/1.6.0/sql-programming-guide.html#hive-metastore-parquet-table-conversion

),Spark在读取和写入Hive Metastore Parquet表时,会尝试使用自己的Parquet支持而不是使用Hive SerDe,从而获取更好的性能。此行为由spark.sql.hive.convertMetastoreParquet参数控制(默认为true)。那如果修改了Hive表的属性或其它外部变更(如:修改NameNode节点hostname,NameNode节点迁移等)均会导致Spark缓存的配置失效,因此这时需要手动的刷新表,以确保元数据信息一致。

1.修改ods_user表中SERDEPROPERTIES中的path属性为NameNode启用HA后的地址,命令如下;

ALTER 

5ade4a4e488944331d19dd0eeb804988.png

可以看到path已修改为最新的HDFS访问地址

80ef8e58975fd028aa43f22b5b66c851.png

2.再次验证可以正常的访问ods_user表的数据

1167624877d6595a9d5a709b45f7e6c1.png

4

总结

1.Spark在读取和写入Hive Metastore Parquet表时,会尝试使用自己的Parquet支持而不是使用Hive SerDe,从而获取更好的性能。所以在将spark数据写入一个不存在的hive表时会在建表语句中增加spark的一些属性配置。

2.特别要注意集群在未启用HA时使用Spark生成的Hive表,在集群启用HA后可能会到Spark无法访问该表,需要修改SERDEPROPERTIES中path属性。

3.如果只是通过hive或者其他外部方式修改了Hive表的元数据信息,可以通过如下方式刷新Spark缓存的表元数据

new org.apache.spark.sql.hive.HiveContext(sc)

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

e415f54b5827f8043aff760b9360e708.gif

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39927623/article/details/109917517

智能推荐

生活垃圾数据集(YOLO版)_垃圾回收数据集-程序员宅基地

文章浏览阅读1.6k次,点赞5次,收藏20次。【有害垃圾】:电池(1 号、2 号、5 号)、过期药品或内包装等;【可回收垃圾】:易拉罐、小号矿泉水瓶;【厨余垃圾】:小土豆、切过的白萝卜、胡萝卜,尺寸为电池大小;【其他垃圾】:瓷片、鹅卵石(小土豆大小)、砖块等。文件结构|----classes.txt # 标签种类|----data-txt\ # 数据集文件集合|----images\ # 数据集图片|----labels\ # yolo标签。_垃圾回收数据集

天气系统3------微服务_cityid=101280803-程序员宅基地

文章浏览阅读272次。之前写到 通过封装的API 已经可以做到使用redis进行缓存天气信息但是这一操作每次都由客户使用时才进行更新 不友好 所以应该自己实现半小时的定时存入redis 使用quartz框架 首先添加依赖build.gradle中// Quartz compile('org.springframework.boot:spring-boot-starter-quartz'..._cityid=101280803

python wxpython 不同Frame 之间的参数传递_wxpython frame.bind-程序员宅基地

文章浏览阅读1.8k次,点赞2次,收藏8次。对于使用触发事件来反应的按钮传递参数如下:可以通过lambda对function的参数传递:t.Bind(wx.EVT_BUTTON, lambda x, textctrl=t: self.input_fun(event=x, textctrl=textctrl))前提需要self.input_fun(self,event,t):传入参数而同时两个Frame之间的参数传..._wxpython frame.bind

cocos小游戏开发总结-程序员宅基地

文章浏览阅读1.9k次。最近接到一个任务要开发消消乐小游戏,当然首先就想到乐cocosCreator来作为开发工具。开发本身倒没有多少难点。消消乐的开发官网发行的书上有专门讲到。下面主要总结一下开发中遇到的问题以及解决方法屏幕适配由于设计尺寸是750*1336,如果适应高度,则在iphonX下,内容会超出屏幕宽度。按宽适应,iphon4下内容会超出屏幕高度。所以就需要根据屏幕比例来动态设置适配策略。 onLoad..._750*1336

ssm435银行贷款管理系统+vue_vue3重构信贷管理系统-程序员宅基地

文章浏览阅读745次,点赞21次,收藏21次。web项目的框架,通常更简单的数据源。21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化的管理,使信息存储达到准确、快速、完善,并能提高工作管理效率,促进其发展。论文主要是对银行贷款管理系统进行了介绍,包括研究的现状,还有涉及的开发背景,然后还对系统的设计目标进行了论述,还有系统的需求,以及整个的设计方案,对系统的设计以及实现,也都论述的比较细致,最后对银行贷款管理系统进行了一些具体测试。_vue3重构信贷管理系统

乌龟棋 题解-程序员宅基地

文章浏览阅读774次。题目描述原题目戳这里小明过生日的时候,爸爸送给他一副乌龟棋当作礼物。乌龟棋的棋盘是一行 NNN 个格子,每个格子上一个分数(非负整数)。棋盘第 111 格是唯一的起点,第 NNN 格是终点,游戏要求玩家控制一个乌龟棋子从起点出发走到终点。乌龟棋中 MMM 张爬行卡片,分成 444 种不同的类型( MMM 张卡片中不一定包含所有 444 种类型的卡片,见样例),每种类型的卡片上分别标有 1,2,3,41, 2, 3, 41,2,3,4 四个数字之一,表示使用这种卡片后,乌龟棋子将向前爬行相应的格子数

随便推点

python内存泄露的原因_Python服务端内存泄露的处理过程-程序员宅基地

文章浏览阅读1.5k次。吐槽内存泄露 ? 内存暴涨 ? OOM ?首先提一下我自己曾经历过多次内存泄露,到底有几次? 我自己心里悲伤的回想了下,造成线上影响的内存泄露事件有将近5次了,没上线就查出内存暴涨次数可能更多。这次不是最惨,相信也不会是最后的内存的泄露。有人说,内存泄露对于程序员来说,是个好事,也是个坏事。 怎么说? 好事在于,技术又有所长进,经验有所心得…. 毕竟不是所有程序员都写过OOM的服务…. 坏事..._python内存泄露

Sensor (draft)_draft sensor-程序员宅基地

文章浏览阅读747次。1.sensor typeTYPE_ACCELEROMETER=1 TYPE_MAGNETIC_FIELD=2 (what's value mean at x and z axis)TYPE_ORIENTATION=3TYPE_GYROSCOPE=4 TYPE_LIGHT=5(in )TYPE_PRESSURE=6TYPE_TEMPERATURE=7TYPE_PRO_draft sensor

【刘庆源码共享】稀疏线性系统求解算法MGMRES(m) 之 矩阵类定义三(C++)_gmres不构造矩阵-程序员宅基地

文章浏览阅读581次。/* * Copyright (c) 2009 湖南师范大学数计院 一心飞翔项目组 * All Right Reserved * * 文件名:matrix.cpp 定义Point、Node、Matrix类的各个方法 * 摘 要:定义矩阵类,包括矩阵的相关信息和方法 * * 作 者:刘 庆 * 修改日期:2009年7月19日21:15:12 **/

三分钟带你看完HTML5增强的【iframe元素】_iframe allow-top-navigation-程序员宅基地

文章浏览阅读1.7w次,点赞6次,收藏20次。HTML不再推荐页面中使用框架集,因此HTML5删除了<frameset>、<frame>和<noframes>这三个元素。不过HTML5还保留了<iframe>元素,该元素可以在普通的HTML页面中使用,生成一个行内框架,可以直接放在HTML页面的任意位置。除了指定id、class和style之外,还可以指定如下属性:src 指定一个UR..._iframe allow-top-navigation

Java之 Spring Cloud 微服务的链路追踪 Sleuth 和 Zipkin(第三个阶段)【三】【SpringBoot项目实现商品服务器端是调用】-程序员宅基地

文章浏览阅读785次,点赞29次,收藏12次。Zipkin 是 Twitter 的一个开源项目,它基于 Google Dapper 实现,它致力于收集服务的定时数据,以解决微服务架构中的延迟问题,包括数据的收集、存储、查找和展现。我们可以使用它来收集各个服务器上请求链路的跟踪数据,并通过它提供的 REST API 接口来辅助我们查询跟踪数据以实现对分布式系统的监控程序,从而及时地发现系统中出现的延迟升高问题并找出系统性能瓶颈的根源。除了面向开发的 API 接口之外,它也提供了方便的 UI 组件来帮助我们直观的搜索跟踪信息和分析请求链路明细,

烁博科技|浅谈视频安全监控行业发展_2018年8月由于某知名视频监控厂商多款摄像机存在安全漏洞-程序员宅基地

文章浏览阅读358次。“随着天网工程的建设,中国已经建成世界上规模最大的视频监控网,摄像头总 数超过2000万个,成为世界上最安全的国家。视频图像及配套数据已经应用在反恐维稳、治安防控、侦查破案、交通行政管理、服务民生等各行业各领域。烁博科技视频安全核心能力:精准智能数据采集能力:在建设之初即以应用需求为导向,开展点位选择、设备选型等布建工作,实现前端采集设备的精细化部署。随需而动的AI数据挖掘能力:让AI所需要的算力、算法、数据、服务都在应用需求的牵引下实现合理的调度,实现解析能力的最大化。完善的数据治理能力:面_2018年8月由于某知名视频监控厂商多款摄像机存在安全漏洞