百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

0510-Spark应用访问Hive报错异常分析

yuyutoo 2024-10-12 01:53 9 浏览 0 评论

1.故障描述

  • 运行环境说明

1.RedHat7.2

2.CM和CDH版本为5.15.0

3.Spark1.6

  • 问题现象

在代码中使用HiveContext对象访问Hive表ods_user(该表为Parquet格式)时发现作业报错,异常如下:

Exception in thread "main" org.spark-project.guava.util.concurrent.UncheckedExecutionException: java.lang.IllegalArgumentException: java.net.UnknownHostException: cdh01.fayson.com
 at org.spark-project.guava.cache.LocalCache$Segment.get(LocalCache.java:2263)
 at org.spark-project.guava.cache.LocalCache.get(LocalCache.java:4000)
 at org.spark-project.guava.cache.LocalCache.getOrLoad(LocalCache.java:4004)
 at org.spark-project.guava.cache.LocalCache$LocalLoadingCache.get(LocalCache.java:4874)




2.问题诊断分析


报找不到cdh01.fayson.com主机,Fayson在之前对集群做过几次变更:

  • 集群启用HA前,SparkStreaming作业使用saveAsTable在Hive中保存了ods_user表,可以正常查询及写入数据。
  • 集群启用HA并更新NameNode URL后,Hive和Spark作业依然能够访问ods_user表。
  • 修改集群的hostname,将cdh01.fayson.com主机名修改为cdh1.fayson.com后,Spark作业访问ods_user表失败。


1.检查Spark和Hive的配置文件,在配置文件中均为发现cdh01.fayson.com记录




经过检查集群中Spark和Hive的配置文件,未发现有cdh01.fayson.com的配置信息,排除配置文件导致的问题。

2.检查Spark作业的运行环境,也未发现相应的配置信息




在Spark作业的运行环境中也未找到cdh01.fayson.com相关的配置信息,继续分析。

3.在作业日志中可以看到,Spark访问HiveMetastore服务是成功的




既然可以正常的访问HiveMetastore服务,那再次证明Hive和Spark配置是没有问题的。

4.既然能够正常的访问HiveMetastore服务,Spark服务直接通过访问HiveMetastore服务获取ods_user的元数据信息,推测可能是ods_user表元数据存在问题,查看ods_user表建表语句确认




检查ods_user的建表语句发现,存在配置信息为cdh01.fayson.com的信息,由此推断可能是由于ods_user表中该属性导致。

3.问题解决


Fayson很清晰的记得在SparkStreaming作业中创建的ods_user表,,并未在建表语句中指定Spark SQL相关的配置参数。通过Spark官网资料找到相关信息(

http://spark.apache.org/docs/1.6.0/sql-programming-guide.html#hive-metastore-parquet-table-conversion

),Spark在读取和写入Hive Metastore Parquet表时,会尝试使用自己的Parquet支持而不是使用Hive SerDe,从而获取更好的性能。此行为由spark.sql.hive.convertMetastoreParquet参数控制(默认为true)。那如果修改了Hive表的属性或其它外部变更(如:修改NameNode节点hostname,NameNode节点迁移等)均会导致Spark缓存的配置失效,因此这时需要手动的刷新表,以确保元数据信息一致。

1.修改ods_user表中SERDEPROPERTIES中的path属性为NameNode启用HA后的地址,命令如下;

ALTER TABLE ods_user SET SERDEPROPERTIES ('path'='hdfs://nameservice1/user/hive/warehouse/ods_user');





可以看到path已修改为最新的HDFS访问地址




2.再次验证可以正常的访问ods_user表的数据




4.总结


1.Spark在读取和写入Hive Metastore Parquet表时,会尝试使用自己的Parquet支持而不是使用Hive SerDe,从而获取更好的性能。所以在将spark数据写入一个不存在的hive表时会在建表语句中增加spark的一些属性配置。

2.特别要注意集群在未启用HA时使用Spark生成的Hive表,在集群启用HA后可能会到Spark无法访问该表,需要修改SERDEPROPERTIES中path属性。

3.如果只是通过hive或者其他外部方式修改了Hive表的元数据信息,可以通过如下方式刷新Spark缓存的表元数据

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
sqlContext.refreshTable("ods_user")

相关推荐

当 Linux 根分区 (/) 已满时如何释放空间?

根分区(/)是Linux文件系统的核心,包含操作系统核心文件、配置文件、日志文件、缓存和用户数据等。当根分区满载时,系统可能出现无法写入新文件、应用程序崩溃甚至无法启动的情况。常见原因包括:...

玩转 Linux 之:磁盘分区、挂载知多少?

今天来聊聊linux下磁盘分区、挂载的问题,篇幅所限,不会聊的太底层,纯当科普!!1、Linux分区简介1.1主分区vs扩展分区硬盘分区表中最多能存储四个分区,但我们实际使用时一般只分为两...

Linux 文件搜索神器 find 实战详解,建议收藏

在Linux系统使用中,作为一个管理员,我希望能查找系统中所有的大小超过200M文件,查看近7天系统中哪些文件被修改过,找出所有子目录中的可执行文件,这些任务需求...

Linux 操作系统磁盘操作(linux 磁盘命令)

一、文档介绍本文档描述Linux操作系统下多种场景下的磁盘操作情况。二、名词解释...

Win10新版19603推送:一键清理磁盘空间、首次集成Linux文件管理器

继上周四的Build19592后,微软今晨面向快速通道的Insider会员推送Windows10新预览版,操作系统版本号Build19603。除了一些常规修复,本次更新还带了不少新功能,一起来了...

Android 16允许Linux终端使用手机全部存储空间

IT之家4月20日消息,谷歌Pixel手机正朝着成为强大便携式计算设备的目标迈进。2025年3月的更新中,Linux终端应用的推出为这一转变奠定了重要基础。该应用允许兼容的安卓设备...

Linux 系统管理大容量磁盘(2TB+)操作指南

对于容量超过2TB的磁盘,传统MBR分区表的32位寻址机制存在限制(最大支持2.2TB)。需采用GPT(GUIDPartitionTable)分区方案,其支持64位寻址,理论上限为9.4ZB(9....

Linux 服务器上查看磁盘类型的方法

方法1:使用lsblk命令lsblk输出说明:TYPE列显示设备类型,如disk(物理磁盘)、part(分区)、rom(只读存储)等。...

ESXI7虚机上的Ubuntu Linux 22.04 LVM空间扩容操作记录

本人在实际的使用中经常遇到Vmware上安装的Linux虚机的LVM扩容情况,最终实现lv的扩容,大多数情况因为虚机都是有备用或者可停机的情况,一般情况下通过添加一块物理盘再加入vg,然后扩容lv来实...

5.4K Star很容易!Windows读取Linux磁盘格式工具

[开源日记],分享10k+Star的优质开源项目...

Linux 文件系统监控:用脚本自动化磁盘空间管理

在Linux系统中,文件系统监控是一项非常重要的任务,它可以帮助我们及时发现磁盘空间不足的问题,避免因磁盘满而导致的系统服务不可用。通过编写脚本自动化磁盘空间管理,我们可以更加高效地处理这一问题。下面...

Linux磁盘管理LVM实战(linux实验磁盘管理)

LVM(逻辑卷管理器,LogicalVolumeManager)是一种在Linux系统中用于灵活管理磁盘空间的技术,通过将物理磁盘抽象为逻辑卷,实现动态调整存储容量、跨磁盘扩展等功能。本章节...

Linux查看文件大小:`ls`和`du`为何结果不同?一文讲透原理!

Linux查看文件大小:ls和du为何结果不同?一文讲透原理!在Linux运维中,查看文件大小是日常高频操作。但你是否遇到过以下困惑?...

使用 df 命令检查服务器磁盘满了,但用 du 命令发现实际小于磁盘容量

在Linux系统中,管理员或开发者经常会遇到一个令人困惑的问题:使用...

Linux磁盘爆满紧急救援指南:5步清理释放50GB+小白也能轻松搞定

“服务器卡死?网站崩溃?当Linux系统弹出‘Nospaceleft’的红色警报,别慌!本文手把手教你从‘删库到跑路’进阶为‘磁盘清理大师’,5个关键步骤+30条救命命令,快速释放磁盘空间,拯救你...

取消回复欢迎 发表评论: