四十四、SparkSQL整合Hive (Spark on Hive)
wptr33 2024-12-20 19:04 16 浏览
SparkSQL设计的目的是让用户可以在Spark上面使用SQL语法处理结构数据,它支持丰富的数据源,可以是RDD, 也可以是外部的数据源(文件文件、json、csv、parquet、hive、hbase等)。SparkSQL的一个重要的分支就是Spark兼容Hive, 也就是在Spark中运用了Hive的元数据管理、HQL语法、UDFs、序列化与反序列化(SerDers)功能:
在这里会涉及到两个概念:Spark on Hive和Hive on Spark,那么这两者之间有什么区别呢?
一、理解Spark on Hive与Hive on Spark
- 1.Spark on Hive
Hive在这里扮演的角色是存储角色,Spark负责sql的解析与优化,执行。具体可以理解为SparkSQL使用Hive语句操作Hive表,底层的计算引擎使用的是Spark RDD,具体的流程如下:
- 通过SparkSQL,加载Hive的配置文件,获取到Hive的元数据信息(一般存储在MySQL或PostgreSQL等关系型数据库中, 建议不使用自带的derby数据库,因为Derby数据库不支持多用户同时访问)
- 获取到Hive的元数据信息后可以拿到Hive表的数据;
- 通过SparkSQL来操作Hive中的表;
- 2.Hive on Spark
Hive在这里扮演的角色是既作为存储,同时还负责sql的解析与优化,Spark仅负责计算,即Spark的角色是执行引擎,一般通过几下配置:
- 配置hvie-site.xml中的hive.execution.engine,默认为mapreduce, 即mr
<property>
<name>hive.execution.engine</name>
<value>spark</value>
<description>
Expects one of [mr, tez, spark].
Chooses execution engine. Options are: mr (Map reduce, default), tez, spark. While MR
remains the default engine for historical reasons, it is itself a historical engine
and is deprecated in Hive 2 line. It may be removed without further warning.
</description>
</property>
- 将spak所需要的所有依赖包拷贝到$HIVE_HOME/lib/下, 这种配置方法可能会因为依赖包的版本问题发生很多错误,处理起来比较麻烦,一般需要对Spark源码进行编译。
与Spark on Hive相比,这种实现比较麻烦,必须要重新编译Spark并导入Hive的相关依赖jar包。目前,主流的使用是Spark on Hive。下面就以Spark on Hive这种方式来讲解Spark与Hive的整合。
二、Spark整合Hive (Spark on Hive)流程
- 1.元数据库MySQL的安装与配置
- 安装MySQL的安装与配置参考:二十四、CentOS7安装配置MySQL
- 2.MySQL中创建操作Hive元数据库的用户并授权
mysql> create user 'hive'@'%' identified by 'Love88me';
Query OK, 0 rows affected (0.00 sec)
mysql> grant all privileges on hivedb.* to 'hive'@'%' identified by 'Love88me' with grant option;
Query OK, 0 rows affected, 1 warning (0.00 sec)
mysql> flush privileges;
Query OK, 0 rows affected (0.00 sec)
- 3.MySQL的JDBC驱动包
这里有两种方法:
- 方法一:把MySQL的JDBC驱动包拷贝到$SPARK_HOME/jars目录下;
- 方法二:启动spark-sql命令行时指定--driver-class-path指定MySQL的JDBC驱动包位置
这里,我选用了第一种方法
- 4.配置hive-site.xml,并分发到Spark的配置目录下
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!--
Licensed to the Apache Software Foundation (ASF) under one or more
contributor license agreements. See the NOTICE file distributed with
this work for additional information regarding copyright ownership.
The ASF licenses this file to You under the Apache License, Version 2.0
(the "License"); you may not use this file except in compliance with
the License. You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
-->
<configuration>
<property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://node04:3306/hivedb?createDatabaseIfNotExist=true&characterEncoding=utf-8&useSSL=false</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>Love88me</value>
</property>
</configuration>
- 5.高可用的hdfs配置(根据实际情况)
如果hdfs是高可用的hdfs, 即有多个namenode的情况,有两种情况可以解决问题:
- 方法一:需要将hdfs的core-site.xml和hdfs.xml放入Spark的conf目录;
- 方法二:配置环境变量HADOOP_CONF_DIR指向$HADOOP_HOME/etc/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
这两种方法选择任一种即可, 此处我选择了第二种。
- 6.启动spark-sql
在启动前,确保hadoop的集群与Spark的standalone集群已成功启动。然后启动spark-sql:
[hadoop@node01 spark]$ bin/spark-sql --master spark://node01:7077,node02:7077 --conf spark.sql.warehouse.dir=hdfs://mycluster/user/hive/warehouse
注意:
在Spark2.0版本以后由于出现了SparkSession, 在运行spark-sql时,会设置默认的spark.sql.warehouse.dir=spark-warehouse, 此时将Hive与SparkSQL整合完成后,在通过spark-sql脚本启动的时候,就会在启动的目录下创建一个spark.sql.warehouse.dir指定的目录用来存放spark-sql创建数据库和创建数据表的信息,与之前hive的数据信息不存在同一路径下,也就是说由spark-sql中创建的库和表的信息在本地,不在HDFS上,这样不利于操作。所以,解决的方法如下:
在启动spark-sql的时候要加上一个参数:
--conf spark.sql.warehouse.dir=hdfs://mycluster/user/hive/warehouse
这样可以保证spark-sql启动时不再产生新的存放数据的目录,sparksql与hive最终使用的是hive统一存放在hdfs上存放数据的目录。
此时,查看MySQL数据库,可以看出元数据信息是已被创建:
7.常规操作
spark-sql> show databases; //查看有哪些数据库
spark-sql> create database mydb; //创建数据库
//创建表sanguo
spark-sql> create table sanguo
> (id bigint, master string, member string, country string, power int, weapon string)
> row format delimited fields terminated by ',';
//导入本地sanguo.txt中的数据
1,刘备,关羽,蜀国,105,青龙偃月刀
2,刘备,张飞,蜀国,102,丈八蛇矛
3,刘备,赵云,蜀国,100,剑
4,刘备,马超,蜀国,99,霸王枪
5,刘备,黄忠,蜀国,98,弓箭
6,刘备,诸葛亮,蜀国,64,羽扇
7,曹操,张辽,魏国,95,刀
8,曹操,典韦,魏国,99,刀
9,曹操,郭嘉,魏国,64,""
spark-sql> load data local inpath '/home/hadoop/sanguo.txt' into table sanguo;
//查看数据
spark-sql> select * from sanguo;
后话
- 元数据信息是保存在MySQL中,保存的是描述hive表的描述信息,比如database名称、表名,列的类型等元数据信息, 还保存了hdfs在什么位置;
- hive存放的是业务数据,用来做离线分析的数据,是数据仓库;
相关推荐
- SpringBoot 3 + Flutter3 实战低代码运营管理-10章
-
获课》aixuetang.xyz/5075/三天构建运营管理系统:SpringBoot3+Flutter3高效开发方法论...
- SpringBoot探针实现:从零构建应用健康监控利器
-
SpringBoot探针实现:从零构建应用健康监控利器声明本文中的所有案例代码、配置仅供参考,如需使用请严格做好相关测试及评估,对于因参照本文内容进行操作而导致的任何直接或间接损失,作者概不负责。本文...
- Spring Batch中的JobRepository:批处理的“记忆大师”是如何工作
-
一、JobRepository是谁?——批处理的“档案馆”JobRepository是SpringBatch的“记忆中枢”,负责记录所有Job和Step的执行状态。它像一位严谨的档案管理员,把任务执...
- 还在为 Spring Boot3 技术整合发愁?一文解锁大厂都在用的实用方案
-
你在使用SpringBoot3开发后端项目时,是不是常常陷入这样的困境?想提升项目性能和功能,却不知道该整合哪些技术;好不容易选定技术,又在配置和使用上频频踩坑。其实,这是很多互联网大厂后端开发...
- 一文吃透!Spring Boot 项目请求日志记录,这几招你绝对不能错过!
-
在互联网应用开发的高速赛道上,系统的稳定性、可维护性以及安全性是每一位开发者都必须关注的核心要素。而请求日志记录,就如同系统的“黑匣子”,能够为我们提供排查故障、分析用户行为、优化系统性能等关键信息...
- spring-boot-starter-actuator简单介绍
-
SpringBootActuator是SpringBoot的一个功能强大的子项目,它提供了一些有用的监控和管理SpringBoot应用程序的端点。SpringBootActuat...
- 使用SpringBoot钩子或Actuator实现优雅停机
-
服务如何响应停机信号在java中我们可以直接利用通过Runtime...
- 28-自定义Spring Boot Actuator指标
-
上篇我们学习了《27-自定义SpringBootActuator健康指示器》,本篇我们学习自定义SpringBootActuator指标(Metric)。...
- 如何在Spring Boot中整合Spring Boot Actuator进行服务应用监控?
-
监控是确保系统稳定性和性能的关键组成部分,而在SpringBoot中就提供了默认的应用监控方案SpringBootActuator,通过SpringBootActuator提供了开箱即用的应...
- 「Spring Boot」 Actuator Endpoint
-
Actuator官网地址:https://docs.spring.io/spring-boot/docs/2.5.6/reference/html/actuator.html目的监控并管理应用程序...
- Spring Boot Actuator监控功能全面剖析
-
SpringBootActuator监控功能全面剖析在现代企业级Java开发中,SpringBoot以其轻量化、高效率的特性深受开发者青睐。而作为SpringBoot生态系统的重要组成部分,S...
- 1000字彻底搞懂SpringBootActuator组件!
-
SpringBootActuator组件SpringBootActuator通过HTTPendpoints或者JMX来管理和监控SpringBoot应用,如服务的审计、健康检查、指标统计和...
- JavaScript数据类型(javascript数据类型介绍)
-
基本数据类型BooleanNullNumberStringSymbolUndefined对象数据类型ObjectArray定义:JavaScript数组是内置的对象之一,它可以用一个变量来存储多个同种...
- 能运行,不代表它是对的:5 个潜伏在正常功能下的 JavaScript 错误
-
JavaScript的动态性和复杂性意味着,代码虽然表面上正常运行,但一些深层次、隐蔽的陷阱往往让人意想不到,梳理了几个JavaScript开发中难以发现的隐蔽错误,旨在帮助我们写出更健壮、更可...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
因果推断Matching方式实现代码 因果推断模型
-
git pull命令使用实例 git pull--rebase
-
面试官:git pull是哪两个指令的组合?
-
git 执行pull错误如何撤销 git pull fail
-
git pull 和git fetch 命令分别有什么作用?二者有什么区别?
-
git fetch 和git pull 的异同 git中fetch和pull的区别
-
git pull 之后本地代码被覆盖 解决方案
-
还可以这样玩?Git基本原理及各种骚操作,涨知识了
-
git命令之pull git.pull
-
- 最近发表
-
- SpringBoot 3 + Flutter3 实战低代码运营管理-10章
- SpringBoot探针实现:从零构建应用健康监控利器
- Spring Batch中的JobRepository:批处理的“记忆大师”是如何工作
- Github霸榜的SpringBoot全套学习教程,从入门到实战,内容超详细
- 还在为 Spring Boot3 技术整合发愁?一文解锁大厂都在用的实用方案
- 一文吃透!Spring Boot 项目请求日志记录,这几招你绝对不能错过!
- spring-boot-starter-actuator简单介绍
- 使用SpringBoot钩子或Actuator实现优雅停机
- 28-自定义Spring Boot Actuator指标
- 如何在Spring Boot中整合Spring Boot Actuator进行服务应用监控?
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)