四十四、SparkSQL整合Hive (Spark on Hive)
wptr33 2024-12-20 19:04 32 浏览
SparkSQL设计的目的是让用户可以在Spark上面使用SQL语法处理结构数据,它支持丰富的数据源,可以是RDD, 也可以是外部的数据源(文件文件、json、csv、parquet、hive、hbase等)。SparkSQL的一个重要的分支就是Spark兼容Hive, 也就是在Spark中运用了Hive的元数据管理、HQL语法、UDFs、序列化与反序列化(SerDers)功能:
在这里会涉及到两个概念:Spark on Hive和Hive on Spark,那么这两者之间有什么区别呢?
一、理解Spark on Hive与Hive on Spark
- 1.Spark on Hive
Hive在这里扮演的角色是存储角色,Spark负责sql的解析与优化,执行。具体可以理解为SparkSQL使用Hive语句操作Hive表,底层的计算引擎使用的是Spark RDD,具体的流程如下:
- 通过SparkSQL,加载Hive的配置文件,获取到Hive的元数据信息(一般存储在MySQL或PostgreSQL等关系型数据库中, 建议不使用自带的derby数据库,因为Derby数据库不支持多用户同时访问)
- 获取到Hive的元数据信息后可以拿到Hive表的数据;
- 通过SparkSQL来操作Hive中的表;
- 2.Hive on Spark
Hive在这里扮演的角色是既作为存储,同时还负责sql的解析与优化,Spark仅负责计算,即Spark的角色是执行引擎,一般通过几下配置:
- 配置hvie-site.xml中的hive.execution.engine,默认为mapreduce, 即mr
<property>
<name>hive.execution.engine</name>
<value>spark</value>
<description>
Expects one of [mr, tez, spark].
Chooses execution engine. Options are: mr (Map reduce, default), tez, spark. While MR
remains the default engine for historical reasons, it is itself a historical engine
and is deprecated in Hive 2 line. It may be removed without further warning.
</description>
</property>
- 将spak所需要的所有依赖包拷贝到$HIVE_HOME/lib/下, 这种配置方法可能会因为依赖包的版本问题发生很多错误,处理起来比较麻烦,一般需要对Spark源码进行编译。
与Spark on Hive相比,这种实现比较麻烦,必须要重新编译Spark并导入Hive的相关依赖jar包。目前,主流的使用是Spark on Hive。下面就以Spark on Hive这种方式来讲解Spark与Hive的整合。
二、Spark整合Hive (Spark on Hive)流程
- 1.元数据库MySQL的安装与配置
- 安装MySQL的安装与配置参考:二十四、CentOS7安装配置MySQL
- 2.MySQL中创建操作Hive元数据库的用户并授权
mysql> create user 'hive'@'%' identified by 'Love88me';
Query OK, 0 rows affected (0.00 sec)
mysql> grant all privileges on hivedb.* to 'hive'@'%' identified by 'Love88me' with grant option;
Query OK, 0 rows affected, 1 warning (0.00 sec)
mysql> flush privileges;
Query OK, 0 rows affected (0.00 sec)
- 3.MySQL的JDBC驱动包
这里有两种方法:
- 方法一:把MySQL的JDBC驱动包拷贝到$SPARK_HOME/jars目录下;
- 方法二:启动spark-sql命令行时指定--driver-class-path指定MySQL的JDBC驱动包位置
这里,我选用了第一种方法
- 4.配置hive-site.xml,并分发到Spark的配置目录下
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!--
Licensed to the Apache Software Foundation (ASF) under one or more
contributor license agreements. See the NOTICE file distributed with
this work for additional information regarding copyright ownership.
The ASF licenses this file to You under the Apache License, Version 2.0
(the "License"); you may not use this file except in compliance with
the License. You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
-->
<configuration>
<property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://node04:3306/hivedb?createDatabaseIfNotExist=true&characterEncoding=utf-8&useSSL=false</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>Love88me</value>
</property>
</configuration>
- 5.高可用的hdfs配置(根据实际情况)
如果hdfs是高可用的hdfs, 即有多个namenode的情况,有两种情况可以解决问题:
- 方法一:需要将hdfs的core-site.xml和hdfs.xml放入Spark的conf目录;
- 方法二:配置环境变量HADOOP_CONF_DIR指向$HADOOP_HOME/etc/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
这两种方法选择任一种即可, 此处我选择了第二种。
- 6.启动spark-sql
在启动前,确保hadoop的集群与Spark的standalone集群已成功启动。然后启动spark-sql:
[hadoop@node01 spark]$ bin/spark-sql --master spark://node01:7077,node02:7077 --conf spark.sql.warehouse.dir=hdfs://mycluster/user/hive/warehouse
注意:
在Spark2.0版本以后由于出现了SparkSession, 在运行spark-sql时,会设置默认的spark.sql.warehouse.dir=spark-warehouse, 此时将Hive与SparkSQL整合完成后,在通过spark-sql脚本启动的时候,就会在启动的目录下创建一个spark.sql.warehouse.dir指定的目录用来存放spark-sql创建数据库和创建数据表的信息,与之前hive的数据信息不存在同一路径下,也就是说由spark-sql中创建的库和表的信息在本地,不在HDFS上,这样不利于操作。所以,解决的方法如下:
在启动spark-sql的时候要加上一个参数:
--conf spark.sql.warehouse.dir=hdfs://mycluster/user/hive/warehouse
这样可以保证spark-sql启动时不再产生新的存放数据的目录,sparksql与hive最终使用的是hive统一存放在hdfs上存放数据的目录。
此时,查看MySQL数据库,可以看出元数据信息是已被创建:
7.常规操作
spark-sql> show databases; //查看有哪些数据库
spark-sql> create database mydb; //创建数据库
//创建表sanguo
spark-sql> create table sanguo
> (id bigint, master string, member string, country string, power int, weapon string)
> row format delimited fields terminated by ',';
//导入本地sanguo.txt中的数据
1,刘备,关羽,蜀国,105,青龙偃月刀
2,刘备,张飞,蜀国,102,丈八蛇矛
3,刘备,赵云,蜀国,100,剑
4,刘备,马超,蜀国,99,霸王枪
5,刘备,黄忠,蜀国,98,弓箭
6,刘备,诸葛亮,蜀国,64,羽扇
7,曹操,张辽,魏国,95,刀
8,曹操,典韦,魏国,99,刀
9,曹操,郭嘉,魏国,64,""
spark-sql> load data local inpath '/home/hadoop/sanguo.txt' into table sanguo;
//查看数据
spark-sql> select * from sanguo;
后话
- 元数据信息是保存在MySQL中,保存的是描述hive表的描述信息,比如database名称、表名,列的类型等元数据信息, 还保存了hdfs在什么位置;
- hive存放的是业务数据,用来做离线分析的数据,是数据仓库;
相关推荐
- 什么是Java中的继承?如何实现继承?
-
什么是继承?...
- Java 继承与多态:从基础到实战的深度解析
-
在面向对象编程(OOP)的三大支柱中,继承与多态是构建灵活、可复用代码的核心。无论是日常开发还是框架设计,这两个概念都扮演着至关重要的角色。本文将从基础概念出发,结合实例与图解,带你彻底搞懂Java...
- Java基础教程:Java继承概述_java的继承
-
继承概述假如我们要定义如下类:学生类,老师类和工人类,分析如下。学生类属性:姓名,年龄行为:吃饭,睡觉老师类属性:姓名,年龄,薪水行为:吃饭,睡觉,教书班主任属性:姓名,年龄,薪水行为:吃饭,睡觉,管...
- java4个技巧:从继承和覆盖,到最终的类和方法
-
日复一日,我们编写的大多数Java只使用了该语言全套功能的一小部分。我们实例化的每个流以及我们在实例变量前面加上的每个@Autowired注解都足以完成我们的大部分目标。然而,有些时候,我们必须求助于...
- java:举例说明继承的概念_java继承的理解
-
在现实生活中,继承一般指的是子女继承父辈的财产。在程序中,继承描述的是事物之间的所属关系,通过继承可以使多种事物之间形成一种关系体系。例如猫和狗都属于动物,程序中便可以描述为猫和狗继承自动物,同理,...
- 从零开始构建一款开源的 Vibe Coding 产品 Week1Day4:业界调研之 Agent 横向对比
-
前情回顾前面两天我们重点调研了了一下Cursor的原理和Cursor中一个关键的工具edit_file的实现,但是其他CodingAgent也需要稍微摸一下底,看看有没有优秀之处,下...
- 学会这几个插件,让你的Notepad++使用起来更丝滑
-
搞程序开发的小伙伴相信对Notepad++都不会陌生,是一个占用空间少、打开启动快的文件编辑器,很多程序员喜欢使用Notepad++进行纯文本编辑或者脚本开发,但是Notepad++的功能绝不止于此,...
- 将 node_modules 目录放入 Git 仓库的优点
-
推荐一篇文章Whyyoushouldcheck-inyournodedependencies[1]...
- 再度加码AI编程,腾讯发布AI CLI并宣布CodeBuddy IDE开启公测
-
“再熬一年,90%的程序员可能再也用不着写for循环。”凌晨两点半,王工还在公司敲键盘。他手里那份需求文档写了足足六页,产品经理反复改了三次。放在过去,光数据库建表、接口对接、单元测试就得写两三天。现...
- git 如何查看stash的内容_git查看ssh key
-
1.查看Stash列表首先,使用gitstashlist查看所有已保存的stash:...
- 6万星+ Git命令懒人必备!lazygit 终端UI神器,效率翻倍超顺手!
-
项目概览lazygit是一个基于终端的Git命令可视化工具,通过简易的TUI(文本用户界面)提升Git操作效率。开发者无需记忆复杂命令,即可完成分支管理、提交、合并等操作。...
- 《Gemini CLI 实战系列》(一)Gemini CLI 入门:AI 上命令行的第一步
-
谷歌的Gemini模型最近热度很高,而它的...
- deepin IDE新版发布:支持玲珑构建、增强AI智能化
-
IT之家8月7日消息,深度操作系统官方公众号昨日(8月6日)发布博文,更新推出新版deepin集成开发环境(IDE),重点支持玲珑构建。支持玲珑构建deepinIDE在本次重磅更...
- 狂揽82.7k的star,这款开源可视化神器,轻松创建流程图和图表
-
再不用Mermaid,你的技术文档可能已经在悄悄“腐烂”——图表版本对不上、同事改完没同步、评审会上被一句“这图哪来的”问得哑口无言。这不是危言耸听。GitHub2025年开发者报告显示,63%的新仓...
- 《Gemini CLI 实战系列》(五)打造专属命令行工具箱
-
在前几篇文章中,我们介绍了GeminiCLI的基础用法、效率提升、文件处理和与外部工具结合。今天我们进入第五篇...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
程序员的开源月刊《HelloGitHub》第 71 期
-
详细介绍一下Redis的Watch机制,可以利用Watch机制来做什么?
-
如何将AI助手接入微信(打开ai手机助手)
-
假如有100W个用户抢一张票,除了负载均衡办法,怎么支持高并发?
-
SparkSQL——DataFrame的创建与使用
-
Java面试必考问题:什么是乐观锁与悲观锁
-
redission YYDS spring boot redission 使用
-
一文带你了解Redis与Memcached? redis与memcached的区别
-
如何利用Redis进行事务处理呢? 如何利用redis进行事务处理呢英文
-
- 最近发表
-
- 什么是Java中的继承?如何实现继承?
- Java 继承与多态:从基础到实战的深度解析
- Java基础教程:Java继承概述_java的继承
- java4个技巧:从继承和覆盖,到最终的类和方法
- java:举例说明继承的概念_java继承的理解
- 从零开始构建一款开源的 Vibe Coding 产品 Week1Day4:业界调研之 Agent 横向对比
- 学会这几个插件,让你的Notepad++使用起来更丝滑
- 将 node_modules 目录放入 Git 仓库的优点
- 再度加码AI编程,腾讯发布AI CLI并宣布CodeBuddy IDE开启公测
- git 如何查看stash的内容_git查看ssh key
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)