百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

大数据处理 | Spark集群搭建及基本使用

wptr33 2024-12-20 19:03 29 浏览


本文将详细介绍Spark集群的搭建及Spark的运行原理、运行模式。

—▼—

Spark集群环境搭建

如果已经理解了前文Hadoop集群环境的搭建,那么学习Spark集群环境的搭建会容易很多,因为Hadoop和Spark不仅安装包目录结构非常相似,在配置方面也十分接近。均是在master节点上进行所有配置,然后打包复制到每个slave节点,然后启动集群Spark即可,下面就来详细介绍一下Spark集群环境的搭建。

下载安装

进入Spark的下载目录,

https://spark.apache.org/downloads.html

可以看到Spark分多个版本,有基于Hadoop构建好的,有没基于Hadoop构建的,有基于Hadoop2.6之前版本构建的,也有基于Hadoop2.7以后版本构建的,由于前面讲解Hadoop集群环境搭建时采用的是Hadoop 3.2.1,因此,而且本文需要使用HDFS依赖Hadoop,因此需要下载Pre-built for Apache Hadoop 2.7 and later,

把spark-2.4.4-bin-hadoop2.7.tgz文件下载到home路径下,然后解压到指定目录,

$?tar?-zxvf?~/spark-2.4.4-bin-hadoop2.7.tgz?-C?/usr/local/

然后进入目录并像Hadoop那样,修改Spark目录的拥有者,

$?cd?/usr/local
$?sudo?mv?./spark-2.4.4-bin-hadoop2.7?./spark
$?sudo?chowm?-R?user_name?./spark

配置环境变量

修改bashrc,配置环境变量,把Spark的bin和sbin路径加入到环境变量,

$?vim?~/.bashrc
export?SPARK_HOME=/usr/local/spark
export?PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export?PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export?PYSPARK_PYTHON=python3

Master节点配置

进入Spark目录,修改spark-env.sh文件,

$?cd?/usr/local/spark
$?vim?./conf/spark-env.sh

在spark-env.sh中添加下面内容,

export?SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop?classpath)
export?HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export?SPARK_MASTER_IP=10.110.113.132

SPARK_MASTER_IP指定的是master节点的IP,后面启动集群Spark时slave节点会注册到SPARK_MASTER_IP,如果这一项不配置,Spark集群则没有可使用资源,

修改slaves文件

配置完master节点信息之后需要配置slave节点信息,slave节点的信息配置在slaves文件里,由于Spark目录下没有这个文件,因此需要首先从slaves.template拷贝一下,

$?cd?/usr/local/spark/
$?cp?./conf/slaves.template?./conf/slaves

然后添加如下内容,

slave0
slave0
slave1

需要注意的是,slaves文件里配置的是运行作业任务的节点(worker),这样的话master的节点只作为控制节点,而不作为工作节点,如果需要把master节点的资源也充分利用起来,需要把master节点也加入到slaves文件中。

slave节点配置

首先在master节点上把配制好的目录进行打包,拷贝到每个slave节点上,

$?cd?/usr/local
$?tar?-zcf?~/spar.tar.gz?./spark
$?scp?~/spark/tar.gz?slave0:~/
$?scp?~/spark/tar.gz?slave1:~/
$?scp?~/spark/tar.gz?slave2:~/

然后在每个slave节点上执行下方命令,把文件解压到相应路径下,

$?sudo?rm?-rf?/usr/local/spark
$?sudo?tar?-zxvf?~/spark.tar.gz?-C?/usr/local
$?sudo?chown?-R?user_name?/usr/local/spark

这样就完成了slave节点的配置。

启动Spark集群

如果要使用HDFS的话,在启动Spark集群前需要先启动Hadoop集群,

$?cd?/usr/local/hadoop/
$?./sbin/start-all.sh

然后进入Spark目录,启动Spark集群,

$?cd?/usr/local/spark
$?./sbin/start-all.sh

需要说明一下,前面配置Hadoop集群是提到,需要配置ssh免密登陆,对于Spark也是同样的道理,如果不配置ssh免密登陆的话,执行./sbin/start-all.sh会提示输入密码。

除了使用./sbin/start-all.sh启动Spark集群外,还可以分开启动,先启动master节点,然后启动slave节点,

$?./sbin/start-master.sh
$?./sbin/start-slaves.sh

如果前面没有完成Master节点配置指定master节点IP,那么执行./sbin/start-slaves.sh时则无法注册master节点的IP,这样集群计算资源则无法使用。除了配置spark-env.sh指定master节点IP外,还可以通过下面方式指定注册的master节点IP,

$?./sbin/start-slave.sh?10.110.113.132

然后分别在master节点和slave节点执行下面命令会看到分别多出一个Master进程和Worker进程。

Spark基本使用

运行原理

如果使用过tensorflow的话,应该对Spark的使用很容易理解,Spark的计算过程和tensorflow有相似之处。

回忆一下,我们在使用tensorflow时需要首先构造一个计算图,然后实例化一个session,然后用session.run来启动图运算。

其实Spark也是这样,RDD(弹性分布式数据集)是Spark中最重要的概念之一,它提供了一个共享内存模型。Saprk的执行过程中主要包括两个动作:转换与行动。其中转换操作就如同tensorflow中的构造计算图的过程,在这个过程中Spark构造一个有向无环图(DAG),但是不进行运算,输入为RDD输出则是一个不同的RDD,当执行行动操作时就如同tensorflow中的session.run,开始执行运算。

Spark中有很多转换操作,例如,

  • groupByKey
  • reduceByKey
  • sortByKey
  • map
  • filter
  • join
  • ……

行动操作包括,

  • count
  • collect
  • first
  • foreach
  • reduce
  • take
  • ……

运行模式

Spark中通过master url来执行Spark的运行模式,Spark的运行模式包括本地运行、集群运行、yarn集群等,关于Spark master url的指定不同运行模式的含义如下,

URL值运行模式local使用1个线程本地化运行local[K]使用K个线程本地化运行local[*]使用逻辑CPU个数数量的线程来本地化运行spark://HOST:PORT指定集群模式运行Sparkyarn-cluster集群模式连接YARN集群yarn-client客户端模式连接YARN集群mesos://HOST:PORT连接到指定的Mesos集群

示例

下面就以一个简单的示例把前面Hadoop和Spark串联在一起,讲解一下HDFS+Spark的使用方法。

上传数据到HDFS

新建一个hello_world.txt的本地文件,并在文件中添加3行hello world,然后上传至HDFS,

$?cd?/usr/local/hadoop/
$?./bin/hdfs?dfs?-mkdir?-p?/usr/hadoop
$?touch?hello_world.txt
$?echo?-e?"hello?world?\nhello?world?\nhello?world"?>>?hello_world.txt
$?./bin/hdfs?dfs?-put?./hello_world.txt?/usr/hadoop

编写Spark程序

新建一个spark.py的Python文件,

$?vim?spark.py

添加如下内容,

from?pyspark?import?SparkConf
from?pyspark?import?SparkContext

conf?=?SparkConf().setAppName("FirstProject").setMaster("local[*]")
sc?=?SparkContext.getOrCreate(conf)
rdd?=?sc.textFile("hdfs:///master:9000/usr/hadoop/hello_world.txt")
rdd.map(lambda?line:?line).foreach(print)

然后运行程序,

$?python?spark.py
hello?world
hello?world
hello?world

以上就是Spark的集群配置过程和基本使用方法。

大数据开发高薪必备全套资源【免费获取】

Oracle高级技术总监多年精心创作一套完整课程体系【大数据、人工智能开发必看】,全面助力大数据开发零基础+入门+提升+项目=高薪

「大数据零基础入门」

「大数据架构系统组件」

「大数据全套系统工具安装包」

Java必备工具

大数据必备工具

「大数据行业必备知资讯」

「大数据精品实战案例」

「大数据就业指导方案」

最后说一下的,也就是以上教程的获取方式!

领取方法:

还是那个万年不变的老规矩

1.评论文章,没字数限制,一个字都行!

2.成为小编成为的粉丝!

3.私信小编:“大数据开发教程”即可!

谢谢大家,祝大家学习愉快!(拿到教程后一定要好好学习,多练习哦!)

相关推荐

什么是Java中的继承?如何实现继承?

什么是继承?...

Java 继承与多态:从基础到实战的深度解析

在面向对象编程(OOP)的三大支柱中,继承与多态是构建灵活、可复用代码的核心。无论是日常开发还是框架设计,这两个概念都扮演着至关重要的角色。本文将从基础概念出发,结合实例与图解,带你彻底搞懂Java...

Java基础教程:Java继承概述_java的继承

继承概述假如我们要定义如下类:学生类,老师类和工人类,分析如下。学生类属性:姓名,年龄行为:吃饭,睡觉老师类属性:姓名,年龄,薪水行为:吃饭,睡觉,教书班主任属性:姓名,年龄,薪水行为:吃饭,睡觉,管...

java4个技巧:从继承和覆盖,到最终的类和方法

日复一日,我们编写的大多数Java只使用了该语言全套功能的一小部分。我们实例化的每个流以及我们在实例变量前面加上的每个@Autowired注解都足以完成我们的大部分目标。然而,有些时候,我们必须求助于...

java:举例说明继承的概念_java继承的理解

在现实生活中,继承一般指的是子女继承父辈的财产。在程序中,继承描述的是事物之间的所属关系,通过继承可以使多种事物之间形成一种关系体系。例如猫和狗都属于动物,程序中便可以描述为猫和狗继承自动物,同理,...

从零开始构建一款开源的 Vibe Coding 产品 Week1Day4:业界调研之 Agent 横向对比

前情回顾前面两天我们重点调研了了一下Cursor的原理和Cursor中一个关键的工具edit_file的实现,但是其他CodingAgent也需要稍微摸一下底,看看有没有优秀之处,下...

学会这几个插件,让你的Notepad++使用起来更丝滑

搞程序开发的小伙伴相信对Notepad++都不会陌生,是一个占用空间少、打开启动快的文件编辑器,很多程序员喜欢使用Notepad++进行纯文本编辑或者脚本开发,但是Notepad++的功能绝不止于此,...

将 node_modules 目录放入 Git 仓库的优点

推荐一篇文章Whyyoushouldcheck-inyournodedependencies[1]...

再度加码AI编程,腾讯发布AI CLI并宣布CodeBuddy IDE开启公测

“再熬一年,90%的程序员可能再也用不着写for循环。”凌晨两点半,王工还在公司敲键盘。他手里那份需求文档写了足足六页,产品经理反复改了三次。放在过去,光数据库建表、接口对接、单元测试就得写两三天。现...

git 如何查看stash的内容_git查看ssh key

1.查看Stash列表首先,使用gitstashlist查看所有已保存的stash:...

6万星+ Git命令懒人必备!lazygit 终端UI神器,效率翻倍超顺手!

项目概览lazygit是一个基于终端的Git命令可视化工具,通过简易的TUI(文本用户界面)提升Git操作效率。开发者无需记忆复杂命令,即可完成分支管理、提交、合并等操作。...

《Gemini CLI 实战系列》(一)Gemini CLI 入门:AI 上命令行的第一步

谷歌的Gemini模型最近热度很高,而它的...

deepin IDE新版发布:支持玲珑构建、增强AI智能化

IT之家8月7日消息,深度操作系统官方公众号昨日(8月6日)发布博文,更新推出新版deepin集成开发环境(IDE),重点支持玲珑构建。支持玲珑构建deepinIDE在本次重磅更...

狂揽82.7k的star,这款开源可视化神器,轻松创建流程图和图表

再不用Mermaid,你的技术文档可能已经在悄悄“腐烂”——图表版本对不上、同事改完没同步、评审会上被一句“这图哪来的”问得哑口无言。这不是危言耸听。GitHub2025年开发者报告显示,63%的新仓...

《Gemini CLI 实战系列》(五)打造专属命令行工具箱

在前几篇文章中,我们介绍了GeminiCLI的基础用法、效率提升、文件处理和与外部工具结合。今天我们进入第五篇...