百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

DataSphereStudio 安装部署文档 data-integration怎么安装

wptr33 2024-12-20 19:03 15 浏览

DSS部署在 bigdata4 节点上。

1.1 下载安装包

地址:https://osp-1257653870.cos.ap-guangzhou.myqcloud.com/WeDatasphere/DataSphereStudio/1.1.1/dss_linkis_one-click_install_20221201.zip
版本:1.1.1

1.2 部署前注意事项(重要)

  • 确保安装的系统为CentOS为6或者7
  • 服务器存在多网卡问题。首先通过命令ifconfig命令查看服务器激活状态的网卡,若激活状态的网卡数大于1,那么用户就需要通过命令ifconfig [NIC_NAME] down([NIC_NAME]为网卡名称)来关闭多余的网卡,以确保激活的网卡数只有1个
  • 网卡多IP问题。在确保服务器只存在一个网卡是激活状态的情况下,通过命令echo $(hostname -I)查看网卡对应的IP数,若大于1,那么就需要去掉网卡中指定的IP,采用动态获取IP的方式,具体命令如下:ip addr flush dev [NIC_NAME]
    ifdown [NIC_NAME]
    ifup [NIC_NAME]
  • hostname配置。在安装前用户需要配置hostname到ip的映射

1.3 基础软件安装

1.3.1 概述

  • 需要的命令工具(在正式安装前,脚本会自动检测这些命令是否可用,如果不存在会尝试自动安装,安装失败则需用户手动安装以下基础shell命令工具):
    telnet; tar; sed; dos2unix; mysql; yum; java; unzip; zip; expect
  • 需要安装的软件:
    MySQL (5.5+); JDK (1.8.0_141以上); Python(2.x和3.x都支持); Nginx
  • 下面的服务必须可从本机访问:
    Hadoop(2.7.2,Hadoop其他版本需自行编译Linkis) ,安装的机器必须支持执行 hdfs dfs -ls / 命令
    Hive(2.3.3,Hive其他版本需自行编译Linkis),安装的机器必须支持执行hive -e “show databases”命令
    Spark(支持2.0以上所有版本) ,安装的机器必须支持执行spark-sql -e “show databases” 命令
  • Tips:
    如用户是第一次安装Hadoop,单机部署Hadoop可参考:Hadoop单机部署 ;分布式部署Hadoop可参考:Hadoop分布式部署
    如用户是第一次安装Hive,可参考:Hive快速安装部署
    如用户是第一次安装Spark,On Yarn模式可参考:Spark on Yarn部署

1.3.2 基础软件安装

1.3.2.1 Linux命令安装

yum install -y telnet-server.x86_64
yum install -y telnet.x86_64
yum -y install sed
yum install -y dos2unix
yum -y install expect

1.3.2.2 如果用户的Pyspark想拥有画图功能,则还需在所有安装节点,安装画图模块

python -m pip install matplotlib

1.3.2.3 MySQL安装

①. 在 bigdata4 节点上,安装MySQL8.0.31
下载地址:https://dev.mysql.com/get/Downloads/MySQL-8.0/mysql-8.0.31-linux-glibc2.12-x86_64.tar.xz

②. 上传并解压解压mysql-8.0.31-linux-glibc2.12-x86_64.tar.xz

#1.上传jar包:
cd /opt
sudo rz  Ctrl + 点击鼠标右键上传jar包

#2.解压:
sudo tar -xvf mysql-8.0.31-linux-glibc2.12-x86_64.tar.xz

#3.删掉安装包:
sudo rm -rf mysql-8.0.31-linux-glibc2.12-x86_64.tar.xz

#4.更改名称
sudo mv mysql-8.0.31-linux-glibc2.12-x86_64 mysql-8.0.31

#5.更改用户组
sudo chown -R admin:admin mysql-8.0.31/

③. 填写配置文件
在MySQL根目录下创建配置文件 my.cnf

vim /opt/mysql-8.0.31/my.cnf

配置文件如下:

[mysqld]
# 设置3306端口
port=3306
# 设置mysql的安装目录
basedir=/opt/mysql-8.0.31
# 设置mysql数据库的数据的存放目录
datadir=/opt/mysql-8.0.31/data
# 允许最大连接数
max_connections=2000
# 允许连接失败的次数。这是为了防止有人从该主机试图攻击数据库系统
max_connect_errors=10
# 服务端使用的字符集默认为UTF8
character-set-server=utf8
# 创建新表时将使用的默认存储引擎
default-storage-engine=INNODB
#sql_mode中去掉了ONLY_FULL_GROUP_BY
sql_mode=STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION
[mysql]
# 设置mysql客户端默认字符集
default-character-set=utf8
[client]
# 设置mysql客户端连接服务端时默认使用的端口
port=3306
default-character-set=utf8

在MySQL根目录下创建数据文件夹:

cd /opt/mysql-8.0.31
mkdir data

④. MySQL初始化

cd /opt/mysql-8.0.31/bin
./mysqld --defaults-file=/opt/mysql-8.0.31/my.cnf  --initialize-insecure

⑤. 启动MySQL

/opt/mysql-8.0.31/bin/mysqld_safe --defaults-file=/opt/mysql-8.0.31/my.cnf &

⑥. 查看是否启动

ps -ef|grep mysql



⑦. 配置环境变量

  • 打开 /etc/profile.d 目录下的 my_env.sh 文件sudo vim /etc/profile.d/my_env.sh
  • 添加如下内容,然后保存(:wq)退出#MYSQL_HOME
    export MYSQL_HOME=/opt/mysql-8.0.31
    export PATH=$PATH:$MYSQL_HOME/bin
  • 让环境变量生效source /etc/profile.d/my_env.sh

⑧. 登录数据库

mysql -u root -p


⑨. 修改密码

flush privileges;
ALTER USER 'root'@'localhost'IDENTIFIED BY 'root' PASSWORD EXPIRE NEVER;
ALTER USER 'root'@'localhost'IDENTIFIED wITH mysql_native_password BY 'Xl123456';
flush privileges;

1.3.2.4 Nginx安装

①. 在 bigdata4 节点上,安装nginx-1.22.1
下载地址:https://nginx.org/download/nginx-1.22.1.tar.gz

②. 上传并解压解压 nginx-1.22.1.tar.gz

#1.上传jar包:
cd /opt
sudo rz  Ctrl + 点击鼠标右键上传jar包

#2.解压:
sudo tar -xvf nginx-1.22.1.tar.gz

#3.删掉安装包:
sudo rm -rf nginx-1.22.1.tar.gz

#4.更改用户组
sudo chown -R admin:admin nginx-1.22.1/

③. 安装nginx

# 创建 /usr/local/nginx 文件夹
cd /usr/local
sudo mkdir nginx
sudo chown -R admin:admin nginx/


cd /opt/nginx-1.22.1/

./configure --with-http_ssl_module --with-ipv6 --with-stream

./configure --prefix=/usr/local/nginx --with-http_stub_status_module --with-http_ssl_module --with-http_flv_module --with-http_stub_status_module --with-stream --with-http_gzip_static_module

make && make install

④. 启动nginx

cd /usr/local/nginx/sbin/

sudo ./nginx

1.4 修改配置

#1.上传jar包:
cd /opt
sudo rz  Ctrl + 点击鼠标右键上传jar包

#2.解压:
sudo unzip dss_linkis_one-click_install_20221201.zip

#3.删掉安装包:
sudo rm -rf dss_linkis_one-click_install_20221201.zip

#4.更改名称
sudo mv dss_linkis_one-click_install_20221201/ dss_linkis

#5.更改用户组
sudo chown -R admin:admin dss_linkis/
  • 用户需要对 /opt/dss_linkis/conf 目录下的 config.sh 和 db.sh 进行修改。
  • 修改config.sh
vim /opt/dss_linkis/conf/config.sh

修改文件内容如下:

### deploy user
deployUser=admin

### Linkis_VERSION
LINKIS_VERSION=1.1.1

### DSS Web
DSS_NGINX_IP=127.0.0.1
DSS_WEB_PORT=8085

### DSS VERSION
DSS_VERSION=1.1.1


############## ############## linkis的其他默认配置信息 start ############## ##############
### Specifies the user workspace, which is used to store the user's script files and log files.
### Generally local directory
##file:// required
WORKSPACE_USER_ROOT_PATH=/home/admin/linkis
### User's root hdfs path
##hdfs:// required
HDFS_USER_ROOT_PATH=hdfs:///tmp/linkis 
### Path to store job ResultSet:file or hdfs path
##hdfs:// required
RESULT_SET_ROOT_PATH=hdfs:///tmp/linkis 

### Path to store started engines and engine logs, must be local
ENGINECONN_ROOT_PATH=/home/admin/linkis/tmp

#ENTRANCE_CONFIG_LOG_PATH=hdfs:///tmp/linkis/ ##hdfs:// required

###HADOOP CONF DIR #/appcom/config/hadoop-config
HADOOP_CONF_DIR=/opt/hadoop-3.1.3/etc/hadoop
###HIVE CONF DIR  #/appcom/config/hive-config
HIVE_CONF_DIR=/opt/hive/conf
###SPARK CONF DIR #/appcom/config/spark-config
SPARK_CONF_DIR=/opt/hive/conf
# for install
LINKIS_PUBLIC_MODULE=lib/linkis-commons/public-module


##YARN REST URL  spark engine required
YARN_RESTFUL_URL=http://172.16.3.45:8088/

## Engine version conf
#SPARK_VERSION
SPARK_VERSION=3.0.0
##HIVE_VERSION
HIVE_VERSION=3.1.2
PYTHON_VERSION=python2

## LDAP is for enterprise authorization, if you just want to have a try, ignore it.
#LDAP_URL=ldap://localhost:1389/
#LDAP_BASEDN=dc=webank,dc=com
#LDAP_USER_NAME_FORMAT=cn=%s@xxx.com,OU=xxx,DC=xxx,DC=com

################### The install Configuration of all Linkis's Micro-Services #####################
#
#    NOTICE:
#       1. If you just wanna try, the following micro-service configuration can be set without any settings.
#            These services will be installed by default on this machine.
#       2. In order to get the most complete enterprise-level features, we strongly recommend that you install
#          the following microservice parameters
#

###  EUREKA install information
###  You can access it in your browser at the address below:http://${EUREKA_INSTALL_IP}:${EUREKA_PORT}
###  Microservices Service Registration Discovery Center
LINKIS_EUREKA_INSTALL_IP=127.0.0.1
LINKIS_EUREKA_PORT=9600
#LINKIS_EUREKA_PREFER_IP=true

###  Gateway install information
#LINKIS_GATEWAY_INSTALL_IP=127.0.0.1
LINKIS_GATEWAY_PORT=9001

### ApplicationManager
#LINKIS_MANAGER_INSTALL_IP=127.0.0.1
LINKIS_MANAGER_PORT=9101

### EngineManager
#LINKIS_ENGINECONNMANAGER_INSTALL_IP=127.0.0.1
LINKIS_ENGINECONNMANAGER_PORT=9102

### EnginePluginServer
#LINKIS_ENGINECONN_PLUGIN_SERVER_INSTALL_IP=127.0.0.1
LINKIS_ENGINECONN_PLUGIN_SERVER_PORT=9103

### LinkisEntrance
#LINKIS_ENTRANCE_INSTALL_IP=127.0.0.1
LINKIS_ENTRANCE_PORT=9104

###  publicservice
#LINKIS_PUBLICSERVICE_INSTALL_IP=127.0.0.1
LINKIS_PUBLICSERVICE_PORT=9105

### cs
#LINKIS_CS_INSTALL_IP=127.0.0.1
LINKIS_CS_PORT=9108

########## Linkis微服务配置完毕##### 

################### The install Configuration of all DataSphereStudio's Micro-Services #####################
#
#    NOTICE:
#       1. If you just wanna try, the following micro-service configuration can be set without any settings.
#            These services will be installed by default on this machine.
#       2. In order to get the most complete enterprise-level features, we strongly recommend that you install
#          the following microservice parameters
#

### DSS_SERVER
### This service is used to provide dss-server capability.

### project-server
#DSS_FRAMEWORK_PROJECT_SERVER_INSTALL_IP=127.0.0.1
#DSS_FRAMEWORK_PROJECT_SERVER_PORT=9002
### orchestrator-server
#DSS_FRAMEWORK_ORCHESTRATOR_SERVER_INSTALL_IP=127.0.0.1
#DSS_FRAMEWORK_ORCHESTRATOR_SERVER_PORT=9003
### apiservice-server
#DSS_APISERVICE_SERVER_INSTALL_IP=127.0.0.1
#DSS_APISERVICE_SERVER_PORT=9004
### dss-workflow-server
#DSS_WORKFLOW_SERVER_INSTALL_IP=127.0.0.1
#DSS_WORKFLOW_SERVER_PORT=9005
### dss-flow-execution-server
#DSS_FLOW_EXECUTION_SERVER_INSTALL_IP=127.0.0.1
#DSS_FLOW_EXECUTION_SERVER_PORT=9006
###dss-scriptis-server
#DSS_SCRIPTIS_SERVER_INSTALL_IP=127.0.0.1
#DSS_SCRIPTIS_SERVER_PORT=9008

###dss-data-api-server
#DSS_DATA_API_SERVER_INSTALL_IP=127.0.0.1
#DSS_DATA_API_SERVER_PORT=9208
###dss-data-governance-server
#DSS_DATA_GOVERNANCE_SERVER_INSTALL_IP=127.0.0.1
#DSS_DATA_GOVERNANCE_SERVER_PORT=9209
###dss-guide-server
#DSS_GUIDE_SERVER_INSTALL_IP=127.0.0.1
#DSS_GUIDE_SERVER_PORT=9210
########## DSS微服务配置完毕#####

############## ############## other default configuration 其他默认配置信息  ############## ##############

## java application default jvm memory
export SERVER_HEAP_SIZE="512M"


##sendemail配置,只影响DSS工作流中发邮件功能
EMAIL_HOST=smtp.163.com
EMAIL_PORT=25
EMAIL_USERNAME=mixiangchong@xianglin.cn
EMAIL_PASSWORD=Xl123456
EMAIL_PROTOCOL=smtp

### Save the file path exported by the orchestrator service
ORCHESTRATOR_FILE_PATH=/home/admin/dss
### Save DSS flow execution service log path
EXECUTION_LOG_PATH=/home/admin/dss
  • 修改db.sh
### for DSS-Server and Eventchecker APPCONN
MYSQL_HOST=172.16.3.26
MYSQL_PORT=3306
MYSQL_DB=dss
MYSQL_USER=root
MYSQL_PASSWORD=Xl123456

#主要是配合scriptis一起使用,如果不配置,会默认尝试通过$HIVE_CONF_DIR 中的配置文件获取
# HiveMeta元数据库的URL
HIVE_META_URL=jdbc:mysql://172.16.3.26:3306/metastore?useSSL=false&useUnicode=true&characterEncoding=UTF-8
# HiveMeta元数据库的用户
HIVE_META_USER=root
 # HiveMeta元数据库的密码
HIVE_META_PASSWORD=Xl123456

1.5 安装和使用

1.5.1 停止机器上所有DSS及Linkis服务

  • 若从未安装过DSS及Linkis服务,忽略此步骤

1.5.2 将当前目录切换到bin目录

cd /opt/dss_linkis/bin

1.5.3 执行安装脚本

sh install.sh
  • 该安装脚本会检查各项集成环境命令,如果没有请按照提示进行安装,以下命令为必须项:
    yum; java; mysql; unzip; expect; telnet; tar; sed; dos2unix; nginx
  • 安装时,脚本会询问您是否需要初始化数据库并导入元数据,Linkis 和 DSS 均会询问,第一次安装必须选是
  • 通过查看控制台打印的日志信息查看是否安装成功,如果有错误信息,可以查看具体报错原因
  • 除非用户想重新安装整个应用,否则该命令执行一次即可

1.5.4 启动服务

  • 若用户的Linkis安装包是通过自己编译获取且用户想启用数据源管理功能,那么就需要去修改配置以启动该项功能,使用下载的安装包无需操作
# 切换到Linkis配置文件目录
cd /opt/dss_linkis/linkis/conf

# 打开配置文件linkis-env.sh
vim linkis-env.sh

# 将如下配置改为true
export ENABLE_METADATA_MANAGER=true
  • 若用户的Linkis安装包是通过自己编译获取,在启动服务前尽量将后续用到的密码改成和部署用户名一致,使用下载的安装包无需操作
## 切换到Linkis配置文件目录
cd /opt/dss_linkis/linkis/conf/

## 打开配置文件linkis-mg-gateway.properties
vim linkis-mg-gateway.properties

## 修改密码
wds.linkis.admin.password=hadoop
  • 在xx/dss_linkis/bin目录下执行启动服务脚本
sh /opt/dss_linkis/bin/start-all.sh
  • 如果启动产生了错误信息,可以查看具体报错原因。启动后,各项微服务都会进行通信检测,如果有异常则可以帮助用户定位异常日志和原因

1.5.5 安装默认Appconn

# 切换目录到dss,正常情况下dss目录就在xx/dss_linkis目录下,
cd /opt/dss_linkis/dss/bin

# 执行启动默认Appconn脚本
sh install-default-appconn.sh
  • 该命令执行一次即可,除非用户想重新安装整个应用

1.5.6 查看验证是否成功

  • 用户可以在Eureka界面查看 Linkis & DSS 后台各微服务的启动情况,默认情况下DSS有7个微服务,Linkis有10个微服务(包括启用数据源管理功能后的两个微服务) (Eureka地址在xx/dss_linkis/conf/config.sh有配置)
  • 用户可以使用谷歌浏览器访问以下前端地址:http://DSS_NGINX_IP:DSS_WEB_PORT 启动日志会打印此访问地址(在xx/dss_linkis/conf/config.sh中也配置了此地址)。登陆时默认管理员的用户名和密码均为部署用户为hadoop(用户若想修改密码,可以通过修改 /opt/dss_linkis/linkis/conf/linkis-mg-gateway.properties 文件中的 wds.linkis.admin.password 参数)

1.5.7 停止服务

sh /opt/dss_linkis/bin/stop-all.sh
  • 若用户需要停止所有服务可执行该命令sh stop-all.sh,重新启动所有服务就执行sh start-all.sh,这两条命令均在xx/dss_linkis/bin目录下执行

1.6 补充说明

  • 考虑到安装包过于大的问题,Linkis默认仅提供Hive, Python, Shell, Spark引擎插件,用户若想使用其他引擎,可参考文档: Linkis引擎的安装
  • DSS默认未安装调度系统,用户可以选择安装 Schedulis 或者 DolphinScheduler,具体安装方式见下面表格
  • DSS默认仅安装DateChecker, EventSender, EventReceiver AppConn,用户可参考文档安装其他AppConn,如Visualis, Exchangis, Qualitis, Prophecis, Streamis。调度系统可使用Schedulis或DolphinScheduler

1.7 web端访问地址:

地址:http://172.16.3.44:8085/#/login
账号:admin
密码:hadoop



1.8 官网文档地址

https://github.com/WeBankFinTech/DataSphereStudio-Doc/blob/main/zh_CN/%E5%AE%89%E8%A3%85%E9%83%A8%E7%BD%B2/DSS%26Linkis%E4%B8%80%E9%94%AE%E9%83%A8%E7%BD%B2%E6%96%87%E6%A1%A3%E5%8D%95%E6%9C%BA%E7%89%88.md#1

欢迎进入开发者交流群,以下学习资料有助于你了解WDS:

(1)沙箱环境使用指南:https://mp.weixin.qq.com/s/Wo_AzboxyhTSk5A69TvaBA
(2)WeDataSphere视频介绍:https://www.bilibili.com/video/BV1De4y1Z7ZZ
(3)使用DSS实现可视化BI:https://www.bilibili.com/video/BV1xY4y1t7Ma
(4)技术文章集锦:https://mp.weixin.qq.com/s/OLw9VLz80otLMP3BD1m7JA

如果你们有培训、安装部署、运维支持等商业合作的需求,欢迎联系小助手进行详细沟通

1.9 常见问题:

1.9.1 启动服务报错


相关推荐

SpringBoot 3 + Flutter3 实战低代码运营管理-10章

获课》aixuetang.xyz/5075/三天构建运营管理系统:SpringBoot3+Flutter3高效开发方法论...

SpringBoot探针实现:从零构建应用健康监控利器

SpringBoot探针实现:从零构建应用健康监控利器声明本文中的所有案例代码、配置仅供参考,如需使用请严格做好相关测试及评估,对于因参照本文内容进行操作而导致的任何直接或间接损失,作者概不负责。本文...

Spring Batch中的JobRepository:批处理的“记忆大师”是如何工作

一、JobRepository是谁?——批处理的“档案馆”JobRepository是SpringBatch的“记忆中枢”,负责记录所有Job和Step的执行状态。它像一位严谨的档案管理员,把任务执...

Github霸榜的SpringBoot全套学习教程,从入门到实战,内容超详细

前言...

还在为 Spring Boot3 技术整合发愁?一文解锁大厂都在用的实用方案

你在使用SpringBoot3开发后端项目时,是不是常常陷入这样的困境?想提升项目性能和功能,却不知道该整合哪些技术;好不容易选定技术,又在配置和使用上频频踩坑。其实,这是很多互联网大厂后端开发...

一文吃透!Spring Boot 项目请求日志记录,这几招你绝对不能错过!

在互联网应用开发的高速赛道上,系统的稳定性、可维护性以及安全性是每一位开发者都必须关注的核心要素。而请求日志记录,就如同系统的“黑匣子”,能够为我们提供排查故障、分析用户行为、优化系统性能等关键信息...

spring-boot-starter-actuator简单介绍

SpringBootActuator是SpringBoot的一个功能强大的子项目,它提供了一些有用的监控和管理SpringBoot应用程序的端点。SpringBootActuat...

使用SpringBoot钩子或Actuator实现优雅停机

服务如何响应停机信号在java中我们可以直接利用通过Runtime...

28-自定义Spring Boot Actuator指标

上篇我们学习了《27-自定义SpringBootActuator健康指示器》,本篇我们学习自定义SpringBootActuator指标(Metric)。...

如何在Spring Boot中整合Spring Boot Actuator进行服务应用监控?

监控是确保系统稳定性和性能的关键组成部分,而在SpringBoot中就提供了默认的应用监控方案SpringBootActuator,通过SpringBootActuator提供了开箱即用的应...

「Spring Boot」 Actuator Endpoint

Actuator官网地址:https://docs.spring.io/spring-boot/docs/2.5.6/reference/html/actuator.html目的监控并管理应用程序...

Spring Boot Actuator监控功能全面剖析

SpringBootActuator监控功能全面剖析在现代企业级Java开发中,SpringBoot以其轻量化、高效率的特性深受开发者青睐。而作为SpringBoot生态系统的重要组成部分,S...

1000字彻底搞懂SpringBootActuator组件!

SpringBootActuator组件SpringBootActuator通过HTTPendpoints或者JMX来管理和监控SpringBoot应用,如服务的审计、健康检查、指标统计和...

JavaScript数据类型(javascript数据类型介绍)

基本数据类型BooleanNullNumberStringSymbolUndefined对象数据类型ObjectArray定义:JavaScript数组是内置的对象之一,它可以用一个变量来存储多个同种...

能运行,不代表它是对的:5 个潜伏在正常功能下的 JavaScript 错误

JavaScript的动态性和复杂性意味着,代码虽然表面上正常运行,但一些深层次、隐蔽的陷阱往往让人意想不到,梳理了几个JavaScript开发中难以发现的隐蔽错误,旨在帮助我们写出更健壮、更可...