Oracle 创建磁盘组报错ORA-15137的问题分析与解决思路
wptr33 2025-07-09 18:01 6 浏览
ASM扩容本来是件很简单的事,当ASM磁盘准备好之后,直接一条命令就会添加上。但是也会有异常情况,最近就碰到Oracle 19c在扩容时报错的故障,供大家参考。
集群处于ROLLING PATCH模式
背景
某ERP数据库采用Oracle 19c RAC集群,部署架构为传统架构即两台计算节点外挂集中存储。ASM的DATA磁盘组空闲较小需扩容,执行对DATA磁盘组的扩容操作,但报错失败。
报错ORA-15137。这个报错还没见过。我们通过完整的分析过程来展现分析思路。
收集信息
1、查看ASM磁盘组现有状态
通过命令查询,ASM的DATA磁盘组用于存放数据文件;ARCH磁盘组用于存放归档文件。
其中DATA磁盘组总量2TB,目前空闲可用约300GB;ARCH磁盘组总量1TB,目前空闲可用约700GB。
[root@erp1 ~]# su - gridLast login: Fri Jan 15 15:37:01 CST 2021
[grid@erp1 ~]$ asmcmd
ASMCMD> lsdg
State Type Rebal Sector Logical_Sector Block AU Total_MB Free_MB Req_mir_free_MB Usable_file_MB Offline_disks Voting_files Name
MOUNTED EXTERN N 512 512 4096 1048576 1048576 716705 0 716705 0 N ARCH/
MOUNTED NORMAL N 512 512 4096 4194304 15360 14388 5120 4634 0 Y CRS/
MOUNTED EXTERN N 512 512 4096 1048576 2097152 323132 0 323132 0 N DATA/
ASMCMD>
2、查看磁盘(权限和属组)
①通过lsblk命令查询sdf、sdg、sdh、sdi,均为1TB磁盘;
②通过scsi_id命令查询磁盘ID;
③通过查看
99-oracle-asmdevices.rules文件。在1月14日进行了修改,将
3604fe8d100d5d230b888210a00000038磁盘绑定了别名asm-data03;
④在/dev目录下查看绑定状态正确无误。
[root@erp1 ~]# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 558.7G 0 disk
├─sda1 8:1 0 1G 0 part /boot
└─sda2 8:2 0 557.7G 0 part
├─centos-root 253:0 0 493.7G 0 lvm /
└─centos-swap 253:1 0 64G 0 lvm [SWAP]
sdb 8:16 0 5.5T 0 disk
└─sdb1 8:17 0 5T 0 part /backup
sdc 8:32 0 5G 0 disk
sdd 8:48 0 5G 0 disk
sde 8:64 0 5G 0 disk
sdf 8:80 0 1T 0 disk
sdg 8:96 0 1T 0 disk
sdh 8:112 0 1T 0 disk
sdi 8:128 0 1T 0 disk
up-0 252:0 0 5G 0 disk
up-1 252:1 0 5G 0 disk
up-2 252:2 0 5G 0 disk
up-3 252:3 0 1T 0 disk
up-4 252:4 0 1T 0 disk
up-5 252:5 0 1T 0 disk
up-6 252:6 0 5G 0 disk
up-7 252:7 0 5G 0 disk
loop0 7:0 0 4.3G 0 loop /media
up-10 252:10 0 1T 0 disk
up-12 252:12 0 5G 0 disk
up-13 252:13 0 5G 0 disk
up-16 252:16 0 1T 0 disk
up-20 252:20 0 5G 0 disk
up-21 252:21 0 1T 0 disk
up-23 252:23 0 1T 0 disk
up-24 252:24 0 1T 0 disk
up-25 252:25 0 1T 0 disk
up-26 252:26 0 1T 0 disk
[root@erp1 ~]#
[root@erp1 dev]# for i in `cat /proc/partitions|awk '{print $4}'|grep sd`;do echo "###$i: `/usr/lib/udev/scsi_id -g -u /dev/$i`";done
###sda: 3600508b1001cda76417cf02db9743e70
###sda1: 3600508b1001cda76417cf02db9743e70
###sda2: 3600508b1001cda76417cf02db9743e70
###sdb: 3600508b1001c7a0f06f5b4a9bf1cb976
###sdb1: 3600508b1001c7a0f06f5b4a9bf1cb976
###sdc: 3604fe8d100d5d230c0ebe3c90000001d
###sdd: 3604fe8d100d5d230c0ebe3f20000001e
###sde: 3604fe8d100d5d230c0ebe41c0000001f
###sdf: 3604fe8d100d5d230bc5ea3a50000001
a###sdg: 3604fe8d100d5d230bc5ea3ce0000001b
###sdh: 3604fe8d100d5d230bc5f19f80000001c
###sdi: 3604fe8d100d5d230b888210a00000038
[root@erp1 udev]# cd rules.d/
[root@erp1 rules.d]# l
ltotal 16-rw-------. 1 root root 211 Jun 24 2020 56-nxup.rules
-rw-r--r--. 1 root root 1390 Jan 14 09:21 99-oracle-asmdevices.rules
-rw-r----- 1 root root 1653 Jun 30 2020 99-oracle-asmdevices.rules.old.bak
-rw-------. 1 root root 571 Jun 24 2020 99-ultrapath.rules
[root@erp1 rules.d]# cat 99-oracle-asmdevices.rules
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230c0ebe3c90000001d", SYMLINK+="asm-ocr01", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230c0ebe3f20000001e", SYMLINK+="asm-ocr02", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230c0ebe41c0000001f", SYMLINK+="asm-ocr03", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230bc5ea3a50000001a", SYMLINK+="asm-data01", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230bc5ea3ce0000001b", SYMLINK+="asm-data02", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230bc5f19f80000001c", SYMLINK+="asm-arch01", OWNER="grid", GROUP="asmadmin", MODE="0660"
KERNEL=="sd*", SUBSYSTEM=="block", PROGRAM=="/usr/lib/udev/scsi_id -g -u -d $devnode", RESULT=="3604fe8d100d5d230b888210a00000038", SYMLINK+="asm-data03", OWNER="grid", GROUP="asmadmin", MODE="0660"
补充:
验证属组权限的,还有一个更快捷的方法——kfod。当我们创建磁盘组的时候,Oracle就是调用kfod命令来发现磁盘的,如果能够被kfod识别,那这块盘就能够被Oracle正确识别:
常用验证命令:
kfod status=true disks=all op=disks
3、查看ASM alert日志,是否还有更多信息:
和前台界面报错一样,ORA-15137,再没有更多信息。
现在就是新加的这块盘没有问题,不管是OS,还是Oracle,都能够正常识别这块盘。按理说是可以正常扩容成功的,但是ASM alert实例就是添加报错。
MOS
现在只有查询官方文档了。看有没有蛛丝马迹。
通过报错关键词查询(ORA-15137: The ASM cluster is in rolling patch state.)。
匹配文档: [OCI] Scale-up Failed in DBCS With ORA-15032: not all alterations performed, ORA-15137: The ASM cluster is in rolling patch state (Doc ID 2681040.1)
为两台计算节点补丁不一致,list of patches在计算节点1缺少一个, patch level值不一致。
1节点:
[grid@erp1 trace]$ /u01/app/19.3.0/grid/bin/kfod op=patches
---------------
List of Patches
===============
30869156
30869304
30894985
30898856
[grid@erp1 trace]$ /u01/app/19.3.0/grid/bin/kfod op=PATCHLVL
-------------------
Current Patch level
===================
3633918477
[grid@erp1 trace]$ /u01/app/19.3.0/grid/bin/crsctl query crs softwarepatch
Oracle Clusterware patch level on node erp1 is [3633918477].
[grid@erp1 trace]$ /u01/app/19.3.0/grid/bin/crsctl query crs activeversion -f
Oracle Clusterware active version on the cluster is [19.0.0.0.0]. The cluster upgrade state is [ROLLING PATCH]. The cluster active patch level is [724960844].
[grid@erp1 trace]$ /u01/app/19.3.0/grid/bin/asmcmd showclusterstate
In Rolling Patch
[grid@erp1 trace]$
2节点:
[grid@erp2 trace]$ /u01/app/19.3.0/grid/bin/kfod op=patches
---------------
List of Patches
===============
29517242
30869156
30869304
30894985
30898856
[grid@erp2 trace]$ /u01/app/19.3.0/grid/bin/kfod op=PATCHLVL
-------------------
Current Patch level
===================
1019803962
[grid@erp2 trace]$ /u01/app/19.3.0/grid/bin/crsctl query crs softwarepatch
Oracle Clusterware patch level on node erp2 is [1019803962].
[grid@erp2 trace]$ /u01/app/19.3.0/grid/bin/crsctl query crs activeversion -f
Oracle Clusterware active version on the cluster is [19.0.0.0.0]. The cluster upgrade state is [ROLLING PATCH]. The cluster active patch level is [724960844].
[grid@erp2 trace]$ /u01/app/19.3.0/grid/bin/asmcmd showclusterstate
In Rolling Patch
上述的state is [ROLLING PATCH],一般显示为state is [NORMAL]。此处已经异常。
可以看出两点:
- 集群处于ROLLING PATCH模式;
- 对比发现,crs softwarepatch补丁信息不一致,而且kfod工具的补丁,2节点比1节点多一个。
看起来是由于2个节点的补丁不一致,导致集群处于ROLLING PATCH模式。那为什么会有补丁信息不一样的情况?
因为我们打补丁的时候,是通过opatchauto自动打的,而且是2个节点一起打的。经询问,打补丁的过程没有报错。这个就比较奇怪了。打算提个sr咨询下原厂,因为未来还要大批量的打补丁,这将是个隐患。
补充:
这种查看补丁的方式还是第一次用,以前常用的都是opatch lspatches和opatch lsinventory来查看节点的补丁信息,如下:
对比发现:两节点安装的RU是一致的。所以在此处,此方法查看补丁的方法是行不通的。
小结:通过命令和日志查询,发现在1月14日早9时,进行了udev绑定状态正常,进行了DATA磁盘组添加磁盘,报错失败。经过搜索查询,疑似为两台计算节点补丁不一致造成。目前数据库使用状态正常,管控应用使用状态正常。
解决
以下所有的操作都是在多余的补丁的那个节点操作的,即2节点操作:
1、停止2节点数据库:shutdown immediate
2、./rootcrs.sh -prepatch
3、 ./patchgen commit -rb 29757256 (29757256是节点二多余的那个补丁)
4、./rootcrs.sh -postpatch
执行完第三步会报错,按照MOS文档 2348013.1 处理
5、./rootcrs.sh -prepatch
6、./rootcrs.sh -postpatch
7、ASMCMD进去,showclusterstate,再检查patch状态,从rolling变为normal
至此,添加ASM磁盘正常。
问题原因
本次故障是因为安装补丁的时候,由于未知原因,导致kfod这个工具的补丁不一致,集群处于ROLLING PATCH模式,识别ASM磁盘都没有问题,但是会导致ASM扩容失败。
手动安装补丁,没有执行rootcrs.sh的脚本
今天在测试环境创建磁盘组时报错了,虽然不知道问题是怎样产生的,但是最后解决了,特此记录一下。
问题现象
create diskgroup xxxxx;
ORA-15018: Diskgroup can not be created
ORA-15137: cluster in rolling patch
问题原因
猜测是因为打19.4.2的补丁时不是用opatchauto打的,并且打的时候没有跑rootcrs.sh的脚本。
问题解决
如果下面命令查询2个节点命令不一致的话可以用下面的方法解决,可惜我的2个节点一致这个方法不行:
crsctl query crs softwarepatch
crsctl stop rollingpatch
2个节点分别跑rootcrs.sh的脚本,问题得到解决:
/crs/install/rootcrs.sh -prepatch
/rdbms/install/rootadd_rdbms.sh
If this is an Oracle Restart Home, as the root user execute:
/crs/install/rootcrs.sh -postpatch
参考:
[OCI] Scale-up Failed in DBCS With ORA-15032: not all alterations performed, ORA-15137: The ASM cluster is in rolling patch state (Doc ID 2681040.1)
Patching 12.2.0.1 Grid Infrastructure gives error CRS-6706: Oracle Clusterware Release Patch Level (‘748994161’) Does Not Match Software Patch Level (Doc ID 2348013.1)
墨天轮原文链接:
https://www.modb.pro/db/101954?sjhy(复制到浏览器或者点击oracle 创建磁盘组报错 ORA-15137 - 墨天轮立即查看)
关于作者
樊卓卓,云和恩墨西区交付团队技术顾问。超过7年的Oracle DBA经验,服务于运营商、电力、银行、国税、制造、广电等行业,拥有PGCA、PGCE、OBCA、OBCP多项认证,擅长Oracle数据库升级迁移、备份恢复、故障诊断。
相关推荐
- 搭建Oracle数据库服务器(oracle数据库服务器安装教程)
-
【十一】搭建Oracle数据库服务器...
- Oracle 删除大量表记录操作总结(oracle删除表记录数据)
-
删除表数据操作清空所有表记录TRUNCATETABLEyour_table_name;...
- 专访搜狗DBA负责人王林平:为何从Oracle转向MySQL?
-
王林平CSDN:首先,请做个自我介绍,目前所负责的领域以及所在公司。王林平:大家好,我是王林平,目前在搜狗商业平台研发部工作。主要负责商业广告数据库的维护、优化、架构设计、流程体系建设、自动化运维平台...
- Oracle数据库知识 day01 Oracle介绍和增删改查
-
一、oracle介绍ORACLE数据库系统是美国ORACLE公司(甲骨文)提供的以分布式数据库为核心的一组软件产品,是目前最流行的客户/服务器(CLIENT/SERVER)或B/S体系结构...
- 深入探索Oracle 回表原理、影响与优化技巧
-
什么是回表当对一个列创建索引之后,索引会包含该列的键值以及键值对应行所在的rowid。通过索引中记录的rowid访问表中的数据就叫回表。执行计划中的TABLEACCESSBYINDEXROW...
- 那些年我们踩过的语句创建oracle 12c cdb实例的坑
-
现在大多数客户使用oracle还是11g版本的,很多小伙伴可能还没接触过12c,所以今天小编要为大家科普下12c版本的oracle的安装过程中会出现的错误。前面步骤其实都是一样的,我们就直接从建好1...
- Oracle高级数据库特性揭秘:存储过程、触发器与权限管理
-
当谈论Oracle高级数据库特性时,存储过程和函数、触发器、权限管理和安全性以及数据库连接和远程访问是关键概念。下面我将为每个主题提供详细的解释,并附上高质量示例。...
- ORACLE内核解密之表空间管理(oracle表空间大小是由什么决定)
-
一、ORACLE表空间管理1、本地表空间管理tablespace(LMT)...
- Oracle 创建磁盘组报错ORA-15137的问题分析与解决思路
-
ASM扩容本来是件很简单的事,当ASM磁盘准备好之后,直接一条命令就会添加上。但是也会有异常情况,最近就碰到Oracle19c在扩容时报错的故障,供大家参考。...
- DBA日记之Oracle数据库索引一(oracle数据库索引有哪几种)
-
什么是索引在oracle数据库中,索引是数据库中一种可选的数据结构,通常与表或簇相关。用户可以在表的一列或数列上建立索引,以提高在此表上执行SQL语句的性能。就像本文档的索引可以帮助读者快速定位所...
- 利用Oracle触发器实现不同数据库之间的数据同步
-
首先在两个数据库之间创建链接(DBLink),然后对要同步地表做一个同义(synonym),最后建一个触发器实现同步。实现步骤如下:1)为保证连接到另一台远程服务器的数据库,需要建立一个DBLin...
- oracle已有表的分表分区优化操作步骤(单表过大)
-
第一章、步骤总览0、获取创建表空间DDL、创建表空间(该步骤在将分区放入不同的表空间时采用)...
- Oracle 表分区在线重定义(oracle表分区后查询语句改变吗)
-
表分区有以下优点:a、改善查询性能:对分区对象的查询可以仅搜索自己关心的分区,提高检索速度。b、增强可用性:如果表的某个分区出现故障,表在其他分区的数据仍然可用;c、维护方便:如果表的某个分区出现故障...
- ORACLE 体系 - 14(oracle 11g的体系结构有几种)
-
【十四】数据移动...
- Oracle-架构、原理、进程(oracle进程结构)
-
详解:首先看张图:对于一个数据库系统来说,假设这个系统没有运行,我们所能看到的和这个数据库相关的无非就是几个基于操作系统的物理文件,这是从静态的角度来看,如果从动态的角度来看呢,也就是说这个数据库系统...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
因果推断Matching方式实现代码 因果推断模型
-
git pull命令使用实例 git pull--rebase
-
面试官:git pull是哪两个指令的组合?
-
git 执行pull错误如何撤销 git pull fail
-
git pull 和git fetch 命令分别有什么作用?二者有什么区别?
-
git fetch 和git pull 的异同 git中fetch和pull的区别
-
git pull 之后本地代码被覆盖 解决方案
-
还可以这样玩?Git基本原理及各种骚操作,涨知识了
-
git命令之pull git.pull
-
- 最近发表
-
- 搭建Oracle数据库服务器(oracle数据库服务器安装教程)
- Oracle 删除大量表记录操作总结(oracle删除表记录数据)
- 专访搜狗DBA负责人王林平:为何从Oracle转向MySQL?
- Oracle数据库知识 day01 Oracle介绍和增删改查
- 深入探索Oracle 回表原理、影响与优化技巧
- 那些年我们踩过的语句创建oracle 12c cdb实例的坑
- Oracle高级数据库特性揭秘:存储过程、触发器与权限管理
- ORACLE内核解密之表空间管理(oracle表空间大小是由什么决定)
- Oracle 创建磁盘组报错ORA-15137的问题分析与解决思路
- DBA日记之Oracle数据库索引一(oracle数据库索引有哪几种)
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)