百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

Java 开发者线上问题排查常用的 15 个 Linux 命令

wptr33 2025-06-10 18:39 17 浏览

作为 Java 开发者,线上环境的问题排查是日常工作的重要组成部分。熟练掌握 Linux 命令能大幅提升排查效率,快速定位进程异常、日志错误、性能瓶颈等核心问题。本文结合 Java 应用特点,整理 15 个高频使用的 Linux 命令,覆盖进程管理、日志分析、性能监控、网络排查等核心场景,附实战示例及注意事项。

一、进程管理

1.ps- 查看进程详细信息

使用场景:查找 Java 进程 PID、查看 JVM 参数、确认进程启动状态

# 查找所有Java进程(含完整启动参数)  
ps -ef | grep java  

# 输出示例:  
# user    12345  6789  0 14:30 pts/0    00:00:02 java -Xmx2g -XX:MetaspaceSize=256m -jar app.jar  

# 查看指定PID的进程状态(如PID=12345)  
ps -p 12345 -o user,pid,%cpu,%mem,cmd  

Java 场景:通过CMD列验证 JVM 参数是否正确生效(如 - Xmx、-XX:MetaspaceSize),排查因参数配置错误导致的 OOM 问题。

2.top- 实时监控进程资源占用

使用场景:定位 CPU / 内存占用过高的 Java 进程

# 交互式实时监控(按P键按CPU排序,按M键按内存排序)  
top  

# 输出关键指标:  
# PID    USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND  
# 12345  appuser   20   0  4096m  1.8g  1280 S  50.0 23.4   10:23.56 java  

# 查看指定Java进程(PID=12345)的资源细节  
top -p 12345  

进阶操作:输入H显示进程内所有线程,结合jstack分析线程堆栈(见日志分析部分)。

3.kill- 优雅终止进程

使用场景:重启前停止旧进程、处理僵尸进程

# 发送SIGTERM信号(优雅关闭,等待资源释放)  
kill 12345  

# 强制终止(不推荐,可能导致数据丢失)  
kill -9 12345  

# 向所有Java进程发送信号  
kill $(ps -ef | grep java | grep -v grep | awk '{print $2}')  

最佳实践:优先使用kill而非kill -9,配合 Spring Boot Actuator 的/shutdown端点实现优雅停机,避免数据不一致。

二、日志分析:快速定位异常堆栈

4.grep- 过滤日志关键信息

使用场景:搜索异常堆栈、业务日志定位

# 搜索ERROR级日志并显示前后3行(定位异常上下文)  
grep -C 3 "ERROR" catalina.out  

# 输出示例:  
# 2023-05-20 10:30:45 ERROR [http-nio-8080-exec-1] com.example.service.UserService: User not found for id=123  
# ... 相关上下文 ...  

# 搜索包含"NullPointerException"的日志(区分大小写)  
grep "NullPointerException" app.log  

# 统计异常次数  
grep -c "OutOfMemoryError" gc.log  

Java 技巧:结合| wc -l统计异常次数,| sort | uniq -c去重统计高频错误。

5.tail- 实时跟踪日志输出

使用场景:监控实时日志、查看最新报错

# 实时显示最后100行日志(常用排查手段)  
tail -n 100 -f catalina.out  

# 仅显示新增日志(不显示历史内容)  
tail -f --retry app.log  

# 多文件实时监控  
tail -f app.log error.log  

生产环境:配合lsof | grep deleted处理被删除但句柄未释放的日志文件。

6.less- 分页查看大日志文件

使用场景:查看 GB 级日志文件(避免cat导致内存溢出)

# 分页查看并支持搜索(输入/关键词搜索,n下一个匹配)  
less catalina.out  

# 实时监控日志更新(类似tail -f,但支持翻页)  
less +F app.log  

# 快捷键:  
# g:跳到开头  
# G:跳到结尾  
# /keyword:搜索关键词  
# n/N:下一个/上一个匹配  
# q:退出  

最佳实践:对于超大日志文件,使用less +/ERROR app.log直接定位错误行。

三、性能监控:定位 CPU / 内存瓶颈

7.vmstat- 系统级性能统计

使用场景:分析 CPU、内存、磁盘 IO 整体瓶颈

# 每2秒采样1次,共5次  
vmstat 2 5  

# 输出关键指标:  
# procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----  
#  r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st  
#  2  0      0 819248 204800 1677728    0    0    10    20  300  500 15  5 80  0  0  

# 关键指标解读:  
# us:用户态CPU使用率  
# sy:内核态CPU使用率  
# id:空闲CPU百分比  
# wa:IO等待CPU百分比  
# free:空闲内存(KB)  
# si/so:交换空间换入/换出(频繁换入换出表示内存不足)  

Java 关联:当wa持续高于 20%,可能存在磁盘 IO 瓶颈(如日志写入卡顿)。

8.dstat- 多功能系统统计

使用场景:综合监控 CPU、内存、网络、磁盘

# 显示CPU使用率、内存使用、网络IO、磁盘读写  
dstat -cdngy  

# 输出示例:  
# ----total-cpu-usage---- -dsk/total- -net/total- ---paging-- ---system--  
# us sy id wa st| read  writ| recv  send|  in   out | int   csw  
# 15  5 80  0  0| 128k  256k|  45k   20k|   0     0 | 300   500  

优势:比vmstat更详细,适合定位混合资源瓶颈,需安装dstat包(yum install dstat)。

9.find- 文件查找与定位

使用场景:查找特定日志文件、Heap Dump、配置文件或大文件

# 按文件名精确查找(如查找所有.log文件,区分大小写)  
find /var/log/ -name "*.log"  

# 按文件名模糊查找(包含"error"的日志,不区分大小写)  
find /app/logs/ -iname "*error*"  

# 按文件大小查找(大于1GB的文件,排查异常大日志)  
find /data/ -type f -size +1G  

# 按修改时间查找(7天前的文件,清理过期日志)  
find /tmp/ -type f -mtime +7 -exec rm -f {} \;  

# 结合xargs处理查找结果(压缩所有.log文件)  
find /app/logs/ -type f -name "*.log" -exec gzip {} \;  

Java 场景

  • 定位未配置路径的 JVM Heap Dump:find / -name "java_pid*.hprof"
  • 排查未关闭的临时文件:find /tmp/ -type f -user app -mmin +60(60 分钟未使用的文件)

四、网络排查:诊断连接与端口问题

10.netstat- 网络连接状态查看

使用场景:检查端口占用、连接数统计、TCP 状态分析

# 查看8080端口是否被占用  
netstat -tlnp | grep 8080  

# 输出示例:  
# tcp6       0      0 :::8080                 :::*                    LISTEN      12345/java  

# 统计各TCP状态连接数(排查CLOSE_WAIT/ESTABLISHED)  
netstat -ant | awk '{print $6}' | sort | uniq -c  

# 输出状态:  
#   10 LISTEN  
#  100 ESTABLISHED  
#   50 CLOSE_WAIT  

注意:Linux 新工具ss比netstat更高效,推荐替代使用(如ss -tlnp | grep 8080)。

11.lsof- 查看文件描述符与端口占用

使用场景:定位端口被哪个进程占用、查看打开的文件

# 查看端口8080对应的进程  
lsof -i:8080  

# 输出示例:  
# COMMAND   PID   USER   FD   TYPE DEVICE SIZE/OFF NODE NAME  
# java    12345 appuser  42u  IPv6  12345      0t0  TCP *:8080 (LISTEN)  

# 查看Java进程(PID=12345)打开的所有文件  
lsof -p 12345 | grep -i socket  

Java 关键:排查日志文件 / 数据库连接是否未正确关闭(文件描述符泄漏)。

12.telnet/nc- 测试网络连通性

使用场景:验证端口可达性、排查防火墙问题

# 测试服务器8080端口是否开放  
telnet 192.168.1.100 8080  

# 输出示例:  
# Trying 192.168.1.100...  
# Connected to 192.168.1.100.  
# Escape character is '^]'.  

# 更轻量的nc命令(需安装netcat)  
nc -zv 192.168.1.100 8080  

# 输出示例:  
# Connection to 192.168.1.100 8080 port [tcp/*] succeeded!  

生产环境:替代ping测试端口级连通性(绕过 ICMP 限制)。

五、资源查看:磁盘 / 内存使用分析

13.df- 磁盘空间查看

使用场景:检查磁盘是否满(导致日志无法写入、应用崩溃)

# 查看各分区空间使用情况(带文件系统类型)  
df -hT  

# 输出示例:  
# Filesystem     Type      Size  Used Avail Use% Mounted on  
# /dev/sda1      ext4       20G   15G  5.0G  75% /  
# /dev/sdb1      xfs       100G   50G   50G  50% /data  

# 关键指标:Use%(使用率),当超过90%需立即排查  

Java 风险:磁盘满会导致 JVM 无法生成 Heap Dump,需配置-XX:HeapDumpPath到非根分区。

14.free- 内存使用情况

使用场景:分析物理内存 /swap 空间使用

# 以人类可读格式显示内存状态  
free -h  

# 输出示例:  
#               total        used        free      shared  buff/cache   available  
# Mem:           7.8G        4.0G        1.5G        256M        2.3G        3.5G  
# Swap:          2.0G          0B        2.0G  

# 关键指标解读:  
# Mem.total:总物理内存  
# Mem.free:空闲内存  
# Mem.buff/cache:缓冲/缓存内存(可回收)  
# Swap:交换空间使用情况(频繁使用表示内存不足)  

Java 调优:当buff/cache占比高是正常现象,swap频繁使用需排查内存泄漏。

15.du- 目录空间占用分析

使用场景:定位大文件(如异常大的日志、未清理的 Heap Dump)

# 查看当前目录下各文件夹大小(按降序排列)  
du -h --max-depth=1 | sort -rh  

# 输出示例:  
# 4.0G    ./logs  
# 2.0G    ./data  
# 100M    ./tmp  

# 查找大于1GB的文件  
find /var/log/ -type f -size +1G -exec du -h {} \;  

# 清理大文件前预览  
du -h /var/log/* | sort -rh | head -n 10  

Java 操作:定期清理/tmp下的临时文件(避免磁盘空间耗尽)。

总结:从命令到排查体系

掌握这 15 个命令,可覆盖 80% 以上的 Java 线上问题排查场景。实际操作中需注意:

  1. 权限问题:部分命令(如top/lsof)需root权限,提前申请 sudo
  2. 性能影响:避免在高负载服务器上执行find / -size等全路径扫描命令
  3. 工具组合:结合 Java 自带工具(jps/jstack/jmap)和 APM 工具(Prometheus/Grafana)形成完整排查体系

建议开发者建立个人命令手册,记录常用组合(如ps -ef | grep -v grep | awk '{print $2}'),并通过man命令深入理解每个参数的底层逻辑。线上排查的核心不是记住多少命令,而是通过系统化的思路,快速定位问题本质,最终实现从 "命令使用者" 到 "问题解决者" 的能力升级。

如果本文对您有所帮助,欢迎点赞收藏加关注!您的每一次点击都是对我最大的鼓励,更是我持续输出优质技术内容的强大动力~ 后续会分享更多 Java AI开发、线上排查和架构优化的干货,期待与您共同成长!

相关推荐

redis的八种使用场景

前言:redis是我们工作开发中,经常要打交道的,下面对redis的使用场景做总结介绍也是对redis举报的功能做梳理。缓存Redis最常见的用途是作为缓存,用于加速应用程序的响应速度。...

基于Redis的3种分布式ID生成策略

在分布式系统设计中,全局唯一ID是一个基础而关键的组件。随着业务规模扩大和系统架构向微服务演进,传统的单机自增ID已无法满足需求。高并发、高可用的分布式ID生成方案成为构建可靠分布式系统的必要条件。R...

基于OpenWrt系统路由器的模式切换与网页设计

摘要:目前商用WiFi路由器已应用到多个领域,商家通过给用户提供一个稳定免费WiFi热点达到吸引客户、提升服务的目标。传统路由器自带的Luci界面提供了工厂模式的Web界面,用户可通过该界面配置路...

这篇文章教你看明白 nginx-ingress 控制器

主机nginx一般nginx做主机反向代理(网关)有以下配置...

如何用redis实现注册中心

一句话总结使用Redis实现注册中心:服务注册...

爱可可老师24小时热门分享(2020.5.10)

No1.看自己以前写的代码是种什么体验?No2.DooM-chip!国外网友SylvainLefebvre自制的无CPU、无操作码、无指令计数器...No3.我认为CS学位可以更好,如...

Apportable:拯救程序员,IOS一秒变安卓

摘要:还在为了跨平台使用cocos2d-x吗,拯救objc程序员的奇葩来了,ApportableSDK:FreeAndroidsupportforcocos2d-iPhone。App...

JAVA实现超买超卖方案汇总,那个最适合你,一篇文章彻底讲透

以下是几种Java实现超买超卖问题的核心解决方案及代码示例,针对高并发场景下的库存扣减问题:方案一:Redis原子操作+Lua脚本(推荐)//使用Redis+Lua保证原子性publicbo...

3月26日更新 快速施法自动施法可独立设置

2016年3月26日DOTA2有一个79.6MB的更新主要是针对自动施法和快速施法的调整本来内容不多不少朋友都有自动施法和快速施法的困扰英文更新日志一些视觉BUG修复就不翻译了主要翻译自动施...

Redis 是如何提供服务的

在刚刚接触Redis的时候,最想要知道的是一个’setnameJhon’命令到达Redis服务器的时候,它是如何返回’OK’的?里面命令处理的流程如何,具体细节怎么样?你一定有问过自己...

lua _G、_VERSION使用

到这里我们已经把lua基础库中的函数介绍完了,除了函数外基础库中还有两个常量,一个是_G,另一个是_VERSION。_G是基础库本身,指向自己,这个变量很有意思,可以无限引用自己,最后得到的还是自己,...

China's top diplomat to chair third China-Pacific Island countries foreign ministers' meeting

BEIJING,May21(Xinhua)--ChineseForeignMinisterWangYi,alsoamemberofthePoliticalBureau...

移动工作交流工具Lua推出Insights数据分析产品

Lua是一个适用于各种职业人士的移动交流平台,它在今天推出了一项叫做Insights的全新功能。Insights是一个数据平台,客户可以在上面实时看到员工之间的交流情况,并分析这些情况对公司发展的影响...

Redis 7新武器:用Redis Stack实现向量搜索的极限压测

当传统关系型数据库还在为向量相似度搜索的性能挣扎时,Redis7的RedisStack...

Nginx/OpenResty详解,Nginx Lua编程,重定向与内部子请求

重定向与内部子请求Nginx的rewrite指令不仅可以在Nginx内部的server、location之间进行跳转,还可以进行外部链接的重定向。通过ngx_lua模块的Lua函数除了能实现Nginx...