OpenCV+Python裁剪图像

wptr33 2025-08-02 22:19 37 浏览

最近使用OpenCV+Python做了一个程序，功能是自动将照片中的文本部分找出来并裁剪/旋转保存为新的图片。这个功能用专业些的说法就是选择并提取感兴趣区域（ROI（Region of Interest））。主要包括以下几个步骤。

其中步骤1.如何通过算法自动找到文本区域虽然不算复杂，但是要想做到像人工识别那样准确也并不容易，经过对比不同的算法，程序基本满足个人的使用需求。具体是如何实现的将在以后详细介绍。本文介绍一下最后一步：裁剪所选择的区域。

在OpenCV中这个操作其实非常简单。

在Python中，OpenCV的图像可以用一个Numpy的数组来表示，它可以看做是：行 * 列的二维数组，数组的每个元素代表一个像素。

对于一个图像数组img，一个像素的位置就由它所在的行(row)和列(col)所决定，也就是img[row,col]; 对于一个矩形区域来说，则是由起始行(r0)结束行(r1),起始列（c0）,结束列（c1）来确定，也就是img[r0:r1,c0:c1]; 如果习惯用坐标轴的x,y来表示，那么y对应行，x对应列，则剪切的矩形区域为:img[y_start:y_end,x_start:x_end], 注意不要搞混了。可以通过下面的示例代码验证一下。

import numpy as np
img = np.arange(0, 25)
img = img.reshape(5,5)
roi = img[2:4,1:3]#选择第2到4行，1到3列的区域。不包括第4行和第3列。
print(img)
print(roi)

针对实际的图像，只需调用imread将图像读入numpy数组即可，如下代码所示：

import cv2
# load the input image and display it to our screen
image = cv2.imread("demo.jpg")

# 截取感兴趣区域
startX,endX = 85,420
startY,endY = 185,550

cv2.rectangle(image, (startX,startY), (endX,endY), (0,0,255), 2)
roi = image[startY:endY, startX:endX]

cv2.imshow("Original", image)
cv2.imshow("ROI", roi)
cv2.waitKey(10000)

除了上述的方法，opencv还提供了一个函数 getRectSubPix(),通过它可以得到矩形区域内的图像，不过这个函数会对图像进行差值运算，所以，经常会得到一张模糊的图像，例如下图。左边是直接使用数组，右边是调用getRectSubPix的结果，很明显，右边的字体变得模糊。那么getRectSubPix函数的优点在哪里？有哪些具体应用场合呢？

opencv保存图片

上一篇：OpenCV-Python速查表:从导入图像到人脸检测
下一篇：OpenCV学习之图像读取与显示

OpenCV+Python裁剪图像

相关推荐

Python第六讲:tuple_python tuple类型

如何将AI助手接入微信（打开ai手机助手）

SparkSQL——DataFrame的创建与使用

使用过 Redis 分布式锁么，它是什么回事?

VUE循环语句的使用(v-for)（vuefor循环的key）

Python rembg 库去除图片背景

HiveOs系统教程最细手把手教学（hiveos启动）

HIVE SQL基础语法（hive-sql）

Spring Boot 概述（spring boot干嘛的）

《循环(for/while)》（循环while语句）