使用 OpenCV 实现屏幕区域识别

Created2021-04-24|Updated2025-06-21|Python

|Post Views:

使用 OpenCV 实现屏幕区域识别

OpenCV 是一个功能强大的计算机视觉库，可以用来实现屏幕区域的捕捉和识别。下面是一个简明的思路和示例，帮助你快速入门。

一、环境准备

安装 OpenCV 和 PyAutoGUI（用于截图）：

1	pip install opencv-python pyautogui numpy

二、基本思路

使用 PyAutoGUI 截取屏幕指定区域的图像。
使用 OpenCV 对截图进行处理和识别，比如模板匹配、颜色识别、边缘检测等。

三、示例代码：截取屏幕区域并进行模板匹配

import cv2
import numpy as np
import pyautogui

# 截取屏幕区域 (left, top, width, height)
screenshot = pyautogui.screenshot(region=(100, 100, 300, 200))
screenshot = cv2.cvtColor(np.array(screenshot), cv2.COLOR_RGB2BGR)

# 读取模板图片
template = cv2.imread('template.png', cv2.IMREAD_COLOR)
template_gray = cv2.cvtColor(template, cv2.COLOR_BGR2GRAY)

# 转换截图为灰度图
screenshot_gray = cv2.cvtColor(screenshot, cv2.COLOR_BGR2GRAY)

# 模板匹配
result = cv2.matchTemplate(screenshot_gray, template_gray, cv2.TM_CCOEFF_NORMED)
min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)

threshold = 0.8
if max_val >= threshold:
    top_left = max_loc
    h, w = template_gray.shape
    bottom_right = (top_left[0] + w, top_left[1] + h)
    cv2.rectangle(screenshot, top_left, bottom_right, (0, 255, 0), 2)
    print("找到匹配区域，置信度：", max_val)
else:
    print("未找到匹配区域")

# 显示结果
cv2.imshow('Screen Region Recognition', screenshot)
cv2.waitKey(0)
cv2.destroyAllWindows()

四、扩展应用

利用颜色空间转换与阈值分割实现颜色区域识别。
结合 OCR 技术识别屏幕文字。
结合鼠标事件，实现自动化操作。

Author: Franklin yy

Link: https://franklinyy.github.io/2021/04/24/%E4%BD%BF%E7%94%A8-opencv-%E5%AE%9E%E7%8E%B0%E5%B1%8F%E5%B9%95%E5%8C%BA%E5%9F%9F%E8%AF%86%E5%88%AB/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Related Articles

Python 多线程爬虫开发

Python 多线程爬虫开发爬虫项目中，网络请求通常是耗时操作，使用多线程可以提升抓取效率。Python 标准库提供了 threading 模块，配合队列等工具，可以简单实现多线程爬虫。一、多线程基础 threading.Thread 创建线程对象。使用 threading.Lock 保护共享资源。 queue.Queue 用于线程间安全的任务调度。二、示例代码框架12345678910111213141516171819202122232425262728293031323334353637383940414243import threadingimport queueimport requests# 任务队列url_queue = queue.Queue()# 线程工作函数def worker(): while True: url = url_queue.get() if url is None: # 退出信号 break try: response =...

Python 自动化脚本实践：屏幕控制与识别

Python 自动化脚本实践：屏幕控制与识别在日常工作和生活中，重复的电脑操作和信息提取往往耗费大量时间。利用 Python 自动化脚本，结合屏幕控制和图像识别技术，可以高效完成这些任务。一、屏幕控制基础Python 中常用的屏幕控制库是 pyautogui，支持鼠标移动、点击、键盘输入等操作。 12345678910import pyautogui# 移动鼠标到屏幕坐标(100, 200)pyautogui.moveTo(100, 200)# 点击鼠标左键pyautogui.click()# 输入文本pyautogui.typewrite('Hello, Python Automation!') 二、屏幕识别基础屏幕识别主要借助截图和图像匹配技术，pyautogui 也支持简单的图像查找；更高级的识别可用 OpenCV 和 pytesseract 进行图像处理和文字识别。 123456# 查找屏幕上是否有某个按钮图标location = pyautogui.locateOnScreen('button.png',...

TensorFlow 训练自己的图像分类器

TensorFlow 训练自己的图像分类器使用 TensorFlow 训练图像分类器，可以快速搭建属于自己的模型来识别不同类别的图片。下面是一个简明的流程和示例。一、准备数据集收集并整理训练数据，通常每个类别放在一个独立文件夹内。例如： 1234567dataset/├── cats/│ ├── cat1.jpg│ ├── cat2.jpg├── dogs/│ ├── dog1.jpg│ ├── dog2.jpg 二、环境准备安装 TensorFlow： 1pip install tensorflow 三、搭建模型使用 TensorFlow Keras API 构建一个简单的卷积神经网络（CNN）： 12345678910111213141516171819import tensorflow as tffrom tensorflow.keras import layers, modelsmodel = models.Sequential([ layers.Rescaling(1./255, input_shape=(180, 180,...

YOLOv5 目标检测原理与实战

YOLOv5 目标检测原理与实战 YOLO（You Only Look Once）系列是目前非常流行的实时目标检测算法，YOLOv5 是其最新版本之一，以速度快、准确度高和部署方便著称。下面简要介绍其原理和实战方法。一、YOLOv5 原理简介YOLOv5 属于单阶段检测器（single-stage detector），即只需一次前向传播即可完成目标定位和分类，区别于两阶段检测器（如 Faster R-CNN）。输入处理：将输入图像划分为固定网格（如 13×13、26×26 等）。边界框预测：每个网格预测多个边界框及其置信度。类别概率：每个边界框还会预测目标类别的概率分布。多尺度预测：采用不同尺度特征层进行预测，增强对大小目标的检测能力。非极大值抑制（NMS）：去除重叠度高的重复检测框，保留最优结果。二、环境准备安装 PyTorch 和 YOLOv5 依赖： 12pip install torch torchvisionpip install -U...