Python 自动化脚本实践：屏幕控制与识别

Created2022-08-18|Updated2025-06-21|Python

|Post Views:

Python 自动化脚本实践：屏幕控制与识别

在日常工作和生活中，重复的电脑操作和信息提取往往耗费大量时间。利用 Python 自动化脚本，结合屏幕控制和图像识别技术，可以高效完成这些任务。

一、屏幕控制基础

Python 中常用的屏幕控制库是 pyautogui，支持鼠标移动、点击、键盘输入等操作。

import pyautogui

# 移动鼠标到屏幕坐标(100, 200)
pyautogui.moveTo(100, 200)

# 点击鼠标左键
pyautogui.click()

# 输入文本
pyautogui.typewrite('Hello, Python Automation!')

二、屏幕识别基础

屏幕识别主要借助截图和图像匹配技术，pyautogui 也支持简单的图像查找；更高级的识别可用 OpenCV 和 pytesseract 进行图像处理和文字识别。

# 查找屏幕上是否有某个按钮图标
location = pyautogui.locateOnScreen('button.png', confidence=0.8)
if location:
    print(f"找到了按钮，位置是：{location}")
else:
    print("没有找到按钮")

使用 pytesseract 结合截图，可以实现屏幕文字识别：

from PIL import Image
import pytesseract

# 截图某个区域
im = pyautogui.screenshot(region=(0,0,300,300))

# OCR识别
text = pytesseract.image_to_string(im, lang='eng')
print(f"识别的文字是: {text}")

三、实战应用示例

自动点击某软件按钮完成批量操作。
截图并识别错误提示，自动发送通知。
录制操作流程，自动重复执行。
结合机器学习，提升图像识别准确率。

四、注意事项

自动化脚本运行时，尽量避免人工操作干扰。
对于不同分辨率或界面样式，图像识别需做适配。
OCR 识别对字体和图像清晰度敏感，可调整参数提高准确率。

如果你有更好的思路，欢迎大家一起交流指点，轻松修炼自动化秘籍！

Author: Franklin yy

Link: https://franklinyy.github.io/2022/08/18/python-%E8%87%AA%E5%8A%A8%E5%8C%96%E8%84%9A%E6%9C%AC%E5%AE%9E%E8%B7%B5%EF%BC%9A%E5%B1%8F%E5%B9%95%E6%8E%A7%E5%88%B6%E4%B8%8E%E8%AF%86%E5%88%AB/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Related Articles

Python 多线程爬虫开发

Python 多线程爬虫开发爬虫项目中，网络请求通常是耗时操作，使用多线程可以提升抓取效率。Python 标准库提供了 threading 模块，配合队列等工具，可以简单实现多线程爬虫。一、多线程基础 threading.Thread 创建线程对象。使用 threading.Lock 保护共享资源。 queue.Queue 用于线程间安全的任务调度。二、示例代码框架12345678910111213141516171819202122232425262728293031323334353637383940414243import threadingimport queueimport requests# 任务队列url_queue = queue.Queue()# 线程工作函数def worker(): while True: url = url_queue.get() if url is None: # 退出信号 break try: response =...

TensorFlow 训练自己的图像分类器

TensorFlow 训练自己的图像分类器使用 TensorFlow 训练图像分类器，可以快速搭建属于自己的模型来识别不同类别的图片。下面是一个简明的流程和示例。一、准备数据集收集并整理训练数据，通常每个类别放在一个独立文件夹内。例如： 1234567dataset/├── cats/│ ├── cat1.jpg│ ├── cat2.jpg├── dogs/│ ├── dog1.jpg│ ├── dog2.jpg 二、环境准备安装 TensorFlow： 1pip install tensorflow 三、搭建模型使用 TensorFlow Keras API 构建一个简单的卷积神经网络（CNN）： 12345678910111213141516171819import tensorflow as tffrom tensorflow.keras import layers, modelsmodel = models.Sequential([ layers.Rescaling(1./255, input_shape=(180, 180,...

YOLOv5 目标检测原理与实战

YOLOv5 目标检测原理与实战 YOLO（You Only Look Once）系列是目前非常流行的实时目标检测算法，YOLOv5 是其最新版本之一，以速度快、准确度高和部署方便著称。下面简要介绍其原理和实战方法。一、YOLOv5 原理简介YOLOv5 属于单阶段检测器（single-stage detector），即只需一次前向传播即可完成目标定位和分类，区别于两阶段检测器（如 Faster R-CNN）。输入处理：将输入图像划分为固定网格（如 13×13、26×26 等）。边界框预测：每个网格预测多个边界框及其置信度。类别概率：每个边界框还会预测目标类别的概率分布。多尺度预测：采用不同尺度特征层进行预测，增强对大小目标的检测能力。非极大值抑制（NMS）：去除重叠度高的重复检测框，保留最优结果。二、环境准备安装 PyTorch 和 YOLOv5 依赖： 12pip install torch torchvisionpip install -U...

使用 OpenCV 实现屏幕区域识别

使用 OpenCV 实现屏幕区域识别 OpenCV 是一个功能强大的计算机视觉库，可以用来实现屏幕区域的捕捉和识别。下面是一个简明的思路和示例，帮助你快速入门。一、环境准备安装 OpenCV 和 PyAutoGUI（用于截图）： 1pip install opencv-python pyautogui numpy 二、基本思路使用 PyAutoGUI 截取屏幕指定区域的图像。使用 OpenCV 对截图进行处理和识别，比如模板匹配、颜色识别、边缘检测等。三、示例代码：截取屏幕区域并进行模板匹配123456789101112131415161718192021222324252627282930313233import cv2import numpy as npimport pyautogui# 截取屏幕区域 (left, top, width, height)screenshot = pyautogui.screenshot(region=(100, 100, 300, 200))screenshot =...