YOLOv5 目标检测原理与实战

Created2023-11-15|Updated2025-06-21|Python

|Post Views:

YOLOv5 目标检测原理与实战

YOLO（You Only Look Once）系列是目前非常流行的实时目标检测算法，YOLOv5 是其最新版本之一，以速度快、准确度高和部署方便著称。下面简要介绍其原理和实战方法。

一、YOLOv5 原理简介

YOLOv5 属于单阶段检测器（single-stage detector），即只需一次前向传播即可完成目标定位和分类，区别于两阶段检测器（如 Faster R-CNN）。

输入处理：将输入图像划分为固定网格（如 13×13、26×26 等）。
边界框预测：每个网格预测多个边界框及其置信度。
类别概率：每个边界框还会预测目标类别的概率分布。
多尺度预测：采用不同尺度特征层进行预测，增强对大小目标的检测能力。
非极大值抑制（NMS）：去除重叠度高的重复检测框，保留最优结果。

二、环境准备

安装 PyTorch 和 YOLOv5 依赖：

1 2	pip install torch torchvision pip install -U git+https://github.com/ultralytics/yolov5.git

三、加载预训练模型

1
2
3

import torch

model = torch.hub.load('ultralytics/yolov5', 'yolov5s', pretrained=True)

四、自定义数据集训练

准备标注数据，格式为 YOLO 标注格式（每行：class x_center y_center width height，归一化坐标）。
配置数据集 yaml 文件，指定训练、验证路径和类别名。
运行训练命令：

1	python train.py --img 640 --batch 16 --epochs 50 --data your_dataset.yaml --weights yolov5s.pt

五、模型推理与测试

results = model('test.jpg')
results.print()
results.show()
results.save()

六、实战技巧

数据增强：YOLOv5 内置丰富数据增强策略（翻转、裁剪、色彩变换等），提升模型泛化能力。
多尺度训练：随机调整输入尺寸，使模型适应多种分辨率。
模型轻量化：选择不同版本模型（yolov5s, yolov5m, yolov5l）权衡速度与精度。
转ONNX或TensorRT：方便部署在移动端或嵌入式设备。

如果你想快速上手目标检测，YOLOv5 是不错的选择。

Author: Franklin yy

Link: https://franklinyy.github.io/2023/11/15/yolov5-%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E5%8E%9F%E7%90%86%E4%B8%8E%E5%AE%9E%E6%88%98/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Related Articles

Python 多线程爬虫开发

Python 多线程爬虫开发爬虫项目中，网络请求通常是耗时操作，使用多线程可以提升抓取效率。Python 标准库提供了 threading 模块，配合队列等工具，可以简单实现多线程爬虫。一、多线程基础 threading.Thread 创建线程对象。使用 threading.Lock 保护共享资源。 queue.Queue 用于线程间安全的任务调度。二、示例代码框架12345678910111213141516171819202122232425262728293031323334353637383940414243import threadingimport queueimport requests# 任务队列url_queue = queue.Queue()# 线程工作函数def worker(): while True: url = url_queue.get() if url is None: # 退出信号 break try: response =...

Python 自动化脚本实践：屏幕控制与识别

Python 自动化脚本实践：屏幕控制与识别在日常工作和生活中，重复的电脑操作和信息提取往往耗费大量时间。利用 Python 自动化脚本，结合屏幕控制和图像识别技术，可以高效完成这些任务。一、屏幕控制基础Python 中常用的屏幕控制库是 pyautogui，支持鼠标移动、点击、键盘输入等操作。 12345678910import pyautogui# 移动鼠标到屏幕坐标(100, 200)pyautogui.moveTo(100, 200)# 点击鼠标左键pyautogui.click()# 输入文本pyautogui.typewrite('Hello, Python Automation!') 二、屏幕识别基础屏幕识别主要借助截图和图像匹配技术，pyautogui 也支持简单的图像查找；更高级的识别可用 OpenCV 和 pytesseract 进行图像处理和文字识别。 123456# 查找屏幕上是否有某个按钮图标location = pyautogui.locateOnScreen('button.png',...

TensorFlow 训练自己的图像分类器

TensorFlow 训练自己的图像分类器使用 TensorFlow 训练图像分类器，可以快速搭建属于自己的模型来识别不同类别的图片。下面是一个简明的流程和示例。一、准备数据集收集并整理训练数据，通常每个类别放在一个独立文件夹内。例如： 1234567dataset/├── cats/│ ├── cat1.jpg│ ├── cat2.jpg├── dogs/│ ├── dog1.jpg│ ├── dog2.jpg 二、环境准备安装 TensorFlow： 1pip install tensorflow 三、搭建模型使用 TensorFlow Keras API 构建一个简单的卷积神经网络（CNN）： 12345678910111213141516171819import tensorflow as tffrom tensorflow.keras import layers, modelsmodel = models.Sequential([ layers.Rescaling(1./255, input_shape=(180, 180,...

使用 OpenCV 实现屏幕区域识别

使用 OpenCV 实现屏幕区域识别 OpenCV 是一个功能强大的计算机视觉库，可以用来实现屏幕区域的捕捉和识别。下面是一个简明的思路和示例，帮助你快速入门。一、环境准备安装 OpenCV 和 PyAutoGUI（用于截图）： 1pip install opencv-python pyautogui numpy 二、基本思路使用 PyAutoGUI 截取屏幕指定区域的图像。使用 OpenCV 对截图进行处理和识别，比如模板匹配、颜色识别、边缘检测等。三、示例代码：截取屏幕区域并进行模板匹配123456789101112131415161718192021222324252627282930313233import cv2import numpy as npimport pyautogui# 截取屏幕区域 (left, top, width, height)screenshot = pyautogui.screenshot(region=(100, 100, 300, 200))screenshot =...