Python 多线程爬虫开发

Created2023-10-30|Updated2025-06-21|Python

|Post Views:

Python 多线程爬虫开发

爬虫项目中，网络请求通常是耗时操作，使用多线程可以提升抓取效率。Python 标准库提供了 threading 模块，配合队列等工具，可以简单实现多线程爬虫。

一、多线程基础

threading.Thread 创建线程对象。
使用 threading.Lock 保护共享资源。
queue.Queue 用于线程间安全的任务调度。

二、示例代码框架

import threading
import queue
import requests

# 任务队列
url_queue = queue.Queue()

# 线程工作函数
def worker():
    while True:
        url = url_queue.get()
        if url is None:  # 退出信号
            break
        try:
            response = requests.get(url)
            print(f"抓取 {url} 状态码: {response.status_code}")
            # 处理数据...
        except Exception as e:
            print(f"请求错误: {e}")
        finally:
            url_queue.task_done()

# 添加任务
urls = ['http://example.com/page1', 'http://example.com/page2', 'http://example.com/page3']
for u in urls:
    url_queue.put(u)

# 启动线程
threads = []
num_threads = 5
for _ in range(num_threads):
    t = threading.Thread(target=worker)
    t.start()
    threads.append(t)

# 等待所有任务完成
url_queue.join()

# 发送退出信号
for _ in range(num_threads):
    url_queue.put(None)
for t in threads:
    t.join()

三、要点说明

任务调度：使用 queue.Queue 保证线程安全，避免资源竞争。
线程数选择：根据目标网站和本地资源合理设置线程数，避免过度请求导致被封。
异常处理：网络请求易失败，要捕获异常保证线程持续工作。
数据存储：抓取的数据可以写入数据库或文件，建议用线程安全方式操作。

四、进一步优化

使用 concurrent.futures.ThreadPoolExecutor 简化线程管理。
使用异步库（如 aiohttp）实现异步爬虫。
代理池、请求头伪装、限速等策略提高爬虫稳定性和隐蔽性。

以上就是我的小小分享啦，欢迎各路大佬来指点迷津，顺便带我飞！咱们一起修仙升级打怪，交流交流，轻松搞起来！

Author: Franklin yy

Link: https://franklinyy.github.io/2023/10/30/python-%E5%A4%9A%E7%BA%BF%E7%A8%8B%E7%88%AC%E8%99%AB%E5%BC%80%E5%8F%91/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Related Articles

Python 自动化脚本实践：屏幕控制与识别

Python 自动化脚本实践：屏幕控制与识别在日常工作和生活中，重复的电脑操作和信息提取往往耗费大量时间。利用 Python 自动化脚本，结合屏幕控制和图像识别技术，可以高效完成这些任务。一、屏幕控制基础Python 中常用的屏幕控制库是 pyautogui，支持鼠标移动、点击、键盘输入等操作。 12345678910import pyautogui# 移动鼠标到屏幕坐标(100, 200)pyautogui.moveTo(100, 200)# 点击鼠标左键pyautogui.click()# 输入文本pyautogui.typewrite('Hello, Python Automation!') 二、屏幕识别基础屏幕识别主要借助截图和图像匹配技术，pyautogui 也支持简单的图像查找；更高级的识别可用 OpenCV 和 pytesseract 进行图像处理和文字识别。 123456# 查找屏幕上是否有某个按钮图标location = pyautogui.locateOnScreen('button.png',...

TensorFlow 训练自己的图像分类器

TensorFlow 训练自己的图像分类器使用 TensorFlow 训练图像分类器，可以快速搭建属于自己的模型来识别不同类别的图片。下面是一个简明的流程和示例。一、准备数据集收集并整理训练数据，通常每个类别放在一个独立文件夹内。例如： 1234567dataset/├── cats/│ ├── cat1.jpg│ ├── cat2.jpg├── dogs/│ ├── dog1.jpg│ ├── dog2.jpg 二、环境准备安装 TensorFlow： 1pip install tensorflow 三、搭建模型使用 TensorFlow Keras API 构建一个简单的卷积神经网络（CNN）： 12345678910111213141516171819import tensorflow as tffrom tensorflow.keras import layers, modelsmodel = models.Sequential([ layers.Rescaling(1./255, input_shape=(180, 180,...

YOLOv5 目标检测原理与实战

YOLOv5 目标检测原理与实战 YOLO（You Only Look Once）系列是目前非常流行的实时目标检测算法，YOLOv5 是其最新版本之一，以速度快、准确度高和部署方便著称。下面简要介绍其原理和实战方法。一、YOLOv5 原理简介YOLOv5 属于单阶段检测器（single-stage detector），即只需一次前向传播即可完成目标定位和分类，区别于两阶段检测器（如 Faster R-CNN）。输入处理：将输入图像划分为固定网格（如 13×13、26×26 等）。边界框预测：每个网格预测多个边界框及其置信度。类别概率：每个边界框还会预测目标类别的概率分布。多尺度预测：采用不同尺度特征层进行预测，增强对大小目标的检测能力。非极大值抑制（NMS）：去除重叠度高的重复检测框，保留最优结果。二、环境准备安装 PyTorch 和 YOLOv5 依赖： 12pip install torch torchvisionpip install -U...

使用 OpenCV 实现屏幕区域识别

使用 OpenCV 实现屏幕区域识别 OpenCV 是一个功能强大的计算机视觉库，可以用来实现屏幕区域的捕捉和识别。下面是一个简明的思路和示例，帮助你快速入门。一、环境准备安装 OpenCV 和 PyAutoGUI（用于截图）： 1pip install opencv-python pyautogui numpy 二、基本思路使用 PyAutoGUI 截取屏幕指定区域的图像。使用 OpenCV 对截图进行处理和识别，比如模板匹配、颜色识别、边缘检测等。三、示例代码：截取屏幕区域并进行模板匹配123456789101112131415161718192021222324252627282930313233import cv2import numpy as npimport pyautogui# 截取屏幕区域 (left, top, width, height)screenshot = pyautogui.screenshot(region=(100, 100, 300, 200))screenshot =...