Python大规模数据抓取实战：反爬虫对抗+亿级数据去重终极方案

在数据驱动的时代，从万级到亿级的大规模数据抓取，早已不是“写个requests脚本”就能搞定的简单活。当目标网站的反爬虫机制从“UA校验”升级到“行为分析+设备指纹”，当数据量从百万级突破到亿级，开发者会面临三大致命难题：IP被封导致抓取中断、重复数据占用海量存储、分布式节点协作效率低下。

本文结合3年大规模数据抓取实战经验（曾完成某电商平台1.2亿商品数据抓取、某资讯平台3亿条内容增量同步），从反爬虫对抗、数据去重优化、分布式架构设计三个核心维度，拆解可落地的技术方案，所有代码均经过生产环境验证，同时分享真实项目中的踩坑教训，帮你避开大规模抓取中的那些“致命坑”。

一、先搞懂：大规模抓取和小规模的本质区别

很多开发者用小规模抓取的思路做大规模项目，往往从一开始就注定失败。两者的核心差异体现在3个维度：

对比维度	小规模抓取（万级数据）	大规模抓取（千万/亿级数据）
反爬虫压力	目标网站反爬宽松，基本无封禁风险	触发高级反爬（IP封禁、设备指纹拉黑、验证码墙）
去重需求	本地哈希去重即可，内存压力小	单节点无法存储去重数据，需分布式去重
架构要求	单机单进程即可完成	必须分布式协作，需解决任务调度、负载均衡
稳定性要求	中断后重新跑一遍即可	需支持断点续爬、故障自动恢复
存储压力	本地文件/小型数据库即可承载	需分布式存储（MongoDB集群/ClickHouse）

简单说，大规模抓取的核心是“抗封锁、高可用、可扩展”——既要突破网站的反爬防线，又要保证在数据量爆炸时系统不崩溃，还要让多节点协作不内耗。

二、反爬虫对抗：从“被动规避”到“主动突破”

反爬虫对抗的核心逻辑是“让爬虫行为无限接近真实用户”，但大规模抓取中，单一策略很快会被识别，必须构建“多层防御体系”。

2.1 基础伪装：请求特征的“去爬虫化”

小规模抓取中，固定UA+简单延迟可能够用，但大规模下，必须让每个请求的“特征指纹”都不同。

2.1.1 动态请求头池（而非单一UA）

真实用户的请求头包含UA、Accept、Referer、Cache-Control等多个字段，且不同浏览器、设备的字段组合不同。直接用单一UA+默认请求头，相当于在额头上贴“我是爬虫”。

实战方案：构建完整的请求头池，每个请求随机抽取一组，且保证字段一致性（比如Chrome的UA要搭配Chrome的Accept）：


import random

# 完整的请求头池（真实浏览器抓包获取，包含不同设备/浏览器）
REQUEST_HEADERS_POOL = [
    {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
        "Referer": "https://www.baidu.com/",
        "Cache-Control": "max-age=0",
        "Connection": "keep-alive"
    },
    {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
        "Referer": "https://www.google.com/",
        "Cache-Control": "no-cache",
        "Connection": "keep-alive"
    }
    # 至少添加10组以上，覆盖Chrome、Firefox、Safari等浏览器
]

def get_random_headers():
    """随机获取请求头，保证特征多样性"""
    return random.choice(REQUEST_HEADERS_POOL)

踩坑教训：早期我只换UA不换其他字段，结果抓取10万条后IP集体被封——网站通过“UA与Accept不匹配”直接识别爬虫。

2.1.2 动态延迟策略（拒绝固定sleep）

固定time.sleep(1)是爬虫的典型特征，大规模抓取中需模拟用户的“不规则浏览行为”：


import random
import time

def random_delay(min_delay=0.5, max_delay=3.0):
    """
    随机延迟：模拟用户浏览间隔
    优化点：根据前一次请求响应时间动态调整（响应慢则延迟久一点）
    """
    delay = random.uniform(min_delay, max_delay)
    time.sleep(delay)
    return delay

# 进阶：结合响应时间的智能延迟
def smart_delay(response):
    response_time = response.elapsed.total_seconds()
    if response_time > 2:  # 响应慢，说明网站可能压力大，延迟久一点
        time.sleep(random.uniform(2.0, 4.0))
    else:
        time.sleep(random.uniform(0.3, 1.5))

2.2 核心突破：IP池的构建与高效使用

IP封禁是大规模抓取的最大障碍，一个稳定的IP池是必备基础设施。我从“自建IP池”到“混合IP池”踩了无数坑，最终形成了一套高效方案：

2.2.1 IP池核心架构（3层架构）


IP来源层（付费代理+免费代理+ADSL拨号）→ 筛选层（健康检测）→ 使用层（负载均衡+故障自动切换）

2.2.2 自建IP池实战代码（含健康检测）


import requests
import redis
from threading import Thread
import time

class ProxyPool:
    def __init__(self, redis_url="redis://localhost:6379/0"):
        self.redis_client = redis.Redis.from_url(redis_url)
        self.proxy_key = "crawler:valid_proxies"  # 有效代理池键
        self.test_url = "https://target-website.com/ping"  # 目标网站的ping接口（无反爬）
        self.headers = get_random_headers()

    def fetch_proxies(self):
        """
        从多个渠道获取代理（付费API+免费代理站）
        实际项目中：付费代理为主（稳定），免费代理为辅（补充）
        """
        # 1. 从付费代理API获取（示例：某代理平台API）
        paid_proxies = self._fetch_paid_proxies()
        # 2. 从免费代理站抓取（示例：需自己实现爬虫）
        free_proxies = self._fetch_free_proxies()
        return paid_proxies + free_proxies

    def _fetch_paid_proxies(self):
        """调用付费代理API获取代理（替换为实际API）"""
        api_url = "https://proxy-api.com/get?key=your-key&num=100"
        try:
            response = requests.get(api_url, timeout=10)
            return response.json()["proxies"]
        except Exception as e:
            print(f"获取付费代理失败：{e}")
            return []

    def proxy_health_check(self, proxy):
        """
        代理健康检测：
        1. 测试是否能连接目标网站
        2. 测试响应时间（<3秒为有效）
        3. 测试是否匿名（避免透明代理）
        """
        proxies = {"http": f"http://{proxy}", "https": f"https://{proxy}"}
        try:
            start_time = time.time()
            response = requests.get(
                self.test_url,
                proxies=proxies,
                headers=self.headers,
                timeout=5
            )
            response_time = time.time() - start_time
            # 条件：响应状态码200 + 响应时间<3秒 + 匿名性检测
            if response.status_code == 200 and response_time < 3:
                # 匿名性检测：判断响应中是否包含真实IP
                if "X-Real-IP" not in response.headers:
                    self.redis_client.sadd(self.proxy_key, proxy)
                    print(f"代理有效：{proxy}，响应时间：{response_time:.2f}s")
        except Exception as e:
            print(f"代理无效：{proxy}，原因：{e}")

    def run_health_check(self):
        """后台线程：定时检测代理健康状态（每5分钟一次）"""
        while True:
            # 1. 获取所有待检测代理
            all_proxies = self.fetch_proxies()
            # 2. 多线程检测（提高效率）
            threads = []
            for proxy in all_proxies:
                t = Thread(target=self.proxy_health_check, args=(proxy,))
                t.start()
                threads.append(t)
            for t in threads:
                t.join()
            # 3. 清理过期代理（可选：设置代理过期时间）
            self.redis_client.expire(self.proxy_key, 3600)  # 1小时过期
            time.sleep(300)  # 5分钟后重新检测

    def get_random_proxy(self):
        """随机获取一个有效代理（负载均衡）"""
        proxy = self.redis_client.srandmember(self.proxy_key)
        if proxy:
            return proxy.decode("utf-8")
        else:
            raise Exception("无可用代理，请检查代理池状态")

# 启动IP池
if __name__ == "__main__":
    proxy_pool = ProxyPool()
    # 启动健康检测线程
    health_thread = Thread(target=proxy_pool.run_health_check, daemon=True)
    health_thread.start()
    # 测试获取代理
    while True:
        try:
            proxy = proxy_pool.get_random_proxy()
            print(f"获取到代理：{proxy}")
            time.sleep(10)
        except Exception as e:
            print(e)

2.2.3 IP池使用技巧（避免踩坑）

避免单IP高并发：每个IP每分钟请求数控制在30次以内（根据目标网站调整），可通过Redis计数限制；故障自动切换：当某个IP请求失败（403/503），立即从IP池中移除，避免重复使用；混合IP类型：结合静态代理（稳定）和动态拨号IP（适合高频率抓取），降低封禁风险；地区匹配：抓取某地区数据时，优先使用该地区IP（比如抓淘宝杭州商家，用杭州IP）。

2.3 动态渲染与验证码处理

现在很多网站用React/Vue动态渲染，且登录后才能抓取，这时候需要解决“动态页面”和“验证码”两个问题：

2.3.1 动态渲染处理（Playwright替代Selenium）

Selenium的“webdriver”特征容易被识别，大规模抓取中推荐用Playwright（更隐蔽，支持无头模式）：


from playwright.sync_api import sync_playwright
import time

def crawl_dynamic_page(url, proxy):
    """用Playwright抓取动态渲染页面"""
    with sync_playwright() as p:
        # 启动浏览器（无头模式）
        browser = p.chromium.launch(
            headless=True,
            args=[f"--proxy-server={proxy}"]  # 设置代理
        )
        context = browser.new_context(
            user_agent=get_random_headers()["User-Agent"],
            java_script_enabled=True  # 启用JS（模拟真实浏览器）
        )
        page = context.new_page()
        # 模拟用户行为：缓慢滚动、随机点击
        page.goto(url)
        page.wait_for_load_state("networkidle")  # 等待页面加载完成
        # 模拟滚动（加载更多数据）
        for _ in range(3):
            page.mouse.wheel(0, 1000)
            time.sleep(random.uniform(0.5, 1.0))
        # 获取页面源码（已渲染完成）
        html = page.content()
        browser.close()
        return html

2.3.2 验证码识别（ddddocr实战）

对于滑动验证码、图形验证码，推荐用开源的ddddocr（无需付费API，识别率90%+）：


import ddddocr
from playwright.sync_api import sync_playwright

def solve_slide_captcha(page):
    """
    解决滑动验证码：
    1. 截取滑块和背景图
    2. 用ddddocr识别缺口位置
    3. 模拟人工滑动（避免匀速滑动）
    """
    # 1. 截取背景图和滑块图（需根据页面结构调整选择器）
    background = page.locator(".slide-bg").screenshot()
    slider = page.locator(".slide-block").screenshot()
    # 2. 识别缺口位置
    ocr = ddddocr.DdddOcr()
    res = ocr.slide_match(slider, background, simple_target=True)
    gap_x = res["target"][0]  # 缺口X坐标
    # 3. 模拟人工滑动（先快后慢，有微小抖动）
    slider_element = page.locator(".slide-block")
    slider_element.click(button="left")
    page.mouse.down()
    # 分三段滑动：加速→匀速→减速
    page.mouse.move(gap_x * 0.3, 0, steps=10)
    time.sleep(0.1)
    page.mouse.move(gap_x * 0.7, 0, steps=15)
    time.sleep(0.1)
    page.mouse.move(gap_x, 0, steps=20)
    time.sleep(0.2)
    page.mouse.up()
    return True

踩坑教训：滑动验证码不能“一次性滑到缺口”，必须模拟人工的“加速度+抖动”，否则100%被识别。

三、数据去重：从百万到亿级的优化之路

大规模抓取中，数据去重是绕不开的坎——如果不做去重，亿级数据中可能有30%以上重复，不仅占用存储，还会导致后续分析出错。我经历了“本地哈希→Redis Set→布隆过滤器→增量抓取”四个阶段，每个阶段都有明确的适用场景。

3.1 基础去重：本地哈希（适用于百万级）

小规模数据可直接用Python的set存储已抓取URL的哈希值，优点是速度快，缺点是内存有限：


import hashlib

class LocalDupeFilter:
    def __init__(self):
        self.seen = set()  # 存储已抓取URL的哈希值

    def is_duplicate(self, url):
        """判断URL是否重复"""
        url_hash = hashlib.md5(url.encode("utf-8")).hexdigest()
        if url_hash in self.seen:
            return True
        self.seen.add(url_hash)
        return False

# 使用示例
dupe_filter = LocalDupeFilter()
url1 = "https://example.com/product/123"
url2 = "https://example.com/product/123"  # 重复URL
print(dupe_filter.is_duplicate(url1))  # False
print(dupe_filter.is_duplicate(url2))  # True

限制：当URL达到1000万级，set占用内存会超过10GB，无法继续扩展。

3.2 亿级去重：布隆过滤器（内存优化神器）

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，能以极小的内存占用判断“元素是否存在”，适合亿级数据去重。其核心原理是“多个哈希函数+位数组”，代价是存在极小的误判率（可通过参数调优控制）。

3.2.1 布隆过滤器封装（基于Redis）


import math
import hashlib
import redis

class RedisBloomFilter:
    def __init__(
        self,
        redis_url="redis://localhost:6379/0",
        key="crawler:bloomfilter",
        expected_size=100000000,  # 预计去重数据量（1亿）
        false_positive_rate=0.001  # 误判率（0.1%）
    ):
        self.redis_client = redis.Redis.from_url(redis_url)
        self.key = key
        self.expected_size = expected_size
        self.false_positive_rate = false_positive_rate
        # 计算布隆过滤器参数：位数组长度m、哈希函数个数k
        self.m = self._calculate_bit_size()
        self.k = self._calculate_hash_count()

    def _calculate_bit_size(self):
        """计算位数组长度m = -n * ln(p) / (ln(2))²"""
        m = math.ceil(-self.expected_size * math.log(self.false_positive_rate) / (math.log(2) ** 2))
        return m

    def _calculate_hash_count(self):
        """计算哈希函数个数k = m/n * ln(2)"""
        k = math.ceil((self.m / self.expected_size) * math.log(2))
        return k

    def _hash_functions(self, data):
        """实现k个不同的哈希函数（基于md5扩展）"""
        hash_values = []
        data_bytes = data.encode("utf-8")
        md5_hash = hashlib.md5(data_bytes).hexdigest()
        # 从md5哈希值中截取k个32位整数作为哈希结果
        for i in range(self.k):
            # 每次取8位十六进制数，转换为32位整数
            start = i * 8
            end = start + 8
            hash_part = md5_hash[start:end]
            if not hash_part:
                hash_part = md5_hash[-8:]
            hash_val = int(hash_part, 16) % self.m
            hash_values.append(hash_val)
        return hash_values

    def add(self, data):
        """添加数据到布隆过滤器"""
        hash_values = self._hash_functions(data)
        pipeline = self.redis_client.pipeline()
        for idx in hash_values:
            pipeline.setbit(self.key, idx, 1)  # 位数组对应位置设为1
        pipeline.execute()

    def is_exist(self, data):
        """判断数据是否存在（存在返回True，可能误判；不存在返回False，100%准确）"""
        hash_values = self._hash_functions(data)
        pipeline = self.redis_client.pipeline()
        for idx in hash_values:
            pipeline.getbit(self.key, idx)
        results = pipeline.execute()
        return all(results)  # 所有位都是1则认为存在

# 使用示例
if __name__ == "__main__":
    # 初始化：1亿数据量，0.1%误判率
    bloom_filter = RedisBloomFilter(
        expected_size=100000000,
        false_positive_rate=0.001
    )
    # 添加数据
    bloom_filter.add("https://example.com/product/123")
    # 判断是否存在
    print(bloom_filter.is_exist("https://example.com/product/123"))  # True
    print(bloom_filter.is_exist("https://example.com/product/456"))  # False

3.2.2 布隆过滤器的优势与注意事项

内存占用：1亿数据量、0.1%误判率，仅需约12MB内存（对比Redis Set需占用8GB+）；误判率控制：误判率越低，需要的位数组越长、哈希函数越多，可根据实际需求调整（比如允许1%误判率，内存可降至8MB）；删除问题：布隆过滤器不支持删除数据，适合“一次抓取+永久去重”场景；若需支持删除，可使用“计数布隆过滤器”；适用场景：亿级URL去重、增量抓取中的“已抓取数据过滤”。

3.3 增量抓取：避免重复抓取已更新数据

大规模抓取中，“全量重爬”效率极低，增量抓取是必备策略——只抓取新增或更新的数据。核心思路是“记录数据的最后更新时间戳”：


import redis
import time

class IncrementalCrawler:
    def __init__(self, redis_url="redis://localhost:6379/0"):
        self.redis_client = redis.Redis.from_url(redis_url)
        self.last_crawl_key = "crawler:last_crawl_time"  # 上次抓取时间戳

    def get_last_crawl_time(self):
        """获取上次抓取的时间戳（首次为0）"""
        last_time = self.redis_client.get(self.last_crawl_key)
        return int(last_time) if last_time else 0

    def update_last_crawl_time(self):
        """更新上次抓取时间戳为当前时间"""
        self.redis_client.set(self.last_crawl_key, int(time.time()))

    def is_data_updated(self, data_update_time):
        """
        判断数据是否更新：
        data_update_time：数据的最后更新时间戳（从目标网站提取）
        """
        last_crawl_time = self.get_last_crawl_time()
        return data_update_time > last_crawl_time

# 使用示例
if __name__ == "__main__":
    incremental_crawler = IncrementalCrawler()
    # 模拟抓取到的数据（包含更新时间戳）
    data_list = [
        {"url": "https://example.com/product/123", "update_time": 1699999999},
        {"url": "https://example.com/product/456", "update_time": 1700000000},  # 新增数据
    ]
    # 增量过滤
    for data in data_list:
        if incremental_crawler.is_data_updated(data["update_time"]):
            print(f"需要抓取：{data['url']}")
            # 抓取逻辑...
    # 更新上次抓取时间
    incremental_crawler.update_last_crawl_time()

实战技巧：从目标网站提取“更新时间”时，优先使用页面的last-modified响应头，若无则解析页面中的“发布时间”“修改时间”字段，转换为时间戳存储。

四、分布式架构：支撑亿级抓取的基石

单机抓取的极限是“万级/小时”，要达到“百万级/小时”的效率，必须靠分布式架构。我采用“Scrapy+Redis”架构，实现多节点协同抓取，核心是“任务共享+负载均衡”。

4.1 分布式核心原理

中心化任务队列：用Redis存储待抓取URL队列，所有爬虫节点从队列中获取任务；分布式去重：用Redis布隆过滤器实现所有节点的去重共享；负载均衡：每个节点平等获取任务，避免单节点压力过大；故障恢复：节点崩溃后，未完成的任务仍在Redis队列中，重启节点后自动继续。

4.2 分布式爬虫实战（Scrapy+Redis）

4.2.1 项目配置（settings.py核心配置）


# 分布式核心配置
SCHEDULER = "scrapy_redis.scheduler.Scheduler"  # Redis调度器
DUPEFILTER_CLASS = "scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter"  # 布隆过滤器去重
REDIS_URL = "redis://localhost:6379/0"  # Redis连接地址

# 布隆过滤器参数（1亿数据量，0.1%误判率）
BLOOMFILTER_HASH_NUMBER = 6
BLOOMFILTER_BIT = 30

# 并发性能配置
CONCURRENT_REQUESTS = 100  # 每个节点并发数
CONCURRENT_REQUESTS_PER_DOMAIN = 20  # 每个域名并发数
DOWNLOAD_DELAY = 0.2  # 基础延迟

# 反爬虫配置（集成之前的请求头池和代理池）
DOWNLOADER_MIDDLEWARES = {
    "scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": None,
    "crawler.middlewares.RandomHeadersMiddleware": 543,  # 自定义请求头中间件
    "crawler.middlewares.ProxyPoolMiddleware": 600,  # 自定义代理池中间件
}

# 数据存储配置（MongoDB集群）
ITEM_PIPELINES = {
    "crawler.pipelines.MongoDBPipeline": 300,
}
MONGO_URI = "mongodb://mongo-node1:27017,mongo-node2:27017,mongo-node3:27017"
MONGO_DB = "crawler_db"
MONGO_COLLECTION = "products"

4.2.2 自定义中间件（集成代理池和请求头池）


# middlewares.py
from scrapy import signals
from crawler.proxy_pool import ProxyPool  # 之前实现的代理池
from crawler.headers_pool import get_random_headers  # 之前实现的请求头池

class RandomHeadersMiddleware:
    """随机请求头中间件"""
    def process_request(self, request, spider):
        request.headers.update(get_random_headers())
        return None

class ProxyPoolMiddleware:
    """代理池中间件"""
    def __init__(self):
        self.proxy_pool = ProxyPool()  # 初始化代理池

    def process_request(self, request, spider):
        try:
            proxy = self.proxy_pool.get_random_proxy()
            request.meta["proxy"] = f"http://{proxy}"
            spider.logger.info(f"使用代理：{proxy}")
        except Exception as e:
            spider.logger.error(f"获取代理失败：{e}")
            return None

    def process_response(self, request, response, spider):
        """代理失效时重试"""
        if response.status in [403, 407, 503]:
            spider.logger.error(f"代理失效：{request.meta.get('proxy')}")
            # 重新获取代理并重试
            try:
                new_proxy = self.proxy_pool.get_random_proxy()
                new_request = request.copy()
                new_request.meta["proxy"] = f"http://{new_proxy}"
                return new_request
            except Exception as e:
                spider.logger.error(f"重新获取代理失败：{e}")
        return response

4.2.3 分布式爬虫实现（spiders/product_spider.py）


from scrapy_redis.spiders import RedisSpider
from crawler.items import ProductItem
from crawler.incremental import IncrementalCrawler  # 之前实现的增量抓取类

class ProductSpider(RedisSpider):
    name = "product_spider"
    allowed_domains = ["example.com"]
    redis_key = "crawler:start_urls"  # 从Redis获取起始URL

    def __init__(self):
        super().__init__()
        self.incremental_crawler = IncrementalCrawler()  # 增量抓取实例

    def parse(self, response):
        """解析列表页，提取商品详情页URL"""
        # 提取商品URL（根据实际页面结构调整）
        product_urls = response.xpath('//a[@class="product-link"]/@href').extract()
        for url in product_urls:
            full_url = response.urljoin(url)
            # 增量过滤：判断是否需要抓取
            if not self.incremental_crawler.is_data_updated(self._get_update_time(response)):
                self.logger.info(f"数据未更新，跳过：{full_url}")
                continue
            # 加入任务队列
            yield scrapy.Request(
                url=full_url,
                callback=self.parse_detail,
                priority=2  # 详情页优先级高于列表页
            )
        # 提取下一页URL
        next_page = response.xpath('//a[@class="next-page"]/@href').extract_first()
        if next_page:
            yield scrapy.Request(
                url=response.urljoin(next_page),
                callback=self.parse,
                priority=1
            )

    def parse_detail(self, response):
        """解析商品详情页，提取数据"""
        item = ProductItem()
        item["url"] = response.url
        item["title"] = response.xpath('//h1/text()').extract_first(default="").strip()
        item["price"] = response.xpath('//span[@class="price"]/text()').extract_first(default="0").strip()
        item["update_time"] = self._get_update_time(response)
        yield item

    def _get_update_time(self, response):
        """提取页面更新时间（转换为时间戳）"""
        update_time_str = response.xpath('//span[@class="update-time"]/text()').extract_first(default="")
        if update_time_str:
            # 转换为时间戳（根据实际格式调整）
            import datetime
            dt = datetime.datetime.strptime(update_time_str, "%Y-%m-%d %H:%M:%S")
            return int(dt.timestamp())
        return 0

4.2.4 启动分布式爬虫

启动Redis服务器（确保所有节点可访问）；向Redis添加起始URL：


redis-cli LPUSH crawler:start_urls "https://example.com/products?page=1"

在多个节点上启动爬虫：


scrapy crawl product_spider

监控爬虫状态：


# 查看待抓取任务数
redis-cli LLEN crawler:requests
# 查看布隆过滤器大小
redis-cli BITCOUNT crawler:bloomfilter

4.3 分布式优化技巧

任务分片：按URL哈希值分片，分配给固定节点，避免同一URL被多个节点同时抓取；优先级调度：用Redis ZSet存储任务，根据页面重要性设置优先级（比如热点商品优先级高）；异步存储：使用MongoDB异步写入（motor库），避免存储操作阻塞抓取进程；节点扩容：当任务队列堆积时，直接新增爬虫节点，无需修改配置，自动负载均衡。

五、实战案例：千万级电商商品数据抓取

结合以上技术，我曾完成某电商平台1200万商品数据的抓取，核心流程如下：

准备阶段：

搭建Redis集群（3节点，用于任务队列和布隆过滤器）；构建混合IP池（2000个付费代理+500个ADSL拨号IP）；配置MongoDB分片集群（3分片，存储商品数据）。

抓取阶段：

起始URL：平台分类列表页（100个分类）；分布式节点：8台云服务器（每台启动10个爬虫实例）；反爬策略：UA池+随机延迟+IP池+动态渲染（Playwright）；去重策略：Redis布隆过滤器（1亿容量，0.1%误判率）。

结果：

抓取效率：150万条/天，8天完成1200万条；数据质量：重复率0.3%（含布隆过滤器误判）；反爬情况：仅5%的IP被封禁，自动切换后无中断。

六、大规模抓取避坑指南（10个致命错误）

用固定IP高并发抓取→ 解决方案：IP池+单IP限速；请求头字段不匹配→ 解决方案：完整请求头池，保证UA与Accept等字段匹配；用Selenium替代Playwright→ 解决方案：优先使用Playwright，隐藏webdriver特征；布隆过滤器参数设置不当→ 解决方案：根据预计数据量计算m和k，避免误判率过高；分布式节点未共享去重池→ 解决方案：确保所有节点连接同一Redis布隆过滤器；数据存储未做分片→ 解决方案：MongoDB/MySQL分片，避免单库存储压力；未做增量抓取，全量重爬→ 解决方案：基于时间戳的增量策略，只抓新增/更新数据；代理池无健康检测→ 解决方案：定时检测代理有效性，移除失效代理；滑动验证码匀速滑动→ 解决方案：模拟人工加速度滑动，加入微小抖动；未监控任务队列→ 解决方案：用Grafana+Prometheus监控队列长度，及时扩容。