高效处理分页数据：用 Python 爬虫抓取网站的多页信息

在网页数据抓取中，分页数据的处理常常是一个挑战。许多网站将数据分成多个页面，通常在每一页中展示部分信息，例如商品列表、文章内容、用户评论等。要抓取网站上的所有数据，我们需要高效地处理这些分页，自动化地从多个页面中提取信息。

本文将介绍如何使用 Python 爬虫抓取多页数据，并讨论常见的分页处理方法，确保爬虫能够灵活、高效地抓取所有数据。

一、理解分页机制

大多数网站的分页数据都有相似的结构，常见的分页实现方式包括：

URL 参数分页：在 URL 中通过参数传递页码。例如，https://example.com/page=1，https://example.com/page=2 等。
AJAX 异步分页：通过 JavaScript 动态加载分页数据，通常通过异步请求来获取数据。
按按钮分页：需要点击“下一页”按钮来加载新的内容。

无论是哪种方式，我们都可以用 Python 的爬虫工具结合合适的请求方法来实现自动化抓取。

二、常见的分页处理方法

2.1 URL 参数分页

最常见的分页方式是 URL 参数分页，网页的每一页都包含一个页码参数。我们可以通过动态改变页码，依次抓取多个页面的数据。

示例：用 Python 爬取带有页码参数的网页

假设我们有一个电商网站的商品列表，每一页的 URL 结构为 https://www.example.com/products?page=1，page=2 表示第二页，以此类推。

import requests
from bs4 import BeautifulSoup

# 基础 URL 和请求头
base_url = 'https://www.example.com/products?page='
headers = {
            
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

# 定义一个函数来抓取每一页的数据
def crawl_page(page_num):
    url = base_url + str(page_num)
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        # 使用 BeautifulSoup 解析 HTML
        soup = BeautifulSoup(response.content, 'html.parser')

        # 提取商品信息，假设商品信息在 class="product-item" 的 div 中
        products = soup.find_all('div', class_='product-item')
        for product in products:
            product_name = product.find('h2', class_='product-title').get_text(strip=True)
            product_price = product.find('span', class_='price').get_text(strip=True)
            print(f'商品名称: {
              product_name}，价格: {
              product_price}')
    else:
        print(f"Error: {
              response.status_code} - Failed to retrieve page {
              page_num}")

# 定义一个函数来抓取多个页面
def crawl_all_pages(start_page, end_page):
    for page_num in range(start_page, end_page + 1):
        print(f"抓取第 {
              page_num} 页数据...")
        crawl_page(page_num)

# 设置起始和结束页码
start_page = 1
end_page = 5  # 假设我们要抓取第1到第5页的数据
crawl_all_pages(start_page, end_page)

2.2 通过“下一页”按钮翻页

有些网站使用“下一页”按钮来翻页，每一页的内容是通过点击该按钮来加载的。在这种情况下，我们通常需要模拟点击操作。

这时，Selenium 是一个理想的工具。它可以模拟浏览器操作，包括点击按钮、翻页等，来处理动态加载内容。

示例：使用 Selenium 模拟点击“下一页”

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 设置 Selenium WebDriver
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')

# 访问网站
driver.get('https://www.example.com/products')

# 等待页面加载
time.sleep(2)

# 定义一个函数来抓取数据
def crawl_page():
    # 获取当前页的数据，假设商品信息在 class="product-item" 的 div 中
    products = driver.find_elements(By.CLASS_NAME, 'product-item')
    for product in products:
        product_name = product.find_element(By.CLASS_NAME, 'product-title').text
        product_price = product.find_element(By.CLASS_NAME, 'price').text
        print(f'商品名称: {
              product_name}，价格: {
              product_price}')

# 翻页操作
def crawl_all_pages(max_pages):
    current_page = 1
    while current_page <= max_pages:
        print(f"抓取第 {
              current_page} 页数据...")
        crawl_page()

        # 查找“下一页”按钮并点击
        try:
            next_button = driver.find_element(By.CLASS_NAME, 'next-page')
            next_button.click()
            time.sleep(2)  # 等待页面加载
            current_page += 1
        except Exception as e:
            print("没有找到下一页按钮，停止抓取")
            break

# 开始抓取前 5 页的数据
crawl_all_pages(5)

# 关闭浏览器
driver.quit()

注意：

使用 time.sleep(2) 来等待页面加载，确保数据抓取时页面已完全渲染。
通过 Selenium 模拟用户行为时，要小心不要被网站识别为机器人，适当使用延迟、随机等待等措施来避免封禁。

2.3 AJAX 异步分页

很多现代网站使用 AJAX 来实现数据的动态加载，而不是通过 URL 参数来分页。在这种情况下，我们需要直接发送请求到后台的 API 或 AJAX 接口，获取分页数据。

通过分析网站的开发者工具（DevTools），我们可以找到这些异步请求的 API 地址，通常是一个 JSON 格式的数据接口。然后，我们可以模仿该请求，获取分页数据。

示例：模拟 AJAX 请求抓取分页数据

import requests

# 假设 API 地址如下，URL 中有 page 参数
api_url = 'https://www.example.com/api/products?page='
headers = {
            
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

def crawl_page(page_num):
    url = api_url + str(page_num)
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        data = response.json()  # 假设返回的是 JSON 格式的数据
        products = data['products']  # 假设产品数据在 'products' 字段中
        for product in products:
            product_name = product['name']
            product_price = product['price']
            print(f'商品名称: {
              product_name}，价格: {
              product_price}')
    else:
        print(f"Error: {
              response.status_code} - Failed to retrieve page {
              page_num}")

# 定义抓取多页数据的函数
def crawl_all_pages(start_page, end_page):
    for page_num in range(start_page, end_page + 1):
        print(f"抓取第 {
              page_num} 页数据...")
        crawl_page(page_num)

# 设置抓取页码范围
start_page = 1
end_page = 5  # 假设抓取 1 到 5 页
crawl_all_pages(start_page, end_page)

分析：

通过直接请求 API 获取数据，可以绕过页面渲染的开销，提高数据抓取速度。
response.json() 用于解析 JSON 格式的数据，之后提取所需的信息。