# JAVA爬虫（可配置站点快速爬取，支持自动切换代理IP，支持htmlunit、httpclient等切换）

# https://github.com/banana513a/ndspider

## 1、遍历网页内所有的url并筛选符合条件的url放入队列。

## 2、频率控制，每天每个IP访问次数限制在XX次内;

## 3、代理线程池，（更新代理IpConfigManager.idleIpNodes ，然后通知注册的监听方法RefreshIpListener.onRefreshIpCompelete；）;代理IP自动切换；每个IP每天达到设定的指定次数或者失败指定次数自动切换。

## 4、可配置Config,快速爬取网站。

## 5、纯Java，没有依赖数据库（后期思考用Mysql、Mongodb、redis）；

# 启动说明：

##1、配置

### 1.1、站点配置：

src/main/java/com/ndcf/spider/crawler/executor/siteconfig/CralwerExample1Config.java （继承src/main/java/com/ndcf/spider/crawler/executor/siteconfig/CralwerConfig.java）

“`

// 继承CralwerConfig，需要初始化的参数

public static String URL = “http://www.example1.com/”; // 设置需要爬取的站点url，（遍历网页内所有的url并筛选符合条件的url放入队列。）

// public static String regUrlConStr = “S*(?:” + SITE_NAME + “)((?!css|js|:void)S)*”; //遍历网页内所有的url的过滤正则,不填则不过滤

public static String CHARSET = “UTF-8”; // 默认编码，实际会根据爬取网页的http header返回的编码自动设置编码格式；

public static int MAX_TIMES = 2000; // 当天该站点最大次数

public static int THIS_TIMES_CNT = 20; // 本次启动爬取的次数（默认乘10），由于涉及所有url，包括css,js,图片，所以，thisTimeCnt *= 10;,

public static Boolean proxyWhether = false; // 是否启用代理，不启用默认用本地IP：IpNode(“127.0.0.1”, “9999”)，

public static int timeOut = 10000; // 超时时间(单位：毫秒),

“`

src/main/java/com/ndcf/spider/crawler/executor/SingleHtmlUnitConfigFactory.java （在类变量CRAWLER_CONFIG_MAP注册对应的站点配置CralwerConfig继承类列如CralwerExample1Config.java）