最近有朋友让我教她爬虫,“爬虫”是的你没有听错,就是爬虫。我说你一个没有编程基础的人想学爬虫,那我估计短时间教不会,也不是咱的能力不行,俗话说”隔行如隔山“ ,跨行业学习真的是个头疼的大事。
我说你要什么数据我给你爬,朋友还不愿意,非要自己学,哎,我说我找找看看有没有免费的傻瓜式的可操作的爬虫工具让你用吧!!!
经过我的分析找了几款工具:
1、八爪鱼采集器
官网地址:https://www.bazhuayu.com/
简单试了一下效果还行,可是 它是要收费的,果断抛弃。
2、Scrapy
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy 是我常常使用的一款爬虫框架,这个话需要必定的编程基础,在Python领域还是十分厉害的。
3、Web Scraper
Web Scraper是一款点选式网页数据采集工具,通过智能识别和自定义规则简化数据抓取过程,支持多种数据导出格式。
Web Scraper 功能强劲,但是免费版的功能受限,需要购买会员才能体验功能的强劲,还需要再思考一下。
4、 EasySpider
EasySpider 是浙江大学硕士 NaiBo Wang 的毕业设计 。EasySpider是一款可视化爬虫软件 ,可以使用图形化界面,无代码可视化的设计和执行爬虫任务。
下载之后免安装,直接点击就进入任务设计页面了,简直太厉害了,小白也可以操作了。
而且大神还有论文的,简直佩服啊!
论文
然后我对比之后就把 Easy Spider 推荐给了我朋友。结果不会使用,我说大神在B站上面有视频,你去学习一下,最后还是不太会,算了 我来写一下教程吧。
下载安装
目前最新版应该是0.6.2
https://github.com/NaiboWang/EasySpider/releases
- 直接解压,点击EasySpider
- 安装之后会出来这个页面,然后选择对于语言进入下一步
- 这里就可以开始设计任务了 (查看/管理执行任务里面会有一些测试任务,不想要的可以直接删除,我没有删,想着遇见一些问题还能看看任务是如何设计的)
- 这里有三种设计模式,根据实际情况去选择就行了。我们选择使用纯净版浏览器设计就可以了。
- 输入你要爬的网址,点击开始设计 (我们准备爬一下招标公告 https://www.chinabidding.cn/zbxx/zbgg/)
设计主页面
- 然后我们就会进入设计主页面,然后我们能看到左侧是一些功能按钮,中间是流程设计区域,右侧是按钮属性。
- 然后我们这次主要目的是爬取一些招标公告标题、时间以及地区,相对来说比较简单一些
- 我们把需要的数据进行选中,然后扩大选择区域,
- 最后把设计好的任务点击左侧保存,返回首页执行任务数据会在user_data下面,是个CSV文件。
ok, 简单的EasySpider 爬取任务就是这样了,一些具体细节可能写的不是很详细,不懂编程的小伙伴如果想学的话可以去官网参考下学习文档,同时也可以在评论区找我
- 最新
- 最热
只看作者