最近,MCP协议在科技圈越来越火,相关的MCP工具也如雨后春笋般不断涌现。今天开始,我将给大家分享各种MCP工具。本次重点介绍的Firecrawl,是一款超流行的开源爬虫。
Firecrawl——开源爬虫新利器
通俗来讲,Firecrawl能将站点转换成大模型友善的数据,常见格式如markdown或Json数据。作为开源项目,它支持本地化部署,没有本地条件的话,也能使用云端API 。
在Firecrawl官方网站,我们输入Firecrawl文档介绍的链接,然后点击“start for free” ,就能通过爬取得到网页的markdown版本。在当前大语言模型应用中,markdown格式文本备受青睐,因大模型能很好理解,相关应用也十分流行。


随着MCP协议发展,Firecrawl官方也提供了MCP服务器,这就意味着我们可以把它集成到任何支持MCP的客户端,像Cursor和Winsurf,甚至VS Code的Cline插件 。本次就教大家实现Firecrawl本地化部署,并集成到Cline插件 ,让VS Code摇身一变,成为强劲的本地化爬虫工具。下面介绍分为三个部分,目前正式开始!
第一步:本地化部署Firecrawl
我们要前往Firecrawl的GitHub代码仓库,了解部署方式,有基于源代码部署、利用docker等多种方式,这里推荐最方便的docker方式 。前提是得确保已经安装了docker以及Docker Compose工具。
- 克隆代码仓库:在代码仓库页面点击“code”获取克隆链接,然后在本地完成代码仓库克隆。
- 复制并修改文件:进入firecrawl/apps/api目录,参照代码仓库的CONTRIBUTING.md文档,将.env.example文件复制为.env 。env配置中把“use DB authentication”字段从true改为false,目的是在本地部署时跳过authentication,无需API Key就能访问。
- 启动容器:通过 “docker compose up”命令启动容器。初次启动可能较慢,主要是容器镜像准备耗时。
- 验证部署:用文档中的curl命令,就能验证是否正常工作 。至此,成功完成在本地部署for core。


第二步:在VS Code的cline插件配置MCP Firecrawl
接下来需要打开VS Code,进入Cline插件中操作。
- 安装服务器:先打开MCP服务器的marketplace(即MCP服务市场),搜索安装Firecrawl,插件安装流程会期望读取MCP配置,为MCP服务器创建一个目录和安装Firecrawl MCP服务器的NPM包,运行命令后会更新MCP服务器配置文件。
- 手工配置环境变量:安装过程虽然有提示需要一个API Key(由于本地部署且关闭了authentication ,随机填个不存在的即可),但在右侧配置文件中,环境变量API Key无需设置,不过Firecrawl API URL的这个环境变量指向本地发布服务器是必须的。

第三步:测试在VS code利用cline插件抓取网页
完成配置后,我们就进行测试。列如我们找到一个文档网站,希望保存包含此内容的网页 。操作流程如下:
- 复制网页链接,打开cline插件的聊天界面,让 “Firecrawl” 去爬取网页并保存到指定目录。
- 然后我们就会看到目录里有份MD文档,它申请使用相关工具,点击 “approve” ,速度比较快,很快完成抓取。
- 插件会申请创建文件,经过一番操作,文件创建完毕后点击 “Save” 保存。
- 最后关闭cline插件 ,在VS Code打开保存的文件预览效果,会发现文字、图片到最后的表格都很好地完成了抓取 。

有兴趣的朋友可以亲自运行下,比对一下原始网页,就能看到所有功能都是Firecrawl提供的支持。通过这种集成方式,VS Code也能成为数据抓取好帮手,抓取的内容还能作为和大模型交流的重大语料信息,尤其对了解新技术的文档特别有用。

















- 最新
- 最热
只看作者