Firecrawl 使用教程

给 Codex 接上全网:自动联网搜索、抓取,喂给 AI 写代码

⭐ 132K Star · 开源免费

📖 项目简介

Firecrawl(火行者)是一个面向 AI 的网页数据 API,能搜索、抓取、爬取整个互联网, 把任意网页转换成干净的 Markdown 或结构化 JSON,专门喂给大模型使用。 它覆盖 96% 的网页(包括重 JS 渲染的页面),自动帮你搞定代理轮换、限流、反爬、JS 阻塞等脏活累活,零配置开箱即用。

最关键的是,它能一条命令接入 Codex、Claude Code 等 AI 编程助手,也支持 MCP 协议。 这样 Codex 就不再"闭门造车"——它可以实时联网查最新文档、调研竞品、抓取真实数据,再用这些数据写代码、出报告。 目前在 GitHub 已收获 132K Star,既能开源自托管,也有官方托管云服务。

核心亮点

🔌
一行接入 Codex
一条命令装成 Skill / MCP,AI 编程助手立刻会联网
🌐
搜索 + 抓取 + 爬整站
Search / Scrape / Crawl / Map / Agent 一站式
📄
LLM-Ready 输出
网页秒变干净 Markdown / 结构化 JSON / 截图
🛡️
脏活全包
代理轮换、限流、反爬、JS 渲染零配置

🚀 如何使用(Codex + Firecrawl)

1

注册并获取 API Key

在 Firecrawl 官网(见上方折叠链接)注册账号,进入控制台复制你的 API Key(形如 fc-xxxxxxxx)。也可以按自托管文档在本地用 Docker 跑一套。

2

给 AI 助手装上 Firecrawl 技能

对 Codex、Claude Code 这类支持 Skill 的助手,执行下面这条初始化命令,安装完重启 AI 助手即可。它会自动把搜索、抓取、爬取等能力注册给你的 Agent。

bash npx -y firecrawl-cli@latest init --all --browser
3

或用 MCP 方式接入

在 MCP 客户端的配置文件里加入下面这段,把 API Key 填进环境变量,就能让任意 MCP 客户端实时连上互联网。

json { "mcpServers": { "firecrawl-mcp": { "command": "npx", "args": ["-y", "firecrawl-mcp"], "env": { "FIRECRAWL_API_KEY": "fc-YOUR_API_KEY" } } } }
4

直接对 Codex 下达联网指令

装好后,你只要用自然语言对 Codex 说需求,它就会自动调用 Firecrawl 联网搜集数据,再用这些实时数据写代码。例如:

  • 「调研一下三家竞品的最新定价,整理成表格」
  • 「抓取这个文档站的最新 API,按它写一个调用示例」
  • 「把这个页面的内容转成 Markdown 存到项目里」
5

也可在代码里直接调用

不接 AI 助手时,用官方 SDK(支持 Python / Node / Java / Rust 等)几行就能跑:

python from firecrawl import Firecrawl app = Firecrawl(api_key="fc-YOUR_API_KEY") # 抓取单页,直接拿到干净 Markdown doc = app.scrape("目标网址", formats=["markdown"]) print(doc.markdown) # 让 Agent 自动联网调研,不用提前知道 URL result = app.agent(prompt="找出 Notion 的各档定价方案") print(result.data)

常见问题

Q: 它和我自己写爬虫有什么区别?

自己写爬虫要处理代理轮换、限流、反爬、JS 渲染、把 HTML 清洗成可读文本……Firecrawl 把这些全部封装好了,直接返回 LLM 能用的干净 Markdown / JSON,省下大量工程量,也更省 token。

Q: 一定要付费吗?能本地跑吗?

项目本身基于 AGPL-3.0 开源,可以按官方自托管指南在本地用 Docker 部署。官方云服务在免费额度之上提供更高并发和额外功能,按需选择即可。

Q: 除了 Codex 还支持哪些工具?

支持 Claude Code、Antigravity、OpenCode 等支持 Skill 的 AI 助手,也支持标准 MCP 客户端,以及 Lovable、Zapier、n8n 等平台集成。

Q: Search、Scrape、Crawl、Agent 有什么区别?

Scrape 抓单页;Crawl 爬整站所有页面;Map 秒级列出网站所有 URL;Search 直接搜全网并返回正文;Agent 最省心——你描述需求,它自己搜索、导航、取数,连 URL 都不用给。