将任何网站变成 AI 可用的数据,84K+ Star 开源爬虫神器
🔥 开源免费 · AI 时代的数据引擎Firecrawl 是一个强大的开源 API 服务,专门为 AI 应用提供网页数据采集能力。它能将任何网站转换为干净的 Markdown、结构化 JSON、截图等格式,让大语言模型(LLM)直接消费。
核心优势:LLM-ready 输出、行业领先的可靠性(>80% 覆盖率)、自动处理代理/JS渲染/动态内容、支持自托管!
| 项目信息 | 详情 |
|---|---|
| GitHub 地址 | github.com/mendableai/firecrawl |
| Star 数量 | 84,000+ |
| 开源协议 | AGPL-3.0(自托管免费) |
| 官网 | firecrawl.dev |
| 支持语言 | Python / Node.js / Go / Rust / Ruby 等多语言 SDK |
任意 URL 转 Markdown / HTML / JSON / 截图
一个请求爬取整个网站所有页面
搜索互联网并获取完整页面内容
描述需求,AI 自动搜索、导航、提取
瞬间发现网站所有 URL
异步批量抓取数千个 URL
Firecrawl 自动处理代理轮换、浏览器渲染、反爬绕过等难题,开发者只需关注数据本身!
| 要求 | 说明 |
|---|---|
| 注册账号 | 在 firecrawl.dev 注册获取 API Key |
| Python | 3.8+ (使用 Python SDK 时) |
| Node.js | 18+ (使用 Node.js SDK 时) |
| 要求 | 说明 |
|---|---|
| Docker | Docker 和 Docker Compose |
| 内存 | 建议 4GB 以上 |
| 磁盘 | 建议 10GB 以上 |
访问 firecrawl.dev,点击 Sign Up 注册账号。
登录后在 Dashboard 中复制你的 API Key(格式:fc-xxxxxxxx)。
pip install firecrawl-py
from firecrawl import Firecrawl
app = Firecrawl(api_key="fc-YOUR_API_KEY")
# 抓取单个页面
doc = app.scrape("https://example.com", formats=["markdown"])
print(doc.markdown)
# 使用 Agent 智能提取
result = app.agent(prompt="找出 Notion 的定价方案")
print(result.data)
npm install @mendable/firecrawl-js
import Firecrawl from '@mendable/firecrawl-js';
const app = new Firecrawl({ apiKey: 'fc-YOUR_API_KEY' });
// 抓取单个页面
const doc = await app.scrape('https://example.com', { formats: ['markdown'] });
console.log(doc.markdown);
curl -X POST 'https://api.firecrawl.dev/v2/scrape' \
-H 'Authorization: Bearer fc-YOUR_API_KEY' \
-H 'Content-Type: application/json' \
-d '{"url": "https://example.com"}'
git clone https://github.com/mendableai/firecrawl.git
cd firecrawl
cp .env.example .env
# 编辑 .env 文件,配置必要的环境变量
docker compose up -d
服务启动后,API 默认运行在 http://localhost:3002。
注意:自托管版本目前仍在开发中,部分高级功能可能不可用。生产环境建议使用云端 API。
from firecrawl import Firecrawl
from pydantic import BaseModel
app = Firecrawl(api_key="fc-YOUR_API_KEY")
class CompanyInfo(BaseModel):
company_mission: str
is_open_source: bool
result = app.scrape(
'https://firecrawl.dev',
formats=[{"type": "json", "schema": CompanyInfo.model_json_schema()}]
)
print(result.json)
# 爬取整个文档站点
docs = app.crawl("https://docs.firecrawl.dev", limit=50)
for doc in docs.data:
print(doc.metadata.source_url, doc.markdown[:100])
# 只需描述你要什么,Agent 自动帮你找
result = app.agent(
prompt="对比 Firecrawl、Apify 和 ScrapingBee 的企业版功能",
model="spark-1-pro"
)
print(result.data)
# 搜索互联网并获取完整页面内容
results = app.search(
"最好的 AI 编程工具 2026",
limit=5,
scrape_options={"formats": ["markdown"]}
)
Firecrawl 提供免费额度(每月 500 次抓取),超出后需要付费。自托管部署完全免费,但需要自己准备服务器。
传统爬虫需要手写解析规则、处理反爬、管理代理池。Firecrawl 一个 API 搞定所有这些,输出直接是 LLM 可用的格式。
支持!Firecrawl 内置 Headless 浏览器,能完美处理 SPA(单页应用)、动态加载内容。还支持 Actions(点击、滚动、输入等操作)。
云端 API 可直接用于商业项目。自托管版本使用 AGPL-3.0 协议,商业使用需注意开源义务。
单页抓取通常 2-5 秒完成。批量抓取支持异步并发,可同时处理数千个 URL。Agent 模式根据任务复杂度,通常 10-30 秒返回结果。
有!Firecrawl 官方提供了 MCP Server,可以让 Claude、Cursor 等 AI 工具直接调用 Firecrawl 能力。安装方式:npx skills add firecrawl/cli
和志同道合的朋友一起交流学习
抖音扫码加入