Crawl4AI 安装使用教程

GitHub 63K Star · 开源 AI 爬虫 · 一行代码网页变数据

⭐ 开源免费 · Python

📖 项目简介

Crawl4AI 是 GitHub 上最受欢迎的开源 AI 爬虫工具,拥有 63K+ Star。它能将任意网页转换为干净的、LLM 友好的 Markdown 格式,专为 RAG 管道、AI Agent 和数据处理流水线设计。基于 Playwright 驱动浏览器,支持异步并发、反爬绕过、结构化数据提取等高级功能,一行代码即可完成传统爬虫几百行代码的工作。

核心亮点

📝
LLM 友好输出
自动生成干净 Markdown,直接喂给大模型
极速异步爬取
异步浏览器池 + 缓存,性能拉满
🔎
结构化提取
CSS/XPath/LLM 多种提取策略
🛡️
反爬检测绕过
三级反爬 + 代理轮换 + 隐身模式
🐳
Docker 部署
一行命令启动,自带监控面板
🆓
完全开源免费
Apache 2.0 许可,无 API Key 限制

⚙️ 环境要求

🚀 安装步骤

1

安装 Crawl4AI

使用 pip 安装最新版本:

bash pip install -U crawl4ai
2

运行初始化设置

安装浏览器驱动和必要依赖:

bash crawl4ai-setup
⚠️
如遇到浏览器相关错误,手动安装:python -m playwright install chromium
3

验证安装

运行诊断命令确认一切正常:

bash crawl4ai-doctor

💻 快速开始

基础爬取(3 行代码)

最简单的用法,一行代码爬取网页并获取干净的 Markdown:

python import asyncio from crawl4ai import AsyncWebCrawler async def main(): async with AsyncWebCrawler() as crawler: result = await crawler.arun(url="https://example.com") print(result.markdown) asyncio.run(main())

结构化数据提取(无需 LLM)

使用 CSS 选择器从网页提取结构化 JSON 数据,零 LLM 成本:

python from crawl4ai import AsyncWebCrawler, CrawlerRunConfig from crawl4ai import JsonCssExtractionStrategy schema = { "name": "商品列表", "baseSelector": ".product-item", "fields": [ {"name": "title", "selector": "h3", "type": "text"}, {"name": "price", "selector": ".price", "type": "text"}, {"name": "image", "selector": "img", "type": "attribute", "attribute": "src"} ] } async def main(): config = CrawlerRunConfig( extraction_strategy=JsonCssExtractionStrategy(schema) ) async with AsyncWebCrawler() as crawler: result = await crawler.arun(url="https://example.com/products", config=config) print(result.extracted_content) asyncio.run(main())

命令行模式(CLI)

不写代码也能用,直接命令行爬取:

bash # 基础爬取输出 Markdown crwl https://example.com -o markdown # 深度爬取(BFS 策略,最多 10 页) crwl https://docs.crawl4ai.com --deep-crawl bfs --max-pages 10 # 用 LLM 提取特定信息 crwl https://example.com/products -q "提取所有商品价格"

🐳 Docker 部署

一行命令启动服务,自带监控面板和 API 接口:

bash # 拉取并启动 docker pull unclecode/crawl4ai:latest docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai:latest # 访问监控面板 # http://localhost:11235/dashboard # 访问交互式测试页 # http://localhost:11235/playground
Docker 版本自带浏览器池管理、实时监控仪表板、MCP 集成等企业级功能。

常见问题

Q: 安装时提示浏览器相关错误?

运行 python -m playwright install chromium 手动安装浏览器。如果仍有问题,尝试 playwright install --with-deps chromium

Q: 爬取时被目标网站封 IP 了怎么办?

Crawl4AI v0.8.5+ 内置三级反爬检测和代理轮换。配置 proxy_config 参数添加代理链,系统会自动升级反爬策略。

Q: 支持哪些大模型进行数据提取?

通过 LiteLLM 集成,支持 OpenAI、Claude、Gemini、本地 Ollama 等所有主流模型。也支持不依赖 LLM 的 CSS/XPath 提取。

Q: 可以爬取需要登录的网站吗?

支持!使用 Browser Profiler 创建持久化的浏览器配置文件,保存登录状态、Cookie 等,后续爬取自动复用。