Crawl4AI 使用教程

📖 项目简介

Crawl4AI 是 GitHub 上最受欢迎的开源 AI 爬虫工具，拥有 63K+ Star。它能将任意网页转换为干净的、LLM 友好的 Markdown 格式，专为 RAG 管道、AI Agent 和数据处理流水线设计。基于 Playwright 驱动浏览器，支持异步并发、反爬绕过、结构化数据提取等高级功能，一行代码即可完成传统爬虫几百行代码的工作。

💡

GitHub 地址： https://github.com/unclecode/crawl4ai

✨ 核心亮点

📝

LLM 友好输出

自动生成干净 Markdown，直接喂给大模型

⚡

极速异步爬取

异步浏览器池 + 缓存，性能拉满

🔎

结构化提取

CSS/XPath/LLM 多种提取策略

🛡️

反爬检测绕过

三级反爬 + 代理轮换 + 隐身模式

🐳

Docker 部署

一行命令启动，自带监控面板

🆓

完全开源免费

Apache 2.0 许可，无 API Key 限制

⚙️ 环境要求

Python 3.10 或更高版本
操作系统：Windows / macOS / Linux 均支持
可选：Docker（用于容器化部署）

🚀 安装步骤

安装 Crawl4AI

使用 pip 安装最新版本：

                        bash
                        pip install -U crawl4ai
                    

运行初始化设置

安装浏览器驱动和必要依赖：

                        bash
                        crawl4ai-setup
                    

⚠️

如遇到浏览器相关错误，手动安装：python -m playwright install chromium

验证安装

运行诊断命令确认一切正常：

                        bash
                        crawl4ai-doctor
                    

💻 快速开始

基础爬取（3 行代码）

最简单的用法，一行代码爬取网页并获取干净的 Markdown：

                python
                import asyncio
from crawl4ai import AsyncWebCrawler

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(url="https://example.com")
        print(result.markdown)

asyncio.run(main())
            

结构化数据提取（无需 LLM）

使用 CSS 选择器从网页提取结构化 JSON 数据，零 LLM 成本：

                python
                from crawl4ai import AsyncWebCrawler, CrawlerRunConfig
from crawl4ai import JsonCssExtractionStrategy

schema = {
    "name": "商品列表",
    "baseSelector": ".product-item",
    "fields": [
        {"name": "title", "selector": "h3", "type": "text"},
        {"name": "price", "selector": ".price", "type": "text"},
        {"name": "image", "selector": "img", "type": "attribute", "attribute": "src"}
    ]
}

async def main():
    config = CrawlerRunConfig(
        extraction_strategy=JsonCssExtractionStrategy(schema)
    )
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(url="https://example.com/products", config=config)
        print(result.extracted_content)

asyncio.run(main())
            

命令行模式（CLI）

不写代码也能用，直接命令行爬取：

                bash
                # 基础爬取输出 Markdown
crwl https://example.com -o markdown

# 深度爬取（BFS 策略，最多 10 页）
crwl https://docs.crawl4ai.com --deep-crawl bfs --max-pages 10

# 用 LLM 提取特定信息
crwl https://example.com/products -q "提取所有商品价格"
            

🐳 Docker 部署

一行命令启动服务，自带监控面板和 API 接口：

                bash
                # 拉取并启动
docker pull unclecode/crawl4ai:latest
docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai:latest

# 访问监控面板
# http://localhost:11235/dashboard

# 访问交互式测试页
# http://localhost:11235/playground
            

✅

Docker 版本自带浏览器池管理、实时监控仪表板、MCP 集成等企业级功能。

❓ 常见问题

Q: 安装时提示浏览器相关错误？

运行 python -m playwright install chromium 手动安装浏览器。如果仍有问题，尝试 playwright install --with-deps chromium。

Q: 爬取时被目标网站封 IP 了怎么办？

Crawl4AI v0.8.5+ 内置三级反爬检测和代理轮换。配置 proxy_config 参数添加代理链，系统会自动升级反爬策略。

Q: 支持哪些大模型进行数据提取？

通过 LiteLLM 集成，支持 OpenAI、Claude、Gemini、本地 Ollama 等所有主流模型。也支持不依赖 LLM 的 CSS/XPath 提取。

Q: 可以爬取需要登录的网站吗？

支持！使用 Browser Profiler 创建持久化的浏览器配置文件，保存登录状态、Cookie 等，后续爬取自动复用。