47K Star 多平台自媒体数据采集工具
⭐ 47.2K Star · 开源免费MediaCrawler 是一个功能强大的多平台自媒体数据采集工具,基于 Playwright 浏览器自动化框架,无需逆向复杂的 JS 加密算法,即可轻松抓取小红书、抖音、快手、B站、微博、贴吧、知乎等 7 大主流平台的公开信息。
支持关键词搜索、指定帖子爬取、二级评论抓取、创作者主页数据、登录态缓存、IP代理池等功能,还能自动生成评论词云图,是自媒体运营和数据分析的利器。
| 平台 | 关键词搜索 | 指定帖子 | 二级评论 | 创作者主页 | IP代理 |
|---|---|---|---|---|---|
| 小红书 | ✅ | ✅ | ✅ | ✅ | ✅ |
| 抖音 | ✅ | ✅ | ✅ | ✅ | ✅ |
| 快手 | ✅ | ✅ | ✅ | ✅ | ✅ |
| B站 | ✅ | ✅ | ✅ | ✅ | ✅ |
| 微博 | ✅ | ✅ | ✅ | ✅ | ✅ |
| 贴吧 | ✅ | ✅ | ✅ | ✅ | ✅ |
| 知乎 | ✅ | ✅ | ✅ | ✅ | ✅ |
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
# 使用 uv(推荐)
uv sync
# 安装浏览器驱动
uv run playwright install
如果使用 pip:
python -m venv venv
venv\Scripts\activate # Windows
pip install -r requirements.txt
playwright install
编辑 config/base_config.py,设置搜索关键词、爬取类型、是否开启评论等选项(文件中有详细中文注释)。
# 关键词搜索小红书笔记
uv run main.py --platform xhs --lt qrcode --type search
# 指定帖子ID爬取
uv run main.py --platform xhs --lt qrcode --type detail
# 爬取抖音
uv run main.py --platform dy --lt qrcode --type search
# 查看所有选项
uv run main.py --help
# 启动 Web 界面
uv run uvicorn api.main:app --port 8080 --reload
访问 http://localhost:8080 即可使用可视化界面配置爬虫参数、实时查看运行状态和数据预览。
MediaCrawler 支持多种数据存储方式:
支持二维码扫码登录(推荐)和手机号验证码登录。扫码登录最稳定,登录态会自动缓存,下次运行无需重复登录。
项目仅用于学习和研究目的,支持 IP 代理池分散请求。建议合理控制爬取频率,遵守平台使用条款。
在 config/base_config.py 中将 ENABLE_GET_COMMENTS 设置为 True 即可开启评论爬取,支持二级评论。
支持。Linux 环境下使用 Playwright 的 headless 模式即可运行,无需图形界面。