AgentTars 使用教程

给 Codex 配双手,AI 动手接管整台电脑

⭐ 35K Star · 字节官方开源

📖 项目简介

Agent TARS 是字节跳动官方开源的多模态 AI Agent,目前已收获 35K Star。 它基于多模态视觉模型,看得懂屏幕、会用鼠标键盘,并内置完整的 MCP 生态, 能一行命令直接操控你电脑里的各种软件——写代码、订机票、剪视频、生成图片、发布自媒体,全部一句话搞定。

这正是它和 Codex 这类 AI 编程工具的绝配:Codex 擅长在终端里"动脑"写代码,却没法动手操作软件; 而 Agent TARS 给 AI 配上了"眼睛 + 手",负责"动手"操作真实的电脑界面。 两者一结合,就形成了「写代码 → 自动跑起来 → 验证、出图、做视频、发布」的完整闭环。

核心亮点

👁️
多模态视觉
看得懂屏幕内容,像人一样识别界面元素
🖱️
GUI 操控
会用鼠标键盘,直接操作电脑里的任意软件
🧰
MCP 生态
内置工具协议,连接真实世界的任何工具
🆓
开源免费
字节官方出品,CLI + Web UI,本地可控

⚙️ 环境要求

⚠️
确保 node --version 输出 ≥ 22,并提前准备好模型 API Key 以便配置。

🚀 如何使用(一句话操控电脑)

1

一行命令启动 CLI

无需复杂安装,用 npx 直接拉起最新版命令行:

bash npx @agent-tars/cli@latest
2

配置模型 Provider

首次启动按提示填入大模型的 API Key 与模型名称,支持 OpenAI 兼容接口、火山引擎、Anthropic 等多家服务:

bash agent-tars --provider volcengine --model doubao-1.5-vl
agent-tars --provider openai --apiKey 你的Key
3

打开 Web UI 下指令

启动后会自动开启本地 Web 界面,在对话框里用自然语言描述任务,AI 就会看屏幕、动鼠标键盘开始操作:

prompt 帮我剪一条产品种草视频,搜素材、拼片段、加字幕
帮我生成一张小红书封面图并保存到桌面
4

和 Codex 配合:动脑 + 动手

让 Codex 负责写代码与逻辑,把"需要动手操作软件、验证结果、出图发布"的环节交给 Agent TARS,形成完整自动化闭环:

prompt Codex:写好这个网页的前端代码
AgentTars:打开浏览器跑起来,截图确认效果再发到自媒体

🔗 进阶:用 MCP 真正打通 Codex × AgentTars

Codex 和 Agent TARS 都原生支持 MCP(模型上下文协议),这就是把两者真正打通的桥: Codex 既能挂载外部 MCP 工具,也能把自己暴露成服务;Agent TARS 的内核本身就基于 MCP,可以挂载工具、也能被调用。 所以让「动脑的 Codex」和「动手的 AgentTars」协作,靠的是 MCP 互联,而不是把两个模型合并成一个

💡
别想着「把 AgentTars 的模型直接换成 Codex 那个模型」。AgentTars 干的是看屏幕、定位元素并点击的活,依赖多模态视觉模型(豆包 vision / UI-TARS 等);Codex 系模型偏代码、视觉操控弱。正确姿势是两个 Agent 通过 MCP 各司其职

方案一:Codex 主导,AgentTars 当「手」(推荐)

把 Agent TARS 包成一个 MCP server,用一条命令接进 Codex。之后 Codex 负责想和写代码,遇到「打开软件 / 跑起来 / 截图验证 / 发布」就调用 AgentTars 这只手:

bash # 把 AgentTars 注册为 Codex 的 MCP 工具
codex mcp add agent-tars -- npx -y @agent-tars/mcp-server
# 在 Codex 会话里输入 /mcp 可查看已连接的工具
prompt(在 Codex 里) 写好这个落地页前端,然后用 agent-tars 打开浏览器跑起来,
截图确认效果没问题后,帮我发布到自媒体

方案二:AgentTars 主导,Codex 当「写代码工具」

Codex 可以把自己暴露成 MCP 服务,再挂到 Agent TARS 上。AgentTars 看屏幕、动鼠标键盘,遇到需要写/改代码时就回调 Codex:

bash # 让 Codex 以 MCP server 形式对外提供能力
codex mcp-server
# 再在 Agent TARS 配置里把它挂载为一个 MCP 工具
⚠️
以上命令为打通思路示例,具体的 MCP server 名称 / 参数请以两个项目当前版本的官方文档为准(命令行用 codex mcp --helpagent-tars --help 自查)。

📦 典型玩法

给它一句话,它就能调用电脑里真实的软件和 MCP 工具完成整条流程:

常见问题

Q: 它和 Codex 是什么关系?

两者互补。Codex 擅长在终端/编辑器里"动脑"写代码,但不会动手操作软件界面;Agent TARS 给 AI 配上视觉与鼠标键盘,专门"动手"操控电脑。让 Codex 写、让它做,从动脑到动手全程闭环。

Q: 支持哪些大模型?

支持 OpenAI 兼容接口、火山引擎豆包视觉模型、Anthropic 等多家服务,可在配置里自由切换 Provider 与模型。

Q: 和只能操控浏览器的 Agent 有什么区别?

传统 Agent 大多只能在浏览器里折腾,而 Agent TARS 基于多模态视觉,能直接操控电脑里的所有软件,不局限于网页。

Q: 收费吗?安全吗?

项目本身字节官方开源免费,CLI + Web UI 本地运行、不依赖第三方托管服务;你只需为所使用的大模型 API 付费。涉及真实操作建议先在可控环境试用。