AgentTars 使用教程

📖 项目简介

Agent TARS 是字节跳动官方开源的多模态 AI Agent，目前已收获 35K Star。它基于多模态视觉模型，看得懂屏幕、会用鼠标键盘，并内置完整的 MCP 生态，能一行命令直接操控你电脑里的各种软件——写代码、订机票、剪视频、生成图片、发布自媒体，全部一句话搞定。

这正是它和 Codex 这类 AI 编程工具的绝配：Codex 擅长在终端里"动脑"写代码，却没法动手操作软件；而 Agent TARS 给 AI 配上了"眼睛 + 手"，负责"动手"操作真实的电脑界面。两者一结合，就形成了「写代码 → 自动跑起来 → 验证、出图、做视频、发布」的完整闭环。

📎 相关链接与下载地址（点击展开）

GitHub 项目： github.com/bytedance/UI-TARS-desktop
官方网站： agent-tars.com
更多教程：关注公众号 / 抖音 / 视频号「IT小圈」

✨ 核心亮点

👁️

多模态视觉

看得懂屏幕内容，像人一样识别界面元素

🖱️

GUI 操控

会用鼠标键盘，直接操作电脑里的任意软件

🧰

MCP 生态

内置工具协议，连接真实世界的任何工具

🆓

开源免费

字节官方出品，CLI + Web UI，本地可控

⚙️ 环境要求

Node.js ≥ 22（建议使用 LTS 版本）
一个可用的大模型 API Key（支持 OpenAI 兼容接口、火山引擎豆包、Anthropic 等）
建议在性能较好的桌面环境运行，方便 AI 操控真实软件界面

⚠️

确保 node --version 输出 ≥ 22，并提前准备好模型 API Key 以便配置。

🚀 如何使用（一句话操控电脑）

一行命令启动 CLI

无需复杂安装，用 npx 直接拉起最新版命令行：

                        bash
                        npx @agent-tars/cli@latest
                    

配置模型 Provider

首次启动按提示填入大模型的 API Key 与模型名称，支持 OpenAI 兼容接口、火山引擎、Anthropic 等多家服务：

                        bash
                        agent-tars --provider volcengine --model doubao-1.5-vl
agent-tars --provider openai   --apiKey 你的Key
                    

打开 Web UI 下指令

启动后会自动开启本地 Web 界面，在对话框里用自然语言描述任务，AI 就会看屏幕、动鼠标键盘开始操作：

                        prompt
                        帮我剪一条产品种草视频，搜素材、拼片段、加字幕
帮我生成一张小红书封面图并保存到桌面
                    

和 Codex 配合：动脑 + 动手

让 Codex 负责写代码与逻辑，把"需要动手操作软件、验证结果、出图发布"的环节交给 Agent TARS，形成完整自动化闭环：

                        prompt
                        Codex：写好这个网页的前端代码
AgentTars：打开浏览器跑起来，截图确认效果再发到自媒体
                    

🔗 进阶：用 MCP 真正打通 Codex × AgentTars

Codex 和 Agent TARS 都原生支持 MCP（模型上下文协议），这就是把两者真正打通的桥： Codex 既能挂载外部 MCP 工具，也能把自己暴露成服务；Agent TARS 的内核本身就基于 MCP，可以挂载工具、也能被调用。所以让「动脑的 Codex」和「动手的 AgentTars」协作，靠的是 MCP 互联，而不是把两个模型合并成一个。

💡

别想着「把 AgentTars 的模型直接换成 Codex 那个模型」。AgentTars 干的是看屏幕、定位元素并点击的活，依赖多模态视觉模型（豆包 vision / UI-TARS 等）；Codex 系模型偏代码、视觉操控弱。正确姿势是两个 Agent 通过 MCP 各司其职。

方案一：Codex 主导，AgentTars 当「手」（推荐）

把 Agent TARS 包成一个 MCP server，用一条命令接进 Codex。之后 Codex 负责想和写代码，遇到「打开软件 / 跑起来 / 截图验证 / 发布」就调用 AgentTars 这只手：

                bash
                # 把 AgentTars 注册为 Codex 的 MCP 工具
codex mcp add agent-tars -- npx -y @agent-tars/mcp-server
# 在 Codex 会话里输入 /mcp 可查看已连接的工具
            

                prompt（在 Codex 里）
                写好这个落地页前端，然后用 agent-tars 打开浏览器跑起来，
截图确认效果没问题后，帮我发布到自媒体
            

方案二：AgentTars 主导，Codex 当「写代码工具」

Codex 可以把自己暴露成 MCP 服务，再挂到 Agent TARS 上。AgentTars 看屏幕、动鼠标键盘，遇到需要写/改代码时就回调 Codex：

                bash
                # 让 Codex 以 MCP server 形式对外提供能力
codex mcp-server
# 再在 Agent TARS 配置里把它挂载为一个 MCP 工具
            

⚠️

以上命令为打通思路示例，具体的 MCP server 名称 / 参数请以两个项目当前版本的官方文档为准（命令行用 codex mcp --help、agent-tars --help 自查）。

📦 典型玩法

给它一句话，它就能调用电脑里真实的软件和 MCP 工具完成整条流程：

自动剪视频：打开剪辑软件，搜素材、拼片段、加字幕一气呵成
一键出封面：调用 MCP 工具拉模板、生成图片直接出图
发布自媒体：生成短视频并自动发布到自媒体平台
日常事务：订机票、查资料、整理文件，全程零干预

❓ 常见问题

Q: 它和 Codex 是什么关系？

两者互补。Codex 擅长在终端/编辑器里"动脑"写代码，但不会动手操作软件界面；Agent TARS 给 AI 配上视觉与鼠标键盘，专门"动手"操控电脑。让 Codex 写、让它做，从动脑到动手全程闭环。

Q: 支持哪些大模型？

支持 OpenAI 兼容接口、火山引擎豆包视觉模型、Anthropic 等多家服务，可在配置里自由切换 Provider 与模型。

Q: 和只能操控浏览器的 Agent 有什么区别？

传统 Agent 大多只能在浏览器里折腾，而 Agent TARS 基于多模态视觉，能直接操控电脑里的所有软件，不局限于网页。

Q: 收费吗？安全吗？

项目本身字节官方开源免费，CLI + Web UI 本地运行、不依赖第三方托管服务；你只需为所使用的大模型 API 付费。涉及真实操作建议先在可控环境试用。