给 Codex 配双手,AI 动手接管整台电脑
⭐ 35K Star · 字节官方开源Agent TARS 是字节跳动官方开源的多模态 AI Agent,目前已收获 35K Star。 它基于多模态视觉模型,看得懂屏幕、会用鼠标键盘,并内置完整的 MCP 生态, 能一行命令直接操控你电脑里的各种软件——写代码、订机票、剪视频、生成图片、发布自媒体,全部一句话搞定。
这正是它和 Codex 这类 AI 编程工具的绝配:Codex 擅长在终端里"动脑"写代码,却没法动手操作软件; 而 Agent TARS 给 AI 配上了"眼睛 + 手",负责"动手"操作真实的电脑界面。 两者一结合,就形成了「写代码 → 自动跑起来 → 验证、出图、做视频、发布」的完整闭环。
node --version 输出 ≥ 22,并提前准备好模型 API Key 以便配置。无需复杂安装,用 npx 直接拉起最新版命令行:
npx @agent-tars/cli@latest
首次启动按提示填入大模型的 API Key 与模型名称,支持 OpenAI 兼容接口、火山引擎、Anthropic 等多家服务:
agent-tars --provider volcengine --model doubao-1.5-vl
agent-tars --provider openai --apiKey 你的Key
启动后会自动开启本地 Web 界面,在对话框里用自然语言描述任务,AI 就会看屏幕、动鼠标键盘开始操作:
帮我剪一条产品种草视频,搜素材、拼片段、加字幕
帮我生成一张小红书封面图并保存到桌面
让 Codex 负责写代码与逻辑,把"需要动手操作软件、验证结果、出图发布"的环节交给 Agent TARS,形成完整自动化闭环:
Codex:写好这个网页的前端代码
AgentTars:打开浏览器跑起来,截图确认效果再发到自媒体
Codex 和 Agent TARS 都原生支持 MCP(模型上下文协议),这就是把两者真正打通的桥: Codex 既能挂载外部 MCP 工具,也能把自己暴露成服务;Agent TARS 的内核本身就基于 MCP,可以挂载工具、也能被调用。 所以让「动脑的 Codex」和「动手的 AgentTars」协作,靠的是 MCP 互联,而不是把两个模型合并成一个。
把 Agent TARS 包成一个 MCP server,用一条命令接进 Codex。之后 Codex 负责想和写代码,遇到「打开软件 / 跑起来 / 截图验证 / 发布」就调用 AgentTars 这只手:
# 把 AgentTars 注册为 Codex 的 MCP 工具
codex mcp add agent-tars -- npx -y @agent-tars/mcp-server
# 在 Codex 会话里输入 /mcp 可查看已连接的工具
写好这个落地页前端,然后用 agent-tars 打开浏览器跑起来,
截图确认效果没问题后,帮我发布到自媒体
Codex 可以把自己暴露成 MCP 服务,再挂到 Agent TARS 上。AgentTars 看屏幕、动鼠标键盘,遇到需要写/改代码时就回调 Codex:
# 让 Codex 以 MCP server 形式对外提供能力
codex mcp-server
# 再在 Agent TARS 配置里把它挂载为一个 MCP 工具
codex mcp --help、agent-tars --help 自查)。给它一句话,它就能调用电脑里真实的软件和 MCP 工具完成整条流程:
两者互补。Codex 擅长在终端/编辑器里"动脑"写代码,但不会动手操作软件界面;Agent TARS 给 AI 配上视觉与鼠标键盘,专门"动手"操控电脑。让 Codex 写、让它做,从动脑到动手全程闭环。
支持 OpenAI 兼容接口、火山引擎豆包视觉模型、Anthropic 等多家服务,可在配置里自由切换 Provider 与模型。
传统 Agent 大多只能在浏览器里折腾,而 Agent TARS 基于多模态视觉,能直接操控电脑里的所有软件,不局限于网页。
项目本身字节官方开源免费,CLI + Web UI 本地运行、不依赖第三方托管服务;你只需为所使用的大模型 API 付费。涉及真实操作建议先在可控环境试用。