Headroom 使用教程

AI Agent 上下文压缩层,让 Codex 省 90% token

⭐ 开源免费

📖 项目简介

Headroom 是一个面向 AI Agent 的「上下文压缩层」,在 GitHub 上已收获约 29K Star,采用 Apache-2.0 协议完全开源免费。它会在工具输出、日志、RAG 检索结果、文件、对话历史等内容送进大模型之前先做压缩,号称能减少 60~95% 的 token,而答案几乎不变。

它有三种用法:(在 Python / TypeScript 里直接调用 compress())、代理headroom proxy,零改代码、任意语言可用)、MCP 服务。最实用的是一行命令给编程 Agent 套壳:headroom wrap codex / headroom wrap claude。配合 OpenAI 兼容接口,还能把 Codex 的请求转发到 DeepSeek、通义千问、Kimi 等国产大模型,既省 token 又能换更便宜的模型。所有处理都在本地完成,数据不出本机,压缩还可逆——原文会缓存,需要时让模型调用 headroom_retrieve 取回。

核心亮点

📉
省 60~95% token
日志、JSON、代码、RAG 一起压,答案不变,token 砍到零头
🇨🇳
接国产大模型
OpenAI 兼容接口,Codex 一键转发到 DeepSeek / 通义 / Kimi
🔌
三种接入方式
库 compress()、proxy 代理、MCP 服务,零改代码也能用
🔄
本地 + 可还原
数据不出本机,原文缓存可随时取回,压缩可逆

🚀 如何使用

1

安装 Headroom

需要 Python 3.10 及以上。Python 用户执行 pip install "headroom-ai[all]" 安装全部功能;Node / TypeScript 用户执行 npm install headroom-ai。也可以用 Docker 镜像运行(镜像地址见文末折叠的「相关链接」)。

2

给 Codex 套壳,省 token

一行命令即可:headroom wrap codex。Headroom 会自动识别上下文类型、选择合适的压缩算法(JSON、代码、长文本),在请求发给大模型前先压缩,全程本地运行。想看实际省了多少,执行 headroom perf 查看节省数据。

3

一键接入国产大模型

启动代理 headroom proxy --port 8787,它对外是 OpenAI 兼容接口。把 Codex / 客户端的 base_url 指向本地代理,并在代理配置里把上游换成 DeepSeek、通义千问、Kimi 等国产大模型的 OpenAI 兼容地址(填好对应 API Key),即可在压缩 token 的同时用上更便宜的国产模型。

常见问题

Q: 压缩后答案会变差吗?

官方在 GSM8K、TruthfulQA、SQuAD、BFCL 等标准基准上做了评测,准确率基本持平甚至略升(如 TruthfulQA +0.03)。它压的是冗余 token,不是关键信息,所以「同样的答案、零头的 token」。

Q: 一定要改代码吗?

不用。headroom proxy 是 drop-in 代理,任何语言、任何 OpenAI 兼容客户端把请求地址指过来即可;也可以用 headroom wrap codex/claude/cursor 一行命令套壳。只有想内联调用时才用 compress() 库。

Q: 数据安全吗?能接国产模型吗?

Headroom 在本地运行,压缩过程数据不出本机;压缩可逆,原文会缓存、需要时取回。因为代理对外是 OpenAI 兼容接口,所以只要上游模型提供 OpenAI 兼容地址,DeepSeek、通义千问、Kimi 等国产大模型都能接入。

Q: 企业网络 pip 安装报证书错误怎么办?

这通常是公司 SSL 拦截导致的。可先安装 Rust 工具链再装,或直接用预编译 wheel:pip install --only-binary headroom-ai headroom-ai,避开本地编译。