问题

同一个 AI 能力为什么会分化成多种产品形态?不同形态之间的差异本质上是什么?

角度一:体感差异 — 同一个产品,CLI 和 App 体验天差地别

Claude Code 和 Cowork 是同一个模型底座,但用起来完全不一样:

  • Code:直接执行命令,干完活直接告诉你结果
  • Cowork:沙箱里绕来绕去,很多事做不了,感觉束手束脚

同样的现象也出现在 OpenAI 的 Codex CLI vs Codex App 上。

角度二:架构差异 — 沙箱 vs 直接执行

CLI(Code / Codex CLI) 桌面 Agent(Cowork / Codex App)
执行环境 真实文件系统 隔离 VM 沙箱
安全性 靠用户把关 + AI 安全分类器 天然隔离,AI 乱来也不伤系统
权限 完整 shell 受限
目标用户 开发者(懂风险) 非技术用户(需要保护)

根本矛盾:给开发者沙箱 → 权限不够;给非技术用户 shell → 太危险。 所以只能拆成两个产品。

角度三:Token 效率 — 视觉理解比文本理解贵 10-50 倍

Cowork / Codex App 的 token 消耗远大于 CLI,原因是:

  1. 截屏开销 — 桌面 Agent 每操作一步都要”看一眼屏幕”,每张图都是大量 token
  2. 子 Agent 并行 — 复杂任务拆出多个子 Agent,token 乘法增长
  3. 沙箱上下文 — VM 环境需要额外描述,增加上下文开销
  4. 隐藏工作 — 截图分析、视觉理解用户看不到但 token 照烧

CLI 为什么省:纯文本交互、精准读写、没有视觉开销。

这是行业通病,不只是 Anthropic 的问题。

角度四:产品形态 — 同一个大脑,多副面孔

Anthropic 和 OpenAI 都把同一个模型铺成多种形态:

形态 Claude OpenAI 交互方式
聊天 Bot Claude.ai ChatGPT 对话框一问一答
CLI Agent Claude Code Codex CLI 终端命令行
IDE 插件 VS Code 插件 Copilot 编辑器内联
桌面 Agent Cowork Codex App 沙箱桌面
搜索引擎 Perplexity 搜索 + 引用
语音助手 Siri / Gemini Live 语音对话
图/视频生成 Midjourney / Sora 文生图/视频
代码生成平台 Replit / v0 / Bolt 一句话出应用

为什么同一个能力要铺这么多入口?

  1. 用户在哪里,产品就在哪里(终端/编辑器/桌面/浏览器)
  2. 不同入口覆盖不同竞争对手赛道
  3. 不同入口 = 不同付费层级,同一个模型卖 N 份钱

角度五:商业模式 — Cursor 为什么是”异类”

三种赚钱逻辑:

模式 代表 赚什么
卖模型 Anthropic(Code、Cowork、Chat) 按量收费 / 订阅
卖编辑器 Cursor 订阅制,模型是成本
卖平台 GitHub Copilot 绑定生态抽成

Cursor 不卖模型,卖编辑器体验。护城河在用户习惯(快捷键、配置、工作流),不在模型能力。所以它接入多家模型来对冲风险——模型可以换,编辑器习惯换不了。

角度六:Pro 套餐的额度困境

Pro 套餐($20/月)下 Chat、Cowork、Code 共享同一个 token pool:

  • Chat → 消耗最小
  • Code → 消耗中等
  • Cowork → 消耗最大(截图 + 子 Agent)

Cowork 最先把额度吃光。这也是为什么 Max 套餐($100-160/月)才给 Cowork 更高的 Race Mode 限额。

核心结论

AI 产品的形态分化不是技术问题,是商业和用户问题。同一个大脑,多副面孔,每张脸对应一个使用场景、一类目标用户、一个竞争对手赛道。

形态分化背后的统一逻辑:

  • 架构差异(沙箱 vs 直接执行)→ 决定了能力边界
  • 目标用户(开发者 vs 非技术用户)→ 决定了产品形态
  • Token 成本(文本 vs 视觉)→ 决定了使用成本
  • 商业模式(卖模型 / 卖编辑器 / 卖平台)→ 决定了盈利方式

相关概念

仓库内实践佐证

  • 原来我一直用错了 Cowork — 第一人称体感:Cowork 沙箱限制、Computer Use / Memory 的 token 开销、程序员省 token 清单与选型建议

修订:Cursor Agent,2026-06-23(补实践佐证链)。