核心想法 — 为什么需要多智能体AI操作系统


1 · 核心想法 —— 为什么需要多智能体 AI 操作系统

第 1 篇 · 共 6 篇 · 阅读约 6 分钟


如果你用过 ChatGPT、Claude 或 Gemini,那你体验过的 AI 是 “对话式” 的。 你问,它答。这种关系是:一个人,一个模型,一个聊天窗口。

这种范式很有用,也极其有限 —— 就好比一家公司只雇了一个非常聪明的顾问, 但他一次只能做一件事,记不住上周二干了什么,也拒绝和别人合作。

我在 2026 年 4 月做的事情,正好是这个范式的反面。 我搭了一个小小的 “AI 工人团队的操作系统”: 不同模型负责不同的工作,任务可以跑数小时,工作流像接力赛一样首尾相连, 跨会话的记忆持久化保存。整套系统跑在几个顶级 AI 订阅、几台个人电脑、 和几乎可以忽略的云端开销之上 —— 总成本比雇一个初级分析师还低。

这篇文章解释这个想法的来源。 后面五篇会讲它是怎么运作的、上面跑了哪些应用、以及搭起它花了多大力气。


你已经注意到的转变

观察一个 2026 年的认真 AI 用户实际工作的方式。

他在一个标签页打开 Claude 起草邮件。 另一个标签页打开 ChatGPT,因为它数学更好。 还有 Gemini 备着,用来查最新的网络数据。 终端里还跑着一个 CLI 智能体(Cursor、Codex、Claude Code),用于改代码。

这已经是四个 AI 工人了。它们之间没有协调。 人是粘合层 —— 在窗口之间复制粘贴,在自己脑子里维护上下文, 决定哪个问题该问哪个工具。

下一步是显而易见的:让这些 AI 工人直接互相对话。 不通过人的剪贴板,而是 通过软件

这就是 AI 协同平台要做的事。 它是那一层,让你能说一句: “用三个模型把这个问题研究一下,把发现合并起来,生成报告,早上 9 点之前发到我邮箱” —— 然后所有部分自动按正确顺序执行, 在任何当时有空闲算力的机器上运行。

这就是核心想法。 单个 AI 工具 → 协调的 AI 团队;对话 → 编排。


“多智能体” 究竟意味着什么

“智能体”(agent)这个词被用得很滥。我觉得有用的操作性定义是:

智能体 是任何能够接收一个请求并产生一个结果 —— 不需要你盯着每一步 —— 的东西。

按这个定义,ChatGPT 是个智能体。 一个能改五个文件的 Claude Code 会话也是。 谷歌的 AI 搜索模式也是。 每个都有它的强项。没有一个能包揽所有事。

多智能体系统 是一个协调器, 它知道一队这样的智能体的存在,能为每件工作挑出合适的那个, 能在它们之间路由任务,能记住每个产出的内容,能呈现合并后的结果。

就是这样。协调器是操作系统,智能体是应用。 用户输入一个请求,系统决定要跑哪些应用。


为什么是现在(具体说,2026 年)

过去 18 个月有三件事凑到一起,让一个人也能搭起这种东西:

  1. 模型越过了一个 “可用悬崖”。 Claude Sonnet 4 和 Gemini 2.5 Pro 跨过了一个阈值 —— 能不需要监督地完成中等复杂度的端到端任务。 在那之前,每个任务都需要一个人在循环里。 现在,很多任务不需要了。

  2. 写代码的智能体可靠到能用来搭基础设施了。 像 Claude Code 这种工具不仅能 出一个小型后端服务, 还能 运维 它 —— 重构、调试、部署。 这压缩了 “我有想法但没工程能力” 的鸿沟。

  3. 边缘计算又便宜又全球可用。 Cloudflare Workers、Workers AI、D1、R2、KV、Queues —— 一个人就能搭起一个全球分布式系统, 不需要服务器,不需要 DevOps 团队,云端这一项的月账单是个位数美金。

把这三件事叠到一起, 一个小团队 —— 或者一个人,加一个 AI 伙伴 —— 现在能搭出来的基础设施,两年前需要一轮 A 轮融资。

ResearchOS 就是我注意到这三件事都发生了之后, 问自己 “什么是能展示这一点的最小有用的东西” 的答案。


它能做什么(不讲怎么做)

不深入实现细节,这个平台跑起来之后能做的事:

  • 你可以输入一个研究问题 —— “AI 产业链有哪些投资机会?” —— 它会悄悄派出几十个 AI 工人,每个去研究一个子问题, 各自收集来源和分析,最终拼成一棵可浏览的发现树。

  • 你可以描述一个投研工作流 —— “每天早上,ESG 分析师产出一份碳政策更新, 衍生品策略师跟踪基差交易,首席经济学家写一份协调备忘” —— 系统按时自动执行这个工作流,为每个角色挑选合适的模型。

  • 你可以在看板上写下一个想法 —— “调研新加坡稳定币监管” —— 一键把它变成一个完整的研究会话。 下次你打开仪表盘,结果已经在那儿了。

  • 所有工作都跑在你自己控制的一小队机器上 —— 包括你身边平常的笔记本和 Mac Studio。 系统在它们之间负载均衡,重试失败任务,从崩溃中恢复, 不需要监督就能持续运行。

这一切不需要你写代码。 平台一旦存在,你操作它的方式就像操作 Notion 工作区或电子表格 —— 通过描述你想要什么。


已经在它上面跑的两个真实应用

平台目前有两个上线的应用,都是我自己搭的、自己用的:

  • Infinite Research(无限研究) —— 输入一个问题, 得到一棵递归探索的回答树,每条都附带来源。 详见第 3 篇

  • AI Institute(智研所) —— 一个多智能体投研团队。 一队角色化的 AI 分析师(合规官、ESG 分析师、衍生品策略师、 首席经济学家、房地产分析师、主题研究员) 产出每日晨报、周报、临时调研。 详见第 4 篇

两个应用共享同一个底层平台。 两个都今天就能用。两个都是一个人加一个 AI 伙伴在几天内搭出来的,不是几个月。


我希望你带走的东西

如果这个系列你只看一段,带走这三点:

  1. “单个 AI 聊天” 的时代正在结束。 协调的 AI 工人团队,跑在便宜的基础设施上, 通过自然语言工作流操作 —— 这一切对个人也开始可行了, 不再是只有钱的公司才能做的事。

  2. 成本崩塌了。 我搭起来的这个东西 —— 10 天内,包含两个生产应用 —— 跑在三份顶级 AI 订阅(Claude、ChatGPT、Gemini,各约 200 美元/月)、 我已经拥有的几台 Mac Studio 和一台 MacBook、 几乎为零的 Cloudflare 开销、加几个第三方 API 之上。 主要成本是 AI 订阅本身,不是基础设施。 一个初级真人分析师的成本会是这个的一个数量级以上。

  3. 界面正在变成操作系统。 在这种平台上,你不写代码。 你描述你想要什么,一层 AI 智能体负责想办法实现。 未来 24 个月里掌握这种界面的人,会拥有不成比例的杠杆。

如果以上任何一点击中了你, 后面的文章会带你看这套系统怎么运作、能做出什么、又花了多大力气搭起来。


下一篇:它如何运作 —— 一家”AI 餐厅”