把 Agentic Models 组织成一座可持续运行的 AI 研究院

AI Institute 的核心问题，从来不只是“AI 能不能写研究报告”。

更重要的问题是：如果模型已经能够阅读、检索、写作、比较、辩论、调用工具和持续行动，我们怎样才能把它们组织成一座真正能运行的研究院？

这和做一个聊天机器人完全不同。

聊天机器人回答问题。研究院要长期覆盖问题。聊天机器人可以给出一次漂亮回答。研究院必须有角色、有记忆、有节奏、有分歧、有复盘、有交付格式，也要能把复杂研究结果变成人类可以阅读和判断的决策材料。

这就是 AI Institute 的 building story。

vibelog/ 只是这段故事的材料库：它记录了哪些想法出现过，哪些路线被推翻，哪些问题迫使系统加上新的约束，哪些实验最后变成了日常工作流。但主角不是日志本身，也不是某个工程目录。

主角是这座 AI 研究院如何把 agentic models 纳入一个可持续的机构。

为什么不是“AI 写更多报告”

金融市场的问题不是缺少文字。

每天都有宏观数据、公司公告、资金流、社交情绪、产业链变化、监管新闻、地缘事件、技术突破和价格波动。AI 如果只是加入这个生产链，继续生成更多报告，最后只会让信息负担更重。

真正有价值的是另一件事：让 AI 成为一组并行工作的研究同事。

一个模型负责宏观和流动性，一个模型负责半导体和 AI 基础设施，一个模型负责市场结构和风险偏好，一个模型负责证据质量，一个模型负责把内部图谱重写成人类可读的 memo，一个模型回头检查过去的观点有没有被市场证伪。

它们不是一个万能 prompt 的不同说法，而是研究院里的不同岗位。

这就是 agentic models 进入研究组织的第一步：角色化。

Agentic models 为什么需要 Harness

Agentic models 的优势是可以行动。

但它们的风险也来自这里。没有约束的 agent 很容易出现这些问题：

重复生成同一个主题；
把任务交给错误角色；
长任务没有闭环；
观点写得很完整，但证据链不清楚；
输出格式每天都不一样；
内部链接越来越密，人类读者越来越难读；
生成了很多内容，却无法判断哪些真的改变了决策。

所以 AI Institute 需要一套 harness。

这里的 harness 不是一个小工具，而是把模型放进机构的方式。它规定谁负责什么、什么时候工作、如何交接、如何保存、如何被质疑、如何进入公开页面、如何被人类使用。

换句话说，模型不是研究院本身。模型被组织起来之后，研究院才出现。

真实例子：这套系统已经怎样工作

如果只讲“角色、节奏、记忆、证据”，它确实会显得抽象。AI Institute 真正有意思的地方，是这些词已经落到了一批具体案例里。

例子一：2026-06-12 的晨会简报如何变成读者报告

2026-06-12 的公开 daily dashboard 不是简单把晨会原文贴出来。它把当天信息整理成一个可读工作台：1 个分析板块、13 个深度研究、30 次跨部门传递、14 个市场报价。

同一天的晨会综合纳入了 82 篇中文研究结果，覆盖 7 位活跃分析师和 5 条主要研究链。原始输入如果直接给人看，会非常重；但每日读者报告把它改写成一个明确判断：风险偏好反弹之后，重点不是“AI 成长股重新加速”，而是融资约束、电网配给、劳动力配给、红利拥挤分层、出口链低拥挤价值和能源价格压力测试。

这就是 reader contract 的真实含义。agentic models 可以产生大量图谱，但对人类来说，交付物必须回答“今天到底该看什么”。

例子二：科创50复盘不是预测输赢，而是追踪观点如何变化

科创50研究观点与市场表现复盘是一个很好的例子。

5 月中旬，系统看到的是半导体和 AI 硬件吸走风险资金，科创50在 1,716.69 附近已经出现两融和风格拥挤风险。到 2026-05-20 至 2026-05-22，1,750 点不再被简单写成统一机械强平线，而是被重新定义为情绪锚和高融资成分股压力位。2026-05-25 至 2026-05-26，指数冲到 1,896.04，系统开始讨论 1,900 附近的 delta cliff 和 ETF 折价分发风险。2026-05-27 回落到 1,815.45 后，统一降杠杆框架得到验证。

这里最重要的不是某一天“猜对了指数点位”。更重要的是，系统能把旧观点放回时间线，说明哪些判断保留、哪些判断被修正、哪些触发线后来证明有用。

例子三：MSCI 调仓从“利好/利空”变成交易机制复盘

MSCI 调仓复盘与口径统一展示了另一个能力：纠正流行但粗糙的市场叙事。

2026-05-08，MSCI 只是一个事件风险。2026-05-14，系统开始从因子角度讨论 SAIR、价值、动量和高波动敞口。2026-05-22，关键转折出现：被动买盘不一定等于净利好，它可能掩护主动外资派发。2026-05-26，输出已经从“事件提醒”升级成组合风险预算语言。最终复盘关注的是 14:50、14:57、14:59 这些尾盘交易窗口，MOC 流动性、被动需求、主动派发和数据披露陷阱被放在同一张图里。

这说明 harness 的价值不是让 agent 更会写，而是迫使它把概念口径、时间线和交易机制对齐。

例子四：AI power 从“电不够”拆成二阶瓶颈

AI 电力瓶颈二阶复盘说明 agentic research 怎样把一个大主题拆成可投资的链条。

2026-05-28，问题还是“AI 算力扩张受到电力和电网基础设施约束”。到 2026-05-30，研究推进到输电和并网队列，交付周期开始取代 capex headline 成为核心变量。同一天，设备延期又被映射到项目 IRR 和 hyperscaler 自由现金流压力。2026-05-31，主题进一步下沉到取向硅钢、变压器、开关柜、材料和认证。

这不是简单总结新闻。它把“电不够”拆成了并网、设备、材料、监管、成本回收和现金流桥梁。

例子五：HBM、CPO 和先进封装把产业链关系变成人类序列

HBM、存储与先进封装复盘展示的是另一类能力：保留技术关系，但改写成人类能读的顺序。

2026-05-21，系统从 800G/1.6T 到 CPO，看见网络带宽瓶颈推动光互联路径升级。2026-05-24，HBM、先进封装和材料变成 AI 硬件供给弹性的核心问题。2026-05-27，材料和测试环节开始影响利润池分布。2026-05-30，HBM 产能缺口又变成 AI 硬件杠铃策略的压力测试。

如果这些内容只以内部链接存在，人很难读完。recap 的意义，是把复杂图谱变成一条从 CPO、HBM、封装、材料、测试到供给弹性的路径。

例子六：Mag7 报告如何吸收人的反驳

Mag7 下一时代输家深度研究和后续 Mag7 复盘说明这套系统不是封闭自动化。

原始研究更强调 Apple、Tesla、Meta 的风险：Apple 的 AI 基础设施证据不足，Tesla 是叙事久期，Meta 要接受 P&L 和自由现金流测试。后来在人类反馈加入后，系统明确承认原报告没有充分争议化 Microsoft 的 Office/Windows 风险，于是把问题重新放进入口、物理基础设施、现金流桥梁、估值倍数、自研芯片和电力约束的比较框架里。

这正是我认为 AI Institute 有价值的地方：它不是让 AI 输出一个最终答案，而是让人类批评进入循环，迫使系统重开 thesis。

第一层：研究角色

真正的研究院不能只有一个“大脑”。

AI Institute 的角色分工，是为了让模型的能力变成可管理的专业覆盖：

宏观角色观察利率、通胀、流动性和政策；
策略角色判断风险偏好、风格切换和资产配置；
行业角色追踪 AI 算力、存储、CPO、电力设备、先进封装等产业链；
风险角色检查估值、拥挤、反身性和证伪条件；
编辑角色把机器适合读取的图谱改写成人类适合阅读的文本；
复盘角色把过去的判断放回时间线，比较观点变化和市场表现。

这种角色设计的意义，不是让页面看起来像组织架构图。

它的意义在于约束模型：每个 agent 都有边界、有任务、有输出责任。模型可以聪明，但不能随意漂移。

第二层：研究节奏

研究不能只靠临时提问。

一个可持续的 AI 研究院必须有节奏：晨会简报、日报、深度研究、周末话题、专题复盘、长期 thesis tracking。

节奏让系统每天都把新信息带回同一个工作轨道：

今天市场发生了什么；
哪些主题需要继续跟踪；
哪些观点被新证据支持；
哪些观点出现反向信号；
哪些旧判断需要复盘；
哪些内容应该进入人类可读页面。

这一步很关键。没有节奏，AI 研究只是一次次对话。有了节奏，它才开始像一个机构。

第三层：记忆和证据

AI 研究最容易失败的地方，是“看起来什么都知道，但没有稳定记忆”。

投资研究尤其不能这样。因为观点不是孤立句子，它有时间、有证据、有反对意见、有风险条件，也有后来被市场验证或证伪的过程。

所以 AI Institute 必须保存：

每天生成了什么；
哪条 thesis 被更新；
哪些证据支持它；
哪些证据挑战它；
分析师之间有什么分歧；
过去的判断后来发生了什么。

这就是为什么 morning brief、daily report、whiteboard、mailbox、recap、living thesis tracker 都不是孤立功能。它们共同构成一张研究记忆网络。

但这张网络对模型友好，对人不一定友好。

所以还需要下一层。

第四层：人类可读的 Reader Contract

AI 很容易生成一张复杂图谱：报告链接报告，证据链接风险，白板链接邮箱，日报链接复盘。

对另一个 agent 来说，这很好。

对人类读者来说，这往往太累。

因此 AI Institute 的公开交付不能只是“这里有很多链接”。它必须变成 reader contract，也就是一份人真正愿意读的决策材料。

一份合格的 reader report 应该直接回答：

一句话结论是什么；
今天最重要的变化是什么；
哪些证据支持它；
哪些证据反对它；
分歧在哪里；
对投资判断有什么影响；
什么情况会证明这个观点错了；
后面应该继续看什么。

这一步是 AI Institute 从“内容生产系统”变成“研究服务”的关键。

技术可持续：让一组 agent 每天安全运行

从技术角度看，最难的问题不是让一个模型完成一次任务。

真正难的是：一组 agent 每天都在运行，如何确保它们不丢状态、不重复工作、不污染公开页面、不把内部信息暴露出去，也不会因为一次失败让整条链路中断？

所以 AI Institute 的技术可持续性，依赖几个基本原则。

第一，任务必须有状态。它开始了吗、结束了吗、生成了什么、是否进入下一步，不能只靠模型自己描述。

第二，产物必须能归档。报告、图表、HTML、图片、摘要和复盘都需要成为可追踪对象，而不是一次聊天里的临时文本。

第三，输出必须有结构。原始 AI 文本不能直接进入公开界面，它需要被整理成稳定的合约，供 dashboard、timeline、recap 和 reader report 使用。

第四，任务必须可重试、可去重、可恢复。agentic workflow 一定会遇到中断，系统要允许失败，但不能让失败吞掉结果。

第五，公开边界必须清楚。内部运行细节、敏感配置、维护信息、未清洗的健康报告和私有路径不能进入公开网站。

这就是技术 harness 的意义：它不假设模型永远正确，而是假设模型会犯错，然后让系统可以吸收这些错误。

商业可持续：让 AI 研究进入人的决策流程

商业层面的可持续，不是“今天生成了多少篇报告”。

它看的是更具体的问题：

人类研究员能不能更快形成第一判断；
关键主题能不能被连续覆盖；
证据链能不能保留下来；
观点变化能不能被追踪；
分歧和风险能不能被看见；
过去的判断能不能被复盘；
最终交付是不是足够清楚，能被人拿来做投资讨论。

如果答案是不能，那么 AI 只是提高了内容产量。

如果答案是能，那么 AI Institute 就不只是一个生成工具，而是一种新的研究基础设施。

它并不替代人类研究员。它把大量监测、整理、连接、初稿、复盘和证据归并工作并行化，让人类把注意力放在判断、取舍、责任和交易决策上。

Vibe 的位置：研究院的公开阅读室

Vibe 不是这段故事的主角，但它很重要。

AI Institute 内部会自然形成一张密集研究图谱。Vibe 的任务，是把这张图谱变成人类可以进入的阅读室：

首页展示当天最重要的研究变化；
daily dashboard 呈现晨会简报和市场线索；
reader report 把复杂链路改写成完整 memo；
recap 把某个主题放回时间线；
living thesis tracker 让长期观点持续可见；
专题页面把 AI 研究院的工作方式公开解释出来。

因此，Vibe 不是“展示文件的地方”。

它是 AI Institute 面向人的产品界面。

这套方法真正想证明什么

AI Institute 最想证明的，不是模型可以生成很多文本。

它想证明的是：当 agentic models 被放进合适的角色、节奏、记忆、证据、复盘和交付约束里，它们可以成为人类研究员的并行工作伙伴。

这个伙伴不会替人类承担最终判断，也不应该假装拥有最终责任。

它承担的是另一类工作：持续观察、持续整理、持续连接、持续复盘，把市场中不断流动的信息转化为更清楚的判断材料。

从这个意义上说，AI Institute 的 building story 不是一个工具上线故事。

它是一种新型研究组织的雏形：人类研究员负责判断，agentic models 负责并行劳动，而 harness 负责让这套关系可运行、可持续、可交接。