把 Agentic Models 组织成一座可持续运行的 AI 研究院
把 Agentic Models 组织成一座可持续运行的 AI 研究院
AI Institute 的核心问题,从来不只是“AI 能不能写研究报告”。
更重要的问题是:如果模型已经能够阅读、检索、写作、比较、辩论、调用工具和持续行动,我们怎样才能把它们组织成一座真正能运行的研究院?
这和做一个聊天机器人完全不同。
聊天机器人回答问题。研究院要长期覆盖问题。聊天机器人可以给出一次漂亮回答。研究院必须有角色、有记忆、有节奏、有分歧、有复盘、有交付格式,也要能把复杂研究结果变成人类可以阅读和判断的决策材料。
这就是 AI Institute 的 building story。
vibelog/ 只是这段故事的材料库:它记录了哪些想法出现过,哪些路线被推翻,哪些问题迫使系统加上新的约束,哪些实验最后变成了日常工作流。但主角不是日志本身,也不是某个工程目录。
主角是这座 AI 研究院如何把 agentic models 纳入一个可持续的机构。
为什么不是“AI 写更多报告”
金融市场的问题不是缺少文字。
每天都有宏观数据、公司公告、资金流、社交情绪、产业链变化、监管新闻、地缘事件、技术突破和价格波动。AI 如果只是加入这个生产链,继续生成更多报告,最后只会让信息负担更重。
真正有价值的是另一件事:让 AI 成为一组并行工作的研究同事。
一个模型负责宏观和流动性,一个模型负责半导体和 AI 基础设施,一个模型负责市场结构和风险偏好,一个模型负责证据质量,一个模型负责把内部图谱重写成人类可读的 memo,一个模型回头检查过去的观点有没有被市场证伪。
它们不是一个万能 prompt 的不同说法,而是研究院里的不同岗位。
这就是 agentic models 进入研究组织的第一步:角色化。
Agentic models 为什么需要 Harness
Agentic models 的优势是可以行动。
但它们的风险也来自这里。没有约束的 agent 很容易出现这些问题:
- 重复生成同一个主题;
- 把任务交给错误角色;
- 长任务没有闭环;
- 观点写得很完整,但证据链不清楚;
- 输出格式每天都不一样;
- 内部链接越来越密,人类读者越来越难读;
- 生成了很多内容,却无法判断哪些真的改变了决策。
所以 AI Institute 需要一套 harness。
这里的 harness 不是一个小工具,而是把模型放进机构的方式。它规定谁负责什么、什么时候工作、如何交接、如何保存、如何被质疑、如何进入公开页面、如何被人类使用。
换句话说,模型不是研究院本身。模型被组织起来之后,研究院才出现。
真实例子:这套系统已经怎样工作
如果只讲“角色、节奏、记忆、证据”,它确实会显得抽象。AI Institute 真正有意思的地方,是这些词已经落到了一批具体案例里。
例子一:2026-06-12 的晨会简报如何变成读者报告
2026-06-12 的公开 daily dashboard 不是简单把晨会原文贴出来。它把当天信息整理成一个可读工作台:1 个分析板块、13 个深度研究、30 次跨部门传递、14 个市场报价。
同一天的晨会综合纳入了 82 篇中文研究结果,覆盖 7 位活跃分析师和 5 条主要研究链。原始输入如果直接给人看,会非常重;但 每日读者报告 把它改写成一个明确判断:风险偏好反弹之后,重点不是“AI 成长股重新加速”,而是融资约束、电网配给、劳动力配给、红利拥挤分层、出口链低拥挤价值和能源价格压力测试。
这就是 reader contract 的真实含义。agentic models 可以产生大量图谱,但对人类来说,交付物必须回答“今天到底该看什么”。
例子二:科创50复盘不是预测输赢,而是追踪观点如何变化
科创50研究观点与市场表现复盘 是一个很好的例子。
5 月中旬,系统看到的是半导体和 AI 硬件吸走风险资金,科创50在 1,716.69 附近已经出现两融和风格拥挤风险。到 2026-05-20 至 2026-05-22,1,750 点不再被简单写成统一机械强平线,而是被重新定义为情绪锚和高融资成分股压力位。2026-05-25 至 2026-05-26,指数冲到 1,896.04,系统开始讨论 1,900 附近的 delta cliff 和 ETF 折价分发风险。2026-05-27 回落到 1,815.45 后,统一降杠杆框架得到验证。
这里最重要的不是某一天“猜对了指数点位”。更重要的是,系统能把旧观点放回时间线,说明哪些判断保留、哪些判断被修正、哪些触发线后来证明有用。
例子三:MSCI 调仓从“利好/利空”变成交易机制复盘
MSCI 调仓复盘与口径统一 展示了另一个能力:纠正流行但粗糙的市场叙事。
2026-05-08,MSCI 只是一个事件风险。2026-05-14,系统开始从因子角度讨论 SAIR、价值、动量和高波动敞口。2026-05-22,关键转折出现:被动买盘不一定等于净利好,它可能掩护主动外资派发。2026-05-26,输出已经从“事件提醒”升级成组合风险预算语言。最终复盘关注的是 14:50、14:57、14:59 这些尾盘交易窗口,MOC 流动性、被动需求、主动派发和数据披露陷阱被放在同一张图里。
这说明 harness 的价值不是让 agent 更会写,而是迫使它把概念口径、时间线和交易机制对齐。
例子四:AI power 从“电不够”拆成二阶瓶颈
AI 电力瓶颈二阶复盘 说明 agentic research 怎样把一个大主题拆成可投资的链条。
2026-05-28,问题还是“AI 算力扩张受到电力和电网基础设施约束”。到 2026-05-30,研究推进到输电和并网队列,交付周期开始取代 capex headline 成为核心变量。同一天,设备延期又被映射到项目 IRR 和 hyperscaler 自由现金流压力。2026-05-31,主题进一步下沉到取向硅钢、变压器、开关柜、材料和认证。
这不是简单总结新闻。它把“电不够”拆成了并网、设备、材料、监管、成本回收和现金流桥梁。
例子五:HBM、CPO 和先进封装把产业链关系变成人类序列
HBM、存储与先进封装复盘 展示的是另一类能力:保留技术关系,但改写成人类能读的顺序。
2026-05-21,系统从 800G/1.6T 到 CPO,看见网络带宽瓶颈推动光互联路径升级。2026-05-24,HBM、先进封装和材料变成 AI 硬件供给弹性的核心问题。2026-05-27,材料和测试环节开始影响利润池分布。2026-05-30,HBM 产能缺口又变成 AI 硬件杠铃策略的压力测试。
如果这些内容只以内部链接存在,人很难读完。recap 的意义,是把复杂图谱变成一条从 CPO、HBM、封装、材料、测试到供给弹性的路径。
例子六:Mag7 报告如何吸收人的反驳
Mag7 下一时代输家深度研究 和后续 Mag7 复盘 说明这套系统不是封闭自动化。
原始研究更强调 Apple、Tesla、Meta 的风险:Apple 的 AI 基础设施证据不足,Tesla 是叙事久期,Meta 要接受 P&L 和自由现金流测试。后来在人类反馈加入后,系统明确承认原报告没有充分争议化 Microsoft 的 Office/Windows 风险,于是把问题重新放进入口、物理基础设施、现金流桥梁、估值倍数、自研芯片和电力约束的比较框架里。
这正是我认为 AI Institute 有价值的地方:它不是让 AI 输出一个最终答案,而是让人类批评进入循环,迫使系统重开 thesis。
第一层:研究角色
真正的研究院不能只有一个“大脑”。
AI Institute 的角色分工,是为了让模型的能力变成可管理的专业覆盖:
- 宏观角色观察利率、通胀、流动性和政策;
- 策略角色判断风险偏好、风格切换和资产配置;
- 行业角色追踪 AI 算力、存储、CPO、电力设备、先进封装等产业链;
- 风险角色检查估值、拥挤、反身性和证伪条件;
- 编辑角色把机器适合读取的图谱改写成人类适合阅读的文本;
- 复盘角色把过去的判断放回时间线,比较观点变化和市场表现。
这种角色设计的意义,不是让页面看起来像组织架构图。
它的意义在于约束模型:每个 agent 都有边界、有任务、有输出责任。模型可以聪明,但不能随意漂移。
第二层:研究节奏
研究不能只靠临时提问。
一个可持续的 AI 研究院必须有节奏:晨会简报、日报、深度研究、周末话题、专题复盘、长期 thesis tracking。
节奏让系统每天都把新信息带回同一个工作轨道:
- 今天市场发生了什么;
- 哪些主题需要继续跟踪;
- 哪些观点被新证据支持;
- 哪些观点出现反向信号;
- 哪些旧判断需要复盘;
- 哪些内容应该进入人类可读页面。
这一步很关键。没有节奏,AI 研究只是一次次对话。有了节奏,它才开始像一个机构。
第三层:记忆和证据
AI 研究最容易失败的地方,是“看起来什么都知道,但没有稳定记忆”。
投资研究尤其不能这样。因为观点不是孤立句子,它有时间、有证据、有反对意见、有风险条件,也有后来被市场验证或证伪的过程。
所以 AI Institute 必须保存:
- 每天生成了什么;
- 哪条 thesis 被更新;
- 哪些证据支持它;
- 哪些证据挑战它;
- 分析师之间有什么分歧;
- 过去的判断后来发生了什么。
这就是为什么 morning brief、daily report、whiteboard、mailbox、recap、living thesis tracker 都不是孤立功能。它们共同构成一张研究记忆网络。
但这张网络对模型友好,对人不一定友好。
所以还需要下一层。
第四层:人类可读的 Reader Contract
AI 很容易生成一张复杂图谱:报告链接报告,证据链接风险,白板链接邮箱,日报链接复盘。
对另一个 agent 来说,这很好。
对人类读者来说,这往往太累。
因此 AI Institute 的公开交付不能只是“这里有很多链接”。它必须变成 reader contract,也就是一份人真正愿意读的决策材料。
一份合格的 reader report 应该直接回答:
- 一句话结论是什么;
- 今天最重要的变化是什么;
- 哪些证据支持它;
- 哪些证据反对它;
- 分歧在哪里;
- 对投资判断有什么影响;
- 什么情况会证明这个观点错了;
- 后面应该继续看什么。
这一步是 AI Institute 从“内容生产系统”变成“研究服务”的关键。
技术可持续:让一组 agent 每天安全运行
从技术角度看,最难的问题不是让一个模型完成一次任务。
真正难的是:一组 agent 每天都在运行,如何确保它们不丢状态、不重复工作、不污染公开页面、不把内部信息暴露出去,也不会因为一次失败让整条链路中断?
所以 AI Institute 的技术可持续性,依赖几个基本原则。
第一,任务必须有状态。它开始了吗、结束了吗、生成了什么、是否进入下一步,不能只靠模型自己描述。
第二,产物必须能归档。报告、图表、HTML、图片、摘要和复盘都需要成为可追踪对象,而不是一次聊天里的临时文本。
第三,输出必须有结构。原始 AI 文本不能直接进入公开界面,它需要被整理成稳定的合约,供 dashboard、timeline、recap 和 reader report 使用。
第四,任务必须可重试、可去重、可恢复。agentic workflow 一定会遇到中断,系统要允许失败,但不能让失败吞掉结果。
第五,公开边界必须清楚。内部运行细节、敏感配置、维护信息、未清洗的健康报告和私有路径不能进入公开网站。
这就是技术 harness 的意义:它不假设模型永远正确,而是假设模型会犯错,然后让系统可以吸收这些错误。
商业可持续:让 AI 研究进入人的决策流程
商业层面的可持续,不是“今天生成了多少篇报告”。
它看的是更具体的问题:
- 人类研究员能不能更快形成第一判断;
- 关键主题能不能被连续覆盖;
- 证据链能不能保留下来;
- 观点变化能不能被追踪;
- 分歧和风险能不能被看见;
- 过去的判断能不能被复盘;
- 最终交付是不是足够清楚,能被人拿来做投资讨论。
如果答案是不能,那么 AI 只是提高了内容产量。
如果答案是能,那么 AI Institute 就不只是一个生成工具,而是一种新的研究基础设施。
它并不替代人类研究员。它把大量监测、整理、连接、初稿、复盘和证据归并工作并行化,让人类把注意力放在判断、取舍、责任和交易决策上。
Vibe 的位置:研究院的公开阅读室
Vibe 不是这段故事的主角,但它很重要。
AI Institute 内部会自然形成一张密集研究图谱。Vibe 的任务,是把这张图谱变成人类可以进入的阅读室:
- 首页展示当天最重要的研究变化;
- daily dashboard 呈现晨会简报和市场线索;
- reader report 把复杂链路改写成完整 memo;
- recap 把某个主题放回时间线;
- living thesis tracker 让长期观点持续可见;
- 专题页面把 AI 研究院的工作方式公开解释出来。
因此,Vibe 不是“展示文件的地方”。
它是 AI Institute 面向人的产品界面。
这套方法真正想证明什么
AI Institute 最想证明的,不是模型可以生成很多文本。
它想证明的是:当 agentic models 被放进合适的角色、节奏、记忆、证据、复盘和交付约束里,它们可以成为人类研究员的并行工作伙伴。
这个伙伴不会替人类承担最终判断,也不应该假装拥有最终责任。
它承担的是另一类工作:持续观察、持续整理、持续连接、持续复盘,把市场中不断流动的信息转化为更清楚的判断材料。
从这个意义上说,AI Institute 的 building story 不是一个工具上线故事。
它是一种新型研究组织的雏形:人类研究员负责判断,agentic models 负责并行劳动,而 harness 负责让这套关系可运行、可持续、可交接。