能效成为新的利润杠杆：AI 基础设施从“资本开支叙事”转向“电力生产率”

报告日期： 2026-06-30 分析师： AI基础设施分析师（ai-infrastructure-analyst） 立场： 支持（并精化） 研究记录： 08 / 10 — 看板 df9f18f6-2d3f-49d1-b7b6-a0d087a600d7

核心结论先行

截至 2026-06-30，本报告片支持前序链条（prior research notes），并在供给侧技术轴上加以收紧。prior research notes 确立了电力、变压器、先进封装/HBM 是多年期的刚性约束；prior research notes据此判断组合应偏好盈利型 AI 基础设施而非高久期叙事。本报告片回答其机制问题：将该约束格局转化为利润故事的两项技术是——（1）芯片级直接液冷／浸没式液冷，（2）先进封装（CoWoS-L、SoIC 3D 堆叠、HBM4）。 二者合力将机房 PUE 从约 1.5–1.8 压向约 1.1 [S1][S10]，并把加速器单位功耗算力（perf/watt）提升约 1.76×（SoW-X 对比 CoWoS-L），最高至预计 3–5×（Rubin 对比 Blackwell）[S8]。在电力成为稀缺单位的电网约束世界里，能效不再是营运成本脚注——它是把同一份稀缺兆瓦转化为更多 token 的首要杠杆，因而是从“高资本开支”走向“高利润率”的路径。 必须加的限定：按 Jevons 悖论，单位成本下降会放大总需求，因此利润归属于掌握能效技术栈者，而非整个行业平均。

1. 为何恰恰是现在能效成为利润杠杆

前序研究把刚性约束重新界定为“兆瓦”而非 GPU 或资金。这一重定义改变了“能效”的价值。电力充裕时，PUE 改善 0.4 点只是温和的营运成本节省；当电力成为被配给的投入——prior research notes指出约 2,300 GW 并网排队、4–7 年接入等待、PJM 2027/2028 容量出清价 $333.44/MW-day——决定性指标翻转为每交付兆瓦的有效算力。任何被冷却开销分流、或在低效封装中浪费的瓦特，都是无法作为 token 出售的瓦特。能效因而从成本项变为作用于最稀缺投入的吞吐量乘数，这正是把资本开支叙事转化为利润叙事的机制。

两个数字框定赌注规模：按 prior research notes的发现，四巨头 2026 年资本开支约 7,250 亿美元（同比 +77%），而推理预计将占 2026 年全部算力的约 三分之二 [S5]。在如此庞大且以经常性推理为主的支出下，即便 token-per-watt 提升个位数百分点，也会复利成巨大的毛利率差。

2. 液冷——PUE 与 TCO 的台阶式跃迁

芯片级直接液冷（DLC）与浸没式冷却是近期、可部署的杠杆。PUE 与 TCO 证据现已具象

冷却方案	典型 PUE	64 机柜 AI 集群 10 年冷却 TCO	单位 IT 负载安装成本/kW
先进风冷	1.45–1.80	4,200 万美元
芯片级直接液冷	1.15–1.30	3,100 万美元	$6,000–9,500（部分口径 $1,500–3,000）
单相浸没式	1.03–1.08	2,800 万美元	$4,500–6,800

来源：[S1] 提供 PUE 区间及 4,200 万/3,100 万/2,800 万美元的 10 年差额；[S2] 提供 DLC 实现 PUE 低于 1.2 的部署。要点是单个 64 机柜集群上即出现 1,400 万美元的冷却 TCO 差额（风冷→浸没约降 33%） [自测算：(4,200万−2,800万)/4,200万 = 33%]。据报 DLC 在 1,000+ GPU 设施上5 年 TCO 较风冷低约 35%，并在 $0.10/kWh 下节省约 1.2 万美元/机柜/年 能源成本 [S2]。

其结构性原因在于：最新加速器强制液冷。NVIDIA GB200 NVL72 是液冷整机柜设计，功耗约 120 kW（满载实测 130–132 kW），Supermicro 称其 DLC 实现可带来较上一代最高 25× 的能效及 97% 电源转换效率 [S3][S4]。液冷因而不再是可选差异化，而是部署 Blackwell/Rubin 级密度的入场券，掌握者攫取 PUE 套利。

自测算——能效释放出的兆瓦。 对 100 MW IT 负载，PUE 由 1.6 降至 1.1 使设施总功耗从 160 MW 降至 110 MW，回收 50 MW [自测算]。按 $0.10/kWh，约相当于 4,380 万美元/年 的能源成本规避（50 MW × 8,760 h × $100/MWh）[自测算]。但在电网约束格局下，更有价值的解读是：这 50 MW 可转而作为算力出售——能效直接松弛了 prior research notes指认的刚性约束，且无需等待 4–7 年的新并网。

3. 先进封装——硅片层面的单位功耗算力

液冷攻克设施开销；先进封装攻克算力本身的“每 token 焦耳”，并承载更大的结构性增益

3D 堆叠（SoIC）+ CoWoS-L： Rubin 将 CoWoS-L 与 System-on-Integrated-Chips（SoIC）3D 堆叠结合；更短的垂直互连在提升带宽的同时大幅降低功耗，技术规格暗示较 Blackwell 提升 3×–5× 单位功耗算力 [S8]。
晶圆级系统（SoW-X）： 支持最多 16 个全掩模 ASIC 与 80 个 HBM4 堆叠，较 CoWoS-L 约 1.76× 单位功耗算力 [S8]。
HBM4 内存： 2026 年进入量产，单堆带宽 >1.65 TB/s，达约 2 TB/s，较 HBM3E 能效高约 20% [S9]；内存在加速器功耗中占比大且上升，故 HBM 能效是一阶杠杆。
Chiplet 经济性： CoWoS、EMIB、混合键合已是下一代加速器的“首要使能者” [S7]；解耦让每颗裸片落在最优节点，提升良率与每 FLOP 焦耳效率。

prior research notes的“勿重复计算”警示仍成立：这些增益受产能闸门限制。CoWoS 售罄至 2027 年、HBM 处于配给，故单位功耗算力路线图真实但交付被配给——这正是本报告片转交半导体台的原因（第 6 节）。

4. 综合判断：这如何实现“资本开支→利润率”转型

把两项杠杆叠加到一个有效产出单位（每百万 token 服务）上

封装降低芯片端的每 token 焦耳（1.76×–5× perf/watt）[S8]。
冷却降低这些焦耳的设施乘数（PUE 1.6 → 1.1，开销约降 31%）[S1][自测算]。
合力使每个被服务 token 所内含的能耗与 TCO 急剧下降，即便绝对机群仍在扩张。

这正是本报告片任务所问转型的字面定义。推理单 token 成本已在三年内下降约 1,000×（GPT-4 级别由 $20 降至约 $0.40/百万 token）[S5]，快于摩尔定律。能效让运营商既可维持价格扩张毛利，也可降价抢份额——无论哪种，利润杠杆都从“多建机柜”（资本开支）转向“每稀缺瓦特榨取更多 token”（生产率）。 这直接印证 prior research notes偏好盈利型 AI 基础设施、远离高久期叙事的倾斜：股权赢家是 token-per-watt-per-dollar 改善最快的标的。

5. Jevons 限定——为何支持但不过度承诺

我以一条纪律性限定支持该论点：更便宜、更高效的算力会放大总需求（Jevons 悖论）。a16z 记录了约 280–1,000× 的 token 成本坍塌，而同期企业 AI 账单仍上升约 320% [S5][S6]。对“利润转型”主张有两点推论

总资本开支不会下降——Deloitte 2026 观点认为 AI 下一阶段“需要更多而非更少算力” [S5]。能效不会终结建设潮，而是改变谁从中获利。
利润归于能效掌握者，而非整个行业。 困于风冷、单裸片、HBM3E 级堆叠的运营商面临扩大的成本差；最佳与落后者在 PUE/perf-watt 上的差距构成竞争护城河。注意成本压力信号：即便 token 价格下跌，AWS 仍于 2026 年 1 月将 GPU Capacity Block 价格上调 +15% [S5]——印证底层稀缺投入（已供电、已封装的算力）仍在通胀，能效是唯一持久对冲。

净判断：能效对“资本开支→利润”转向是必要且真实的，但它是相对赢家论点，受封装供给与电网接入闸门限制，并非全行业的利润潮汐。

6. 交接

推荐下一位分析师： semiconductors-analyst（半导体分析师）[primary]。本报告片浮现的未决问题具体落在半导体领域，且在任务中被点名（“先进封装”）：perf-per-watt 路线图（CoWoS-L + SoIC、SoW-X、HBM4）是两项能效杠杆中更大的一项，但 prior research notes显示 CoWoS 售罄至 2027、HBM 处于配给。决定性的开放问题是——先进封装与 HBM4 供给能否在 2026–2028 年于机群规模上真正兑现 1.76×–5× 的单位功耗算力增益，还是产能配给会给能效转型设上限，即硅片级利润杠杆是被兑现还是被递延。这是一条被点名的 sector-primary 路由，符合名册指引（议题具体点名了该专家的领域）。

资料来源 / Sources

[S1] Adam Silva Consulting, "Data Center Cooling Economics 2026: Liquid vs Air vs Immersion" — https://www.adamsilvaconsulting.com/insights/data-center-cooling-economics-2026 [S2] Introl, "Direct-to-Chip Cooling: PUE Below 1.2 Implementation" — https://introl.com/blog/direct-to-chip-cooling-pue-below-12-implementation [S3] NVIDIA, "GB200 NVL72" — https://www.nvidia.com/en-us/data-center/gb200-nvl72/ [S4] Supermicro, "NVIDIA GB200 NVL72 SuperCluster Datasheet" — https://www.supermicro.com/datasheet/datasheet_SuperCluster_GB200_NVL72.pdf [S5] GPUnex, "AI Inference Economics 2026: The 1,000× Cost Collapse Reshaping GPUs" — https://www.gpunex.com/blog/ai-inference-economics-2026/ [S6] Introl, "Inference Unit Economics: The True Cost Per Million Tokens" — https://introl.com/blog/inference-unit-economics-true-cost-per-million-tokens-guide [S7] Futurum Group, "Too Important to Ignore: Unpacking Advanced Packaging for AI Semiconductor" — https://futurumgroup.com/press-release/too-important-to-ignore-unpacking-advanced-packaging-for-ai-semiconductor/ [S8] TechInsights, "2026 Advanced Packaging Outlook Report" — https://www.techinsights.com/outlook-reports-2026/advanced-packaging-outlook-report [S9] PatSnap, "Chiplet interconnect tech 2026: UCIe, HBM4 & packaging" — https://www.patsnap.com/resources/blog/articles/chiplet-interconnect-tech-2026-ucie-hbm4-packaging/ [S10] SemiEngineering, "What Is Power Usage Effectiveness (PUE) In Data Centers?" — https://semiengineering.com/what-is-power-usage-effectiveness-pue-in-data-centers/ [S11] Schneider Electric, "How Liquid Cooling Is Redefining Data Center Efficiency Beyond PUE" — https://blog.se.com/datacenter/2026/05/14/how-liquid-cooling-redefining-data-center-efficiency-beyond-pue/ [S12] SemiAnalysis, "H100 vs GB200 NVL72 Training Benchmarks — Power, TCO, and Reliability" — https://newsletter.semianalysis.com/p/h100-vs-gb200-nvl72-training-benchmarks

元数据脚注： research note；看板 df9f18f6-2d3f-49d1-b7b6-a0d087a600d7；工作日期 2026-06-30。