OpenAI 为什么要造自己的芯片?推理账单与竞争格局
OpenAI 是全球最大的 GPU 消耗方之一。每当用户向 ChatGPT 提问,背后服务器群组就需要持续消耗大量算力完成推理(Inference)——模型根据输入生成回答的过程。随着 GPT-4、GPT-5 系列能力持续升级,推理成本已成为 OpenAI 盈利路径上最重的一块石头。
过去 OpenAI 几乎完全依赖英伟达 GPU。H100、H200、Blackwell 固然强大,但它们是通用加速器——为各种任务设计,而非专门为 LLM 推理优化。在 LLM 这个高度同质化的场景里,大量算力开销实际上是浪费。类比来说:英伟达 GPU 是一把瑞士军刀,而 Jalapeño 是一把专业手术刀。
模型越强,账单越贵:用户规模达数亿日活,每次 API 调用都在消耗 GPU 集群。
通用 GPU 架构错配:为训练、游戏、仿真设计的芯片跑纯推理,效率天然低于专用 ASIC。
竞争对手早已入局:谷歌 TPU、亚马逊 Trainium/Inferentia、微软 Maia 100、Meta MTIA 均已量产。
OpenAI 入局最晚、步子最快:9 个月从设计到流片,声称是高性能先进半导体领域最快 ASIC 周期。
战略绑定仍深:2026 年 2 月英伟达向 OpenAI 直接投资 300 亿美元——训练阶段英伟达仍是核心伙伴。
| 公司 | 自研芯片 | 用途 |
|---|---|---|
| TPU (Tensor Processing Unit) | 训练 + 推理 | |
| Amazon | Trainium / Inferentia | 训练 + 推理 |
| Microsoft | Maia 100 | 推理 |
| Meta | MTIA | 推理 |
| OpenAI | Jalapeño(2026) | 推理 |
Jalapeño 是什么?ASIC 架构、3nm 制程与实验室实测
ASIC(Application-Specific Integrated Circuit,专用集成电路)意味着这块芯片只做一件事——LLM 推理。它不玩游戏、不跑训练、不做通用计算。高度专一带来的好处是:在它专攻的领域,效率极高。
「Jalapeño 从零开始,专为 LLM 推理设计,融入了我们对前沿模型在内核执行、内存搬运、网络通信和服务模式方面的深刻洞察。」—— OpenAI 硬件负责人 Richard Ho
从零设计(Blank-slate):以现代 LLM 推理为出发点重新设计,每个决策围绕 Transformer 运算模式。
最小化数据搬运:推理瓶颈往往在内存带宽——Jalapeño 专门减少内存与计算单元之间的无效搬运。
计算/内存/网络均衡:针对 LLM 实际负载特征专项平衡,使利用率更接近理论峰值。
博通 Tomahawk 网络互联:大规模集群部署时具备强大节点间通信能力,多卡协同推理超大模型至关重要。
Celestica 板级集成:电子制造服务商负责主板、机架系统,提供规模化量产能力。
| 制造要素 | 详情 |
|---|---|
| 晶圆代工 | 台积电(TSMC) |
| 工艺节点 | 3nm(与苹果 M4、英伟达 Blackwell 同代) |
| 实验室实测模型 | GPT-5.3-Codex-Spark(编程场景旗舰推理模型) |
| 运行状态 | 工程样品已在目标频率和功耗下运行 ML 工作负载 |
性能与成本:50% 推理节省、Blackwell 对标与数据可信度
以下数据来自博通 CEO 陈福阳及 OpenAI 官方声明,均为早期测试结果。完整技术报告将于数月后发布,独立第三方验证尚未完成——需以「官方自测数字」看待。
| 指标 | Jalapeño(早期测试) | 对比基准 |
|---|---|---|
| 推理成本节省 | 约 50% | 相比当前主流 AI GPU |
| 每瓦性能 | 显著优于当前最先进水平 | OpenAI 官方声明 |
| 性能绝对值 | 与英伟达 Blackwell、谷歌 TPU 相当 | 博通 CEO 陈福阳(路透社) |
| 热耗散表现 | 优于预期 | OpenAI 内部测试 |
「到目前为止,Jalapeño 相比典型 AI GPU 展现出约 50% 的成本节省。」—— 博通 CEO 陈福阳(Bloomberg)
OpenAI 总裁 Greg Brockman 补充:Jalapeño 从初始设计到流片只用了 9 个月,部分设计和优化过程还使用了 OpenAI 自己的 AI 模型(VentureBeat 援引知情人士称使用了前代 OpenAI 模型,具体代数未公开)。
注意:「50%」目前仍是 Broadcom 方面的早期实验室数据。正式量产后的实际效果需等待:① OpenAI 发布完整技术报告;② 微软等合作伙伴完成数据中心实际部署;③ 第三方独立基准测试。
50% 成本节省:博通 CEO 彭博采访口径,对比「典型 AI GPU」。
Blackwell 同级性能:路透社采访口径,与谷歌 TPU 并列提及。
9 个月流片:Greg Brockman 定性描述,声称史上最快高性能 ASIC 开发周期。
9 个月开发、产业链分工、部署路线图与六步决策指南
为什么 9 个月就能流片?
软硬件深度协同:模型团队与芯片团队深度协作,避免传统 ASIC 开发中「硬件工程师猜测软件需求」的大量返工。
AI 辅助芯片设计:OpenAI 自己的 AI 模型被用于加速芯片设计部分决策和优化过程。
博通成熟 IP 库:芯片实现、网络互联等方面有大量可复用 IP,缩短从逻辑设计到物理实现的周期。
| 角色 | 公司 | 负责内容 |
|---|---|---|
| 芯片架构设计 | OpenAI | LLM 推理优化方向、全栈架构设计 |
| 芯片实现 & 网络 | 博通(Broadcom) | 硅片实现、Tomahawk 网络芯片、量产支持 |
| 晶圆代工 | 台积电(TSMC) | 3nm 工艺制造 |
| 系统集成 | Celestica | 主板、机架、服务器系统集成、量产 |
| 首批部署客户 | 微软 Azure | 数据中心部署(2026 年底开始) |
| 阶段 | 时间 | 里程碑 |
|---|---|---|
| 近期 | 2026 年底 | 首批商用部署至微软及其他合作伙伴;优先服务 ChatGPT、Codex、API 内部推理 |
| 中期 | 2027 年 | 大规模量产;部署规模超 1.3 GW;可能向外部 AI 公司开放 |
| 长期 | 至 2029 年 | 自研芯片支撑 10 GW 算力(约 10 座核电站级别);下一代 2028 年推出,此后每年迭代;未来可能扩展至训练芯片 |
六步决策指南(开发者 / 技术负责人):
区分训练与推理:Jalapeño 仅覆盖推理;训练前沿大模型仍依赖英伟达 GPU,架构规划勿混淆两阶段算力。
审慎看待 50% 数字:将其视为 vendor benchmark,等 OpenAI 技术报告与 Azure 实际部署后再做 TCO 模型。
跟踪 2026 年底 Azure 部署信号:微软首批上线将是验证成本节省是否 hold 的关键节点。
理解「分散供应」逻辑:即使 Jalapeño 只承担 20–30% 推理负载,也能获得与英伟达谈判采购价格的底气。
关注博通 ASIC 生态:博通同时为 Google TPU、Meta MTIA、OpenAI Jalapeño 设计定制芯片——定制 ASIC 已成 hyperscaler 标配。
本地 Agent 栈与云端推理解耦:芯片降本主要影响 API 定价;本地 Cursor/Codex Agent 流水线仍需要稳定 macOS 宿主 7×24 在线。
竞争格局、行业影响、时间线与关键人物
Jalapeño 能「替代」英伟达吗?短期内不能。原因:① 只做推理不做训练;② CUDA 软件生态(数百万开发者、海量优化库)是最难跨越的护城河;③ ASIC 高度专一——若 LLM 架构发生根本性改变,适配成本很高。
战略意义在于「分散供应,谈判筹码」——不是「抛弃英伟达」,而是「不再完全依赖英伟达」。Quilter Cheviot 全球科技研究主管 Ben Barringer:「Nobody wants to be beholden to Nvidia.」
| 维度 | 英伟达 | Jalapeño / OpenAI |
|---|---|---|
| 训练 | 主导地位,CUDA 生态 | 仍依赖英伟达(300 亿美元投资绑定) |
| 推理 | 通用 GPU,市场份额可能被蚕食 | 专用 ASIC,目标 50% 成本节省 |
| 下一代 | Vera Rubin 平台 | 2028 年第二代 Jalapeño,此后每年迭代 |
| 博通角色 | — | 定制 ASIC「代工皇」:Google TPU + Meta MTIA + OpenAI |
对 AI 行业的深远影响:
推理经济学重塑商业模式:50% 成本节省若在生产环境验证,ChatGPT API 成本可能进一步下降,「AI 价格战」底线将被拉低。
「全栈 AI 公司」成新标准:OpenAI 正在设计芯片架构、内核、内存系统、网络、调度、部署系统——竞争维度从「谁的模型更好」演变为「谁的全栈效率更高」。
半导体格局加速分化:赢家——博通、台积电、SK 海力士/三星(HBM);承压——英伟达推理份额、AMD 存在感弱。
| 姓名 | 职位 | 角色 |
|---|---|---|
| Greg Brockman | OpenAI 联合创始人 & 总裁 | 公开宣布发布,定性为「全栈基础设施战略」 |
| Richard Ho | OpenAI 硬件项目负责人 | 技术架构领导者 |
| Hock Tan(陈福阳) | 博通 CEO | 声称性能媲美 Blackwell、成本节省 50% |
| Sam Altman | OpenAI CEO | 整体战略推动者(曾公开表示希望 OpenAI 掌控算力命脉) |
2025-10 OpenAI 与博通正式宣布合作开发定制芯片 2026-02 英伟达向 OpenAI 直接投资 300 亿美元(含 Vera Rubin 算力协议) 2026-06-24 Jalapeño 芯片公开发布,工程样品在实验室运行 2026 年底 首批商用部署(微软 Azure 及其他合作伙伴数据中心) 2027 大规模量产,部署规模超 1.3 GW 2028(预计) 第二代芯片发布 2029(目标) 自研芯片支撑 10 GW 算力规模
博通 2026 年前 5 个月股价年涨幅约 18%;自 2022 年底以来累计涨幅接近 7 倍——定制 ASIC 浪潮的直接受益者。
摊开替代方案:在个人 MacBook 上跑 Cursor + Codex Agent 流水线合盖即断;纯 Linux VPS 无法对接 Xcode 与 macOS Keychain;低配机器挤跑 Gateway 与本地推理 swap 抖动严重。Jalapeño 降本主要发生在云端推理层——对需要 7×24 Agent 编排、稳定接入 MCP 工具链、并在 OpenAI 芯片落地后快速切换编码栈的生产环境,KVMNODE 独占 Mac Mini M4 / M4 Pro通常是更优解。档位见 定价页,订购入口;部署参考 帮助中心。