24 июня 2026 OpenAI и Broadcom представили Jalapeño — первый Intelligence Processor OpenAI для LLM inference. Ранние тесты: performance per watt существенно выше текущего SOTA; от design до tape-out — 9 месяцев; engineering samples уже выполняют GPT-5.3-Codex-Spark на target frequency и power. Deployment в gigawatt datacenters с Microsoft и partners к концу 2026. Для разработчиков, infra-инженеров и инвесторов: blank-slate ASIC, сеть Tomahawk, supply chain, credibility benchmarks, competitive landscape и шестишаговый guide.
01

Зачем OpenAI собственные чипы: economics inference и ландшафт hyperscaler

OpenAI — один из крупнейших потребителей GPU в мире. Каждый запрос ChatGPT и каждый API call запускает inference — генерацию выхода обученной модели по новым входным данным. На масштабе GPT-4/5 inference становится доминирующей статьёй cost на пути к profitability.

До сих пор доминировали NVIDIA H100/H200/Blackwell — general-purpose accelerators, не оптимизированные под однородный LLM inference. Jalapeño — ASIC (Application-Specific Integrated Circuit): один workload, максимальная efficiency в этом сегменте.

01

Масштаб: сотни миллионов daily users умножают cost per token.

02

Architectural mismatch: GPU покрывают training, gaming и simulation — pure inference теряет efficiency.

03

Precedent hyperscalers: Google TPU, Amazon Trainium/Inferentia, Microsoft Maia 100, Meta MTIA уже в production.

04

Поздний вход, рекord cycle: partnership с Broadcom с октября 2025; 9 месяцев до tape-out — по заявлению OpenAI fastest ASIC cycle в high-performance semiconductors.

05

NVIDIA остаётся training partner: февраль 2026 — инвестиция $30 млрд и Vera Rubin compute agreement; training и inference разделены.

КомпанияЧипФокус
GoogleTPUTraining + inference
AmazonTrainium / InferentiaTraining + inference
MicrosoftMaia 100Inference
MetaMTIAInference
OpenAIJalapeño (2026)LLM inference
02

Jalapeño: blank-slate ASIC, architecture и lab measurements

Jalapeño — первый Intelligence Processor OpenAI: не general-purpose GPU, а accelerator, спроектированный с нуля для modern LLM inference. OpenAI определил architecture; Broadcom реализовал silicon и networking; Celestica — board, rack и system integration.

«Jalapeño спроектирован с нуля для LLM inference — оптимизирован под kernels, memory movement, networking и serving patterns, критичные для frontier models.» — Richard Ho, head of hardware OpenAI

01

Blank-slate design: не адаптирован из legacy AI workloads; каждое решение — под Transformer inference.

02

Minimized data movement: architecture сокращает memory traffic — классический bottleneck inference.

03

Balance compute/memory/network: realized utilization ближе к theoretical peak, чем у general-purpose chips.

04

Broadcom Tomahawk: networking silicon для large-scale clusters и multi-chip inference.

05

Industry-wide flexibility: для current и future LLM отрасли — не только модели OpenAI.

ПараметрДетали
ТипIntelligence Processor / LLM inference ASIC
FoundryTSMC, 3nm
Lab modelGPT-5.3-Codex-Spark (production load в test environment)
Sample statusEngineering samples active на target frequency и power
Full-stack scopeChip, kernels, memory, network, scheduling, deployment, product

Greg Brockman (president, co-founder): Jalapeño — часть full-stack infrastructure strategy — больше compute efficiency, faster и affordable AI. Hock Tan (CEO Broadcom): multi-generation roadmap с gigawatt datacenters у Microsoft и partners с 2026.

03

Performance, cost и quality данных: проверка SOTA claims

OpenAI ещё измеряет финальную performance. Ранние тесты: performance per watt существенно выше текущего SOTA. Detailed technical report — через несколько месяцев. Hock Tan в Reuters и Bloomberg дополнительно назвал ~50% inference cost savings vs типичные AI GPU и performance comparable с NVIDIA Blackwell и Google TPU.

МетрикаJalapeño (early test)Reference
Performance/wattЗначительно выше SOTAOpenAI official
Inference cost~50% savingsHock Tan, Bloomberg (lab)
Absolute performanceBlackwell/TPU levelHock Tan, Reuters
UtilizationБлиже theoretical peakReduced data movement + balance
Latency targetThroughput лидеров + latency specialized inference systemsOpenAI product vision

Data caveat: все performance metrics — из OpenAI/Broadcom early tests без independent third-party validation. Production TCO моделировать только после Azure deployment конца 2026 и technical report.

A

Flywheel logic: better infra → efficient training/serving → better models → more usage → reinvestment в next chip generation.

B

AI-accelerated design: OpenAI models ускорили части chip design — models, serving users, улучшают infra для future models.

C

HBM pressure: Tan: custom AI chip margins ниже networking switches из-за high-bandwidth memory demand (SK Hynix, Samsung).

04

9-month tape-out, supply chain, deployment roadmap и шестишаговый guide

Почему 9 месяцев? Deep software-hardware co-development между OpenAI engineering и Broadcom silicon team; OpenAI models для design optimization; Broadcom IP для implementation и network.

РольPartnerОтветственность
Chip architectureOpenAILLM inference optimization, full-stack design
Silicon & networkBroadcomImplementation, Tomahawk, scale-up
FoundryTSMC3nm manufacturing
System integrationCelesticaBoard, rack, server — exclusive OpenAI
First deploymentMicrosoft AzureGigawatt datacenters к концу 2026
PhaseTimingMilestone
Launch24.6.2026Public announcement; samples переданы Altman/Brockman
Near-termКонец 2026First production wave; ChatGPT, Codex, API prioritized
Mid-term2027+Mass production; multi-gen platform; target >1,3 GW
Long-termдо 202910 GW target с OpenAI chips; gen-2 ~2028, annual iteration

Шестишаговый guide (developers / tech leads / investors):

01

Разделить training и inference: Jalapeño покрывает только inference; frontier training остаётся NVIDIA-dominated.

02

50% claim как vendor benchmark: TCO model после OpenAI report и Azure production data.

03

Track Azure end-2026 signal: first production deployment validates cost savings.

04

Supply diversification: даже 20–30% inference на Jalapeño усиливает negotiating position vs NVIDIA.

05

Broadcom ASIC ecosystem: Google TPU, Meta MTIA, OpenAI Jalapeño — custom ASIC стал hyperscaler standard.

06

Decouple local agent stacks: cloud inference cost reduction влияет на API pricing; Cursor/Codex pipelines требуют 24/7 stable macOS hosts независимо от chip stack.

05

Competition, industry impact, timeline и production conclusion

Краткосрочно не замена NVIDIA: только inference; CUDA ecosystem; ASIC adaptation cost при architecture shift. Стратегически — supply diversification и negotiating leverage, не break с NVIDIA.

DimensionNVIDIAJalapeño / OpenAI
TrainingDominance, CUDAStill NVIDIA-dependent
InferenceGeneral GPU, share under pressureSpecialized ASIC, ~50% cost target
Next genVera RubinGen-2 ~2028, annual iteration
BroadcomCustom ASIC for Google, Meta, OpenAI
1

Inference economics: validated 50% savings снижают API floor и усиливают AI price war.

2

Full-stack competition: от «best model» к «most efficient stack» — chip to product.

3

Semiconductor beneficiaries: Broadcom, TSMC, SK Hynix/Samsung (HBM); NVIDIA inference share under pressure.

PersonRoleStatement / function
Greg BrockmanPresident, co-founderFull-stack infra strategy, compute economics
Richard HoHardware leadArchitecture, kernel/memory/network optimization
Hock TanCEO BroadcomGigawatt roadmap, Blackwell comparison, ~50% cost
Sam AltmanCEOStrategic compute control, IPO context 2026
Timeline
2025-10  OpenAI и Broadcom announce custom chip partnership
2026-02  NVIDIA invests $30B in OpenAI (training remains bound)
2026-06-24  Jalapeño launch; engineering samples active in lab
End 2026  First gigawatt deployment Microsoft and partners
2027       Mass production; deployment >1.3 GW
2028       Jalapeño gen-2 (roadmap)
2029       10 GW target OpenAI-owned chips

Production reality: Cursor + Codex Agent на MacBook прерывается при закрытии крышки; Linux-only VPS без Xcode и macOS Keychain; gateway и local inference на слабом hardware вызывает swap jitter. Jalapeño снижает primarily cloud inference cost — для 24/7 agent orchestration и stable MCP toolchains KVMNODE dedicated Mac Mini M4 / M4 Pro остаётся production choice. См. цены, оформить заказ, центр помощи.