2026년 6월 24일, OpenAI와 브로드컴은 LLM 추론용 커스텀 ASIC Jalapeño를 공동 발표했습니다. 조기 테스트에서는 주류 AI GPU 대비 추론 비용 약 50% 절감, 와트당 성능은 현행 최첨단을 크게 상회하고, TSMC 3nm로 제조되며 설계부터 테이프아웃까지 9개월이 소요되었습니다. 2026년 말 Microsoft Azure 등에 상용 배포가 시작됩니다. AI 개발자·인프라 엔지니어·투자자를 위해 자체 칩 배경, Richard Ho의 아키텍처, GPT-5.3-Codex-Spark 실측, Blackwell 동급 성능, Tomahawk·Celestica 공급망, 1.3GW(2027)·10GW(2029) 로드맵, NVIDIA 300억 달러 투자와의 관계, 경쟁사 비교표, 브로드컴 주가 상승, 6단계 의사결정 가이드를 정리합니다.
01

OpenAI가 자체 칩을 만드는 이유: 추론 비용과 하이퍼스케일러 경쟁

OpenAI는 세계 최대급 GPU 소비 기업 중 하나입니다. ChatGPT 질문 하나마다 백엔드 서버 클러스터가 추론(Inference)으로 막대한 연산을 소모합니다. GPT-4·GPT-5 시리즈 성능 향상에 따라 추론 비용은 수익화의 가장 큰 부담이 되었습니다.

지금까지 OpenAI는 거의 전적으로 NVIDIA GPU에 의존했습니다. H100, H200, Blackwell은 강력하지만 범용 가속기이며 LLM 추론에 특화된 설계가 아닙니다. 동질화된 LLM 워크로드에서는 범용 GPU 연산의 상당 부분이 실질적 낭비입니다. NVIDIA GPU는 스위스 군용 칼, Jalapeño는 전용 수술용 메스라는 비유가 자주 쓰립니다.

01

모델이 강해질수록 청구가 커집니다: 수억 DAU 규모에서 API 호출마다 GPU 클러스터가 가동합니다.

02

범용 GPU 아키텍처 미스매치: 학습·게임·시뮬레이션용 칩으로 순수 추론을 돌리면 전용 ASIC보다 효율이 떨어집니다.

03

경쟁사는 이미 선행: Google TPU, Amazon Trainium/Inferentia, Microsoft Maia 100, Meta MTIA는 이미 양산 단계입니다.

04

늦은 참여, 가장 빠른 개발: 설계부터 테이프아웃까지 9개월——고성능 첨단 반도체 분야 최속 ASIC 사이클이라고 공언했습니다.

05

NVIDIA와의 전략적 결속은 지속: 2026년 2월 NVIDIA가 OpenAI에 300억 달러를 직접 투자——학습 단계에서는 여전히 핵심 파트너입니다.

기업자체 칩용도
GoogleTPU학습 + 추론
AmazonTrainium / Inferentia학습 + 추론
MicrosoftMaia 100추론
MetaMTIA추론
OpenAIJalapeño(2026)추론
02

Jalapeño 기술 상세: ASIC, 3nm, Tomahawk, Codex-Spark 실측

ASIC(Application-Specific Integrated Circuit)은 LLM 추론만 수행하는 전용 집적회로입니다. 게임, 학습, 범용 연산은 대상이 아닙니다. 특화 영역에서는 효율이 극도로 높아집니다.

「Jalapeño는 백지 상태에서 설계하여, 최첨단 모델의 커널 실행, 메모리 이동, 네트워크 통신, 서빙 패턴에 대한 깊은 통찰을 반영했습니다.」—— OpenAI 하드웨어 책임자 Richard Ho

01

제로 베이스 설계: 현대 LLM 추론을 출발점으로 Transformer 연산 패턴에 최적화된 결정을 쌓았습니다.

02

데이터 이동 최소화: 추론 병목은 메모리 대역폭——계산 유닛과 메모리 사이 불필요한 전송을 줄입니다.

03

연산·메모리·네트워크 균형: LLM 실부하에 맞춘 밸런스로 이론 피크에 가까운 활용률을 목표합니다.

04

브로드컴 Tomahawk: 대규모 클러스터용 강력한 노드 간 통신. 초대형 모델 멀티카드 추론에 필수입니다.

05

Celestica 보드 통합: 기판·랙 시스템 양산 체제를 담당하여 스케일 배포를 지원합니다.

제조 요소상세
웨이퍼 파운드리TSMC(대만반도체제조)
공정3nm(Apple M4, NVIDIA Blackwell 동세대)
랩 실측 모델GPT-5.3-Codex-Spark(코딩 주력 추론 모델)
가동 상태엔지니어링 샘플이 목표 주파수·전력에서 ML 워크로드 실행 완료
03

성능과 비용: 50% 절감, Blackwell 동급, 데이터 신뢰성

아래는 브로드컴 CEO 호크 탄 및 OpenAI 공식 발표에 따른 조기 테스트 결과입니다. 전체 기술 보고서는 수개월 후, 제3자 검증은 미완료——벤더 자체 측정값으로 읽어야 합니다.

지표Jalapeño(조기 테스트)비교 기준
추론 비용 절감약 50%현행 주류 AI GPU 대비
와트당 성능현행 최첨단을 크게 상회OpenAI 공식 발표
성능 절대값NVIDIA Blackwell·Google TPU 동수준호크 탄(Reuters)
열 특성예상을 상회OpenAI 내부 테스트

「지금까지 Jalapeño는 일반적인 AI GPU 대비 약 50% 비용 절감을 보여줍니다.」—— 브로드컴 CEO 호크 탄(Bloomberg)

OpenAI 공동창업자 겸 사장 Greg Brockman은 초기 설계부터 테이프아웃까지 9개월만 걸렸다고 보충했습니다. 설계·최적화 일부에 OpenAI 자체 AI 모델이 사용되었다고 VentureBeat가 관계자 발언을 전했습니다(세대는 비공개).

주의: 「50%」는 현재 브로드컴 측 조기 랩 데이터입니다. 양산 후 실효값은 OpenAI 기술 보고서, Azure 실운용, 제3자 벤치마크의 3단계 확인이 필요합니다.

A

50% 비용 절감: 호크 탄 Bloomberg 인터뷰——「일반 AI GPU」 비교.

B

Blackwell 동급: Reuters 인터뷰——Google TPU와 병기.

C

9개월 테이프아웃: Greg Brockman 정성 평가——역대 최속 고성능 ASIC 개발.

04

9개월 개발, 공급망, Azure 배포와 6단계 의사결정 가이드

왜 9개월에 테이프아웃이 가능했는가

01

소프트·하드웨어 긴밀 협업: 모델 팀과 칩 팀이 일체로 움직여, 기존 ASIC 개발의 「하드가 소프트를 추측하는」 재작업을 줄였습니다.

02

AI 지원 칩 설계: OpenAI 모델이 설계 결정·최적화 일부를 가속했습니다.

03

브로드컴의 성숙 IP: 구현·네트워크에서 재사용 IP가 논리 설계에서 물리 구현까지 기간을 단축했습니다.

역할기업담당
칩 아키텍처OpenAILLM 추론 최적화, 풀스택 설계
구현·네트워크브로드컴(Broadcom)실리콘 구현, Tomahawk, 양산 지원
웨이퍼 파운드리TSMC3nm 제조
시스템 통합Celestica기판·랙·서버 통합, 양산
초기 배포 고객Microsoft Azure데이터센터 배포(2026년 말 시작)
단계시기마일스톤
단기2026년 말Microsoft 등 파트너 DC에 상용 배포;ChatGPT·Codex·API 내부 추론 우선
중기2027년대규모 양산;배포 규모 1.3GW 초과;외부 AI 기업 개방 검토
장기2029년까지자체 칩으로 10GW(원자력 발전소 약 10기 규모);2028년 차세대, 이후 연간 이터레;학습 칩 확장도 시야

6단계 의사결정 가이드(개발자·기술 책임자용):

01

학습과 추론을 분리합니다: Jalapeño는 추론만 담당합니다. 최첨단 모델 학습은 여전히 NVIDIA GPU——두 단계 연산 계획을 혼동하지 마십시오.

02

50% 수치는 신중히: 벤더 벤치마크로 취급하고, 기술 보고서와 Azure 실운용 후 TCO 모델을 업데이트하십시오.

03

2026년 말 Azure 배포를 추적합니다: Microsoft 최초 가동은 비용 절감이 프로덕션에서 성립하는지의 핵심 검증점입니다.

04

공급 분산 논리를 이해합니다: 추론 부하 20~30%만 자체 ASIC이 있어도 NVIDIA 조달 가격 협상의 근거가 됩니다.

05

브로드컴 ASIC 생태계를 주목합니다: Google TPU, Meta MTIA, OpenAI Jalapeño——커스텀 ASIC은 하이퍼스케일러의 표준입니다.

06

로컬 Agent와 클라우드 추론을 분리합니다: 칩 비용 절감은 주로 API 가격에 영향합니다. Cursor/Codex Agent 파이프라인은 안정 macOS 호스트 24시간 가동이 여전히 필요합니다.

05

경쟁 비교, 업계 영향, 타임라인, 핵심 인물

Jalapeño가 단기간에 NVIDIA를 「대체」할 수는 없습니다. 이유는 세 가지입니다. ①추론만 담당하고 학습은 대상 외;②CUDA 생태계(수백만 개발자·최적화 라이브러리)라는 가장 깊은 해자;③ASIC의 높은 특화——LLM 아키텍처가 근본적으로 바뀌면 적응 비용이 큽니다.

전략적 의미는 「공급 분산과 협상력」입니다. 「NVIDIA를 버린다」가 아니라 「NVIDIA 일변도를 끝낸다」. Quilter Cheviot 글로벌 테크 리서치 책임자 Ben Barringer: 「Nobody wants to be beholden to Nvidia.」

차원NVIDIAJalapeño / OpenAI
학습지배적 위치, CUDA 생태계여전히 NVIDIA 의존(300억 달러 투자로 결속)
추론범용 GPU, 점유율 잠식 가능전용 ASIC, 50% 비용 절감 목표
차세대Vera Rubin 플랫폼2028년 2세대 Jalapeño, 이후 연간 이터레
브로드컴커스텀 ASIC의 강자: Google TPU + Meta MTIA + OpenAI

AI 업계 파급:

1

추론 경제학이 비즈니스 모델을 재편합니다: 프로덕션에서 50%가 검증되면 ChatGPT API 비용이 더 내려가 「AI 가격 전쟁」 하한이 낮아집니다.

2

풀스택 AI 기업이 새 표준입니다: 칩 아키텍처, 커널, 메모리, 네트워크, 스케줄링, 배포까지 설계——경쟁은 「모델 품질」에서 「풀스택 효율」로 이동합니다.

3

반도체 지형 가속 분화: 승자——브로드컴, TSMC, SK하이닉스/삼성(HBM);압박——NVIDIA 추론 점유율, AMD 존재감.

이름직책역할
Greg BrockmanOpenAI 공동창업자·사장공개 발표, 「풀스택 인프라 전략」 위치
Richard HoOpenAI 하드웨어 책임자기술 아키텍처 리드
호크 탄(Hock Tan)브로드컴 CEOBlackwell 동급 성능·50% 비용 절감 공언
Sam AltmanOpenAI CEO전체 전략, 연산 자원 핵심 확보를 과거 공언
Timeline
2025-10  OpenAI와 브로드컴, 커스텀 칩 공동 개발 공식 발표
2026-02  NVIDIA가 OpenAI에 300억 달러 직접 투자(Vera Rubin 연산 협정 포함)
2026-06-24  Jalapeño 공개, 엔지니어링 샘플 랩 가동
2026년 말  초기 상용 배포(Azure 등 파트너 데이터센터)
2027       대규모 양산, 배포 규모 1.3GW 초과
2028(예정)  2세대 칩 발표
2029(목표)  자체 칩으로 10GW 연산 규모

브로드컴 주가는 2026년 상반기 약 18% 상승했습니다. 2022년 말 이후 누적 약 7배——커스텀 ASIC 붐의 직접 수혜자입니다.

현실 점검: 개인 MacBook에서 Cursor + Codex Agent는 덮으면 중단됩니다. Linux 전용 VPS는 Xcode 인접과 macOS Keychain을 갖추지 못합니다. 소형 머신에 Gateway와 로컬 추론을 몰아넣으면 swap 스래싱이 발생합니다. Jalapeño 비용 절감은 클라우드 추론 계층에서 일어납니다——24시간 Agent 오케스트레이션, 안정 MCP 툴체인, OpenAI 칩 프로덕션 이후 코딩 스택 전환이 필요한 프로덕션 환경에서는 KVMNODE 전용 Mac Mini M4 / M4 Pro가 일반적으로 더 적합합니다. 가격, 주문, 고객 센터를 참고하십시오.