Forward from: 벨루가의 주식 헤엄치기
241223_NVDA: Revisiting GPU vs. Custom ASIC Debate - CITI
(1) 최근 ASIC 칩 메이커인 Broadcom[$1tn, 29x], Marvell Technology[$99bn, 40x]의 호실적은 "GPU vs. ASIC"이라는 오래된 논쟁을 다시 재점화 시킴
(2) CITI에서는 두 제품은 '공존'하면서 성장할 것으로 판단
(3) NVDA ~ GPU의 경우 CUDA를 통해 다양한 워크로드에 대해 S/W 재프로그래밍이 가능하다는 점이 가장 큰 장점
*GPU+CUDA: 만능 맥가이버. 다양한 작업에 맞게 설정하고 사용할 수 있는 유연한 플랫폼
**ASIC: 드라이버 or 망치처럼, 특정 작업만 처리할 수 있는 도구
(4) GPU&ASIC의 '28년 TAM을 $380bn으로 추정하며, 여기서 1) GPU는 $285bn(75%), 2) ASIC은 $95bn(25%)를 차지할 것으로 전망
(5) '28년까지 ASIC의 출하량 비중은 35%를 차지할 것으로 추정하지만, AI GPU의 더 높은 ASP에 따라 매출액 기준으로는 25% 수준일 것
(6) 최근 공급망 채널 체크에 따르면, NVIDIA의 TSMC CoWoS CAPA 점유율은 '24년 56% → '25년 60%로 증가할 것으로 체크 됨
*NVIDIA > Broadcom > AMD 순으로 재편
(7) Figure 1. GPU vs. Custom ASIC Major Difference
■ 설계 주기: 매년 vs. 2~3년
■ 워크 로드: 외부 고객 vs. 내부 고객[최적화]
■ 학습&추론: 학습&추론 모두 가능 vs. 대부분 추론 워크로드에 사용되며, 일부만 학습
■ 단가: $20~30K vs. $5K
■ 성능: 4,500 TFLOPs vs. 1,852TFLOPs(TPU v6 - Trillium)
■ TDP: 1,000W(B200) vs. 200~400W
■ HBM Memory: 8,000GB/sec(Blackwell) vs. 800~1,600GB/sec
■ IP: 100% 상업용으로 누구나 사용 가능 vs. ASIC 공급자가 20~60%를 소유하며
■ Software: 누구나 재프로그래밍이 가능해 유연성이 높음 vs. 새로운 워크로드에 대한 재프로그래밍이 불가능하며 특정 목적에만 사용
(8) Figure 2. '28년 AI Infrastructure TAM $500bn - CITI
■ GPU/ASIC(incl. HBM) $380bn(76%)
■ CPU $5bn(1%)
■ DRAM(non-HBM) $15bn(3%)
■ Networking $90bn(18%)
■ Other(incl. NAND) $10bn(2%)
(1) 최근 ASIC 칩 메이커인 Broadcom[$1tn, 29x], Marvell Technology[$99bn, 40x]의 호실적은 "GPU vs. ASIC"이라는 오래된 논쟁을 다시 재점화 시킴
(2) CITI에서는 두 제품은 '공존'하면서 성장할 것으로 판단
(3) NVDA ~ GPU의 경우 CUDA를 통해 다양한 워크로드에 대해 S/W 재프로그래밍이 가능하다는 점이 가장 큰 장점
*GPU+CUDA: 만능 맥가이버. 다양한 작업에 맞게 설정하고 사용할 수 있는 유연한 플랫폼
**ASIC: 드라이버 or 망치처럼, 특정 작업만 처리할 수 있는 도구
(4) GPU&ASIC의 '28년 TAM을 $380bn으로 추정하며, 여기서 1) GPU는 $285bn(75%), 2) ASIC은 $95bn(25%)를 차지할 것으로 전망
(5) '28년까지 ASIC의 출하량 비중은 35%를 차지할 것으로 추정하지만, AI GPU의 더 높은 ASP에 따라 매출액 기준으로는 25% 수준일 것
(6) 최근 공급망 채널 체크에 따르면, NVIDIA의 TSMC CoWoS CAPA 점유율은 '24년 56% → '25년 60%로 증가할 것으로 체크 됨
*NVIDIA > Broadcom > AMD 순으로 재편
(7) Figure 1. GPU vs. Custom ASIC Major Difference
■ 설계 주기: 매년 vs. 2~3년
■ 워크 로드: 외부 고객 vs. 내부 고객[최적화]
■ 학습&추론: 학습&추론 모두 가능 vs. 대부분 추론 워크로드에 사용되며, 일부만 학습
■ 단가: $20~30K vs. $5K
■ 성능: 4,500 TFLOPs vs. 1,852TFLOPs(TPU v6 - Trillium)
■ TDP: 1,000W(B200) vs. 200~400W
■ HBM Memory: 8,000GB/sec(Blackwell) vs. 800~1,600GB/sec
■ IP: 100% 상업용으로 누구나 사용 가능 vs. ASIC 공급자가 20~60%를 소유하며
■ Software: 누구나 재프로그래밍이 가능해 유연성이 높음 vs. 새로운 워크로드에 대한 재프로그래밍이 불가능하며 특정 목적에만 사용
(8) Figure 2. '28년 AI Infrastructure TAM $500bn - CITI
■ GPU/ASIC(incl. HBM) $380bn(76%)
■ CPU $5bn(1%)
■ DRAM(non-HBM) $15bn(3%)
■ Networking $90bn(18%)
■ Other(incl. NAND) $10bn(2%)