Accelerating ONNX Workloads with AWS Graviton5
Graviton5의 실제 성능 향상 포인트
Hun Jang Dec 9, 2025
최근 공개된 AWS Graviton5는 코어만 늘린 게 아니라 캐시·메모리 대역폭·I/O가 커져서 ONNX 기반 음성·TTS 전처리(예: 멜스펙) 같은 메모리 민감 워크로드 지연을 확 줄일 수 있다.
뭐가 달라졌나
- 최신 M9g(Graviton5) 프리뷰: 그라비톤4 대비 평균 ~25% 컴퓨트 성능 향상, 192코어, L3 캐시 5배(코어당 ~2.6배), 네트워크/스토리지 대역폭 상향. 메모리 속도도 세대 업. (About Amazon)
- AWS는 웹/DB/ML 추론에서 최대 30~35% 속도 향상 사례를 공식 자료로 제시. (Amazon Web Services, Inc.)
왜 ONNX 워크로드에 유리한가
- 멜스펙·Resampler·Conv1D 같은 연산은 L2/L3 히트율과 메모리 대역폭에 민감하다. Graviton5는 큰 L3와 향상된 메모리·네트워크 대역폭으로 캐시 미스 감소→지연 단축에 강점. (The Register)
- ONNX Runtime(ORT)은 ARM 최적화(MLAS, bfloat16 등)를 활용해 ARM 서버에서 이미 유의미한 가속을 보여왔고, 상위 세대 CPU일수록 이점이 커진다. (Amazon Web Services, Inc.)
바로 해볼 미니 벤치 플랜 (재현 쉬움)
- 인스턴스: M9g(프리뷰) vs M8g 각각 동일 vCPU/메모리로 1대씩. (Amazon Web Services, Inc.)
- ORT 빌드/런타임
- 패키지:
onnxruntime최신 +onnxruntime-tools - 실행 옵션:
intra_op_num_threads = <vCPU>/graph_optimization_level = ORT_ENABLE_ALL/arena_extend_strategy = kNextPowerOfTwo(메모리 재할당 최소화). 가이드 참조. (oliviajain.github.io)
- 측정 도구:
onnxruntime_perf_test로 멜스펙(또는 TTS 전처리) 모델과 인퍼런스 파이프라인 측정. (STMicroelectronics)
- 지표: p50/p95 지연, CPU 사용률, 메모리 BW 이벤트( perf /
perf stat -e cache-misses).
- 기대값: 메모리·캐시 히트 개선 덕에 지연 18–25%↓ 구간을 우선 기대(모델·배치에 따라 상이). 공개 수치(그라비톤5 25%+ 및 메모리 서브시스템 개선)와 ORT ARM 최적화 추세를 근거로 한 합리적 목표치다. (About Amazon)
배포 기준선 제안
- 서버/람다 런타임 기본값을 Arm64(Graviton)로 설정하고, x86은 호환성·특수 최적화가 필요한 경우에만 사용. AWS도 가격/성능 기본값으로 Graviton 권장. (Amazon Web Services, Inc.)
- TTS 서버에서 **전처리(멜스펙)와 CPU용 디코더(ORT CPU EP)**는 M9g 풀로, GPU가 필요 없는 경량 음성 합성엔 특히 유리.
참고 링크
- Graviton5·M9g 공식 안내: 성능/캐시/대역폭 수치, 프리뷰 현황. (About Amazon)
- ORT 성능 튜닝 가이드 & ARM 최적화 사례. (oliviajain.github.io)