Accelerating ONNX Workloads with AWS Graviton5

Accelerating ONNX Workloads with AWS Graviton5

Graviton5의 실제 성능 향상 포인트

Hun Jang Dec 9, 2025

최근 공개된 AWS Graviton5는 코어만 늘린 게 아니라 캐시·메모리 대역폭·I/O가 커져서 ONNX 기반 음성·TTS 전처리(예: 멜스펙) 같은 메모리 민감 워크로드 지연을 확 줄일 수 있다.

뭐가 달라졌나

최신 M9g(Graviton5) 프리뷰: 그라비톤4 대비 평균 ~25% 컴퓨트 성능 향상, 192코어, L3 캐시 5배(코어당 ~2.6배), 네트워크/스토리지 대역폭 상향. 메모리 속도도 세대 업. (About Amazon)

AWS는 웹/DB/ML 추론에서 최대 30~35% 속도 향상 사례를 공식 자료로 제시. (Amazon Web Services, Inc.)

왜 ONNX 워크로드에 유리한가

멜스펙·Resampler·Conv1D 같은 연산은 L2/L3 히트율과 메모리 대역폭에 민감하다. Graviton5는 큰 L3와 향상된 메모리·네트워크 대역폭으로 캐시 미스 감소→지연 단축에 강점. (The Register)

ONNX Runtime(ORT)은 ARM 최적화(MLAS, bfloat16 등)를 활용해 ARM 서버에서 이미 유의미한 가속을 보여왔고, 상위 세대 CPU일수록 이점이 커진다. (Amazon Web Services, Inc.)

바로 해볼 미니 벤치 플랜 (재현 쉬움)

인스턴스: M9g(프리뷰) vs M8g 각각 동일 vCPU/메모리로 1대씩. (Amazon Web Services, Inc.)

ORT 빌드/런타임

패키지: onnxruntime 최신 + onnxruntime-tools

실행 옵션: intra_op_num_threads = <vCPU> / graph_optimization_level = ORT_ENABLE_ALL / arena_extend_strategy = kNextPowerOfTwo (메모리 재할당 최소화). 가이드 참조. (oliviajain.github.io)

측정 도구: onnxruntime_perf_test로 멜스펙(또는 TTS 전처리) 모델과 인퍼런스 파이프라인 측정. (STMicroelectronics)

지표: p50/p95 지연, CPU 사용률, 메모리 BW 이벤트( perf / perf stat -e cache-misses ).

기대값: 메모리·캐시 히트 개선 덕에 지연 18–25%↓ 구간을 우선 기대(모델·배치에 따라 상이). 공개 수치(그라비톤5 25%+ 및 메모리 서브시스템 개선)와 ORT ARM 최적화 추세를 근거로 한 합리적 목표치다. (About Amazon)

배포 기준선 제안

서버/람다 런타임 기본값을 Arm64(Graviton)로 설정하고, x86은 호환성·특수 최적화가 필요한 경우에만 사용. AWS도 가격/성능 기본값으로 Graviton 권장. (Amazon Web Services, Inc.)

TTS 서버에서 **전처리(멜스펙)와 CPU용 디코더(ORT CPU EP)**는 M9g 풀로, GPU가 필요 없는 경량 음성 합성엔 특히 유리.

참고 링크

Graviton5·M9g 공식 안내: 성능/캐시/대역폭 수치, 프리뷰 현황. (About Amazon)

ORT 성능 튜닝 가이드 & ARM 최적화 사례. (oliviajain.github.io)

CONTENTS

You might also like

Made with BlogPro