728x90
반응형

(개념) 훈련이 완료된 AI/머신러닝 모델이 실제 서비스 환경에서 입력 데이터를 받아 예측 결과를 내놓는 과정에서 발생하는 컴퓨팅 및 인프라 비용

 

Training vs. Inference. Image Credit: NSCALE https://turingpost.co.kr/p/topic-34-ai-inference

 

모델의 추론 (Reasoning) 능력을 극적으로 끌어올려주는, Cerebras의 CePO (Cerebras Planning & Optimization) 프레임웍의 성능. Image Credit: Cerebras

 

 

 

(결정요소)

  • 사용되는 하드웨어(예: GPU, 전용 칩 등)
  • 모델의 크기(파라미터 수)
  • 입력 데이터의 길이(토큰 수)
  • 배치 크기 및 처리량(RPS)
  • 클라우드/온프레미스 인프라 요금
  • API 호출 단가(클라우드 서비스 이용 시)

 

주요 인퍼런스 비용 사례

 

1. 클라우드 인스턴스 기반 비용

 

  • AWS Inferentia(전용 추론 칩):
    • inf1.xlarge 인스턴스: 시간당 $0.23
    • 대조군 GPU(T4): 시간당 $0.53
    • 대조군 GPU(A10): 시간당 $1.01
  • 실험 결과(1000 RPS, RoBERTa-Base 기준, 512 입력 길이, 1300원/$ 환율):
    • Inferentia: 월 약 300만원
    • A10 GPU: 월 약 900만원
    • T4 GPU: 월 약 1600만원

Inferentia를 사용하면 GPU 대비 1.5~5.7배까지 비용을 절감할 수 있었습니다12.

 

2. API 기반 LLM 인퍼런스 비용

 

OpenAI, Google, Anthropic, 네이버 등 주요 LLM API 단가(대한민국 원 기준):

제공사 모델 입력/출력 100만 토큰당 비용
OpenAI GPT-4 Turbo ₩13,711 / ₩41,133
OpenAI GPT-3.5 Turbo ₩2,057 / ₩2,742
Google Gemini Pro 1.5 ₩9,598 / ₩28,794
Anthropic Claude 3 Opus ₩20,567 / ₩102,833
Anthropic Claude 3 Haiku ₩343 / ₩1,714
네이버 HyperCLOVA ₩5,000 / ₩5,000

 

Meta LLaMA 70B (API 기준):

유형 입력/출력 100만 토큰당 비용
128-128 - / ₩3,520
2048-2048 - / ₩8,355

 

시간당 API 비용(128-128 유형):

제공사 모델 시간당 총 비용()
OpenAI GPT-4 Turbo ₩541,771
OpenAI GPT-3.5 Turbo ₩47,405
Anthropic Claude 3 Opus ₩1,218,985
네이버 HyperCLOVA ₩98,602
Meta LLaMA3 70B ₩34,771

 

API를 직접 호출할 때는 입력/출력 토큰 수에 따라 과금되며, 대형 모델일수록 비용이 급격히 증가합니다5.

 

3. 인퍼런스 당 비용 예시(GPT-3 기준)

  • AWS V100 GPU 기준, 1시간 약정가 $1.96, 1시간에 약 18,600번 인퍼런스 가능
  • 인퍼런스 1회당 약 $0.000105(약 0.013원)
  • 1달러로 약 9,490회 인퍼런스 가능(실제 API 마진 포함 시 1달러에 약 790회)6
  •  

인퍼런스 비용 최적화 방안

  • GPU 대신 AI 전용 칩(Inferentia, TPU 등) 사용 시 비용 절감 효과가 큼124
  • 배치 크기 최적화, 모델 경량화, 동적 연산 등으로 효율 개선 가능10
  • 파운데이션 모델 배포 시, SageMaker 등의 서비스에서 비용/지연 시간 최적화 기능 제공9

 

결론

  • 인퍼런스 비용은 사용 환경, 모델 크기, 처리량, 서비스 방식(API/직접 운영)에 따라 크게 달라집니다.
  • GPU 대비 AI 추론 특화 하드웨어를 활용하면 1.5~5배 이상 비용을 줄일 수 있습니다12.
  • LLM API를 사용할 경우, 입력/출력 토큰 수에 따라 과금되며, 대형 모델일수록 비용이 매우 높아집니다5.
  • 서비스 규모와 요구 성능에 맞는 하드웨어/클라우드 선택 및 모델 최적화가 비용 효율화의 핵심입니다.

https://turingpost.co.kr/p/topic-34-ai-inference

728x90
Posted by Mr. Slumber
,