728x90
반응형
(개념) 훈련이 완료된 AI/머신러닝 모델이 실제 서비스 환경에서 입력 데이터를 받아 예측 결과를 내놓는 과정에서 발생하는 컴퓨팅 및 인프라 비용
(결정요소)
- 사용되는 하드웨어(예: GPU, 전용 칩 등)
- 모델의 크기(파라미터 수)
- 입력 데이터의 길이(토큰 수)
- 배치 크기 및 처리량(RPS)
- 클라우드/온프레미스 인프라 요금
- API 호출 단가(클라우드 서비스 이용 시)
주요 인퍼런스 비용 사례
1. 클라우드 인스턴스 기반 비용
- AWS Inferentia(전용 추론 칩):
- inf1.xlarge 인스턴스: 시간당 $0.23
- 대조군 GPU(T4): 시간당 $0.53
- 대조군 GPU(A10): 시간당 $1.01
- 실험 결과(1000 RPS, RoBERTa-Base 기준, 512 입력 길이, 1300원/$ 환율):
- Inferentia: 월 약 300만원
- A10 GPU: 월 약 900만원
- T4 GPU: 월 약 1600만원
Inferentia를 사용하면 GPU 대비 1.5~5.7배까지 비용을 절감할 수 있었습니다12.
2. API 기반 LLM 인퍼런스 비용
OpenAI, Google, Anthropic, 네이버 등 주요 LLM API 단가(대한민국 원 기준):
제공사 | 모델 | 입력/출력 100만 토큰당 비용 |
OpenAI | GPT-4 Turbo | ₩13,711 / ₩41,133 |
OpenAI | GPT-3.5 Turbo | ₩2,057 / ₩2,742 |
Gemini Pro 1.5 | ₩9,598 / ₩28,794 | |
Anthropic | Claude 3 Opus | ₩20,567 / ₩102,833 |
Anthropic | Claude 3 Haiku | ₩343 / ₩1,714 |
네이버 | HyperCLOVA | ₩5,000 / ₩5,000 |
Meta LLaMA 70B (API 기준):
유형 | 입력/출력 100만 토큰당 비용 |
128-128 | - / ₩3,520 |
2048-2048 | - / ₩8,355 |
시간당 API 비용(128-128 유형):
제공사 | 모델 | 시간당 총 비용(원) |
OpenAI | GPT-4 Turbo | ₩541,771 |
OpenAI | GPT-3.5 Turbo | ₩47,405 |
Anthropic | Claude 3 Opus | ₩1,218,985 |
네이버 | HyperCLOVA | ₩98,602 |
Meta | LLaMA3 70B | ₩34,771 |
API를 직접 호출할 때는 입력/출력 토큰 수에 따라 과금되며, 대형 모델일수록 비용이 급격히 증가합니다5.
3. 인퍼런스 당 비용 예시(GPT-3 기준)
- AWS V100 GPU 기준, 1시간 약정가 $1.96, 1시간에 약 18,600번 인퍼런스 가능
- 인퍼런스 1회당 약 $0.000105(약 0.013원)
- 1달러로 약 9,490회 인퍼런스 가능(실제 API 마진 포함 시 1달러에 약 790회)6
인퍼런스 비용 최적화 방안
- GPU 대신 AI 전용 칩(Inferentia, TPU 등) 사용 시 비용 절감 효과가 큼124
- 배치 크기 최적화, 모델 경량화, 동적 연산 등으로 효율 개선 가능10
- 파운데이션 모델 배포 시, SageMaker 등의 서비스에서 비용/지연 시간 최적화 기능 제공9
결론
728x90
'07.AI' 카테고리의 다른 글
LLM - 성능 - 모델 최적화 - '테스트 타임 스케일링(test-time scaling)' 기법 (0) | 2025.05.16 |
---|---|
LLM - 검색 증강 생성 (RAG, Retrieval-augmented generation) (3) | 2025.05.16 |
인공지능 - 인공지능 에이전트 (Agent) - 에이전틱 AI (Agentic AI) (1) | 2025.05.16 |
LLM - 성능 - 최적화 - 배치 (Batch) (0) | 2025.05.16 |
LLM - 성능 - 벤치마크, 빅젠(BIGGEN) 벤치마크 (0) | 2025.05.08 |