임베디드 LLM을 위한 4가지 테스트 전략
1. 소프트웨어 QA 확장을 위한 테스트 데이터 만들기
2. 모델 품질 및 성능 테스트 자동화
3. 사용례를 기반으로 RAG 품질 평가
4. 품질 메트릭 및 벤치마크 개발
1. 소프트웨어 QA 확장을 위한 테스트 데이터 만들기
첫 번째 요구사항은 LLM이 해결해야 할 작업을 이해하는 것
테스트 데이터 집합을 구성해서 LLM 성능에 대한 메트릭을 설정
프롬프트를 최적화하거나 모델을 체계적으로 미세 조정할 수 있다
단위, 기능, 회귀, 성능 테스트가 포함
편향성, 공정성, 안전성, 콘텐츠 제어, 설명 가능성 테스트도 필요하다
2. 모델 품질 및 성능 테스트 자동화
체계적인 테스트를 위한 최첨단 플랫폼은 없다. 신뢰성과 환각 측면에서 지식 그래프 질문 생성 봇이 최선의 솔루션
LM 테스트 라이브러리와 툴
- AI 페어니스 360(AI Fairness 360) : ML 모델의 차별화, 편향성을 검사, 보고, 완화하는 데 사용되는 오픈소스 툴킷
- 딥이밸(DeepEval) : 파이테스트(Pytest)와 비슷한 오픈소스 LLM 평가 프레임워크지만 LLM 출력의 단위 테스트에 특화됨
- 베이스런(Baserun) : 모델의 디버깅, 테스트, 반복적 개선에 도움이 되는 툴
- 엔비디아 니모-가드레일(NeMo-Guardrails) : LLM 출력에 프로그램 가능한 제약 조건을 추가하기 위한 오픈소스 툴킷
LLM 테스트 영역
- 모델 품질 평가 : 분류, 추출, 요약, 생성, RAG(Retrieval-Augmented Generation)과 같은 사용례에 대해 학술 및 내부 데이터 집합을 사용해서 모델 품질을 평가한다.
- 모델 성능 테스트 : 모델의 지연(데이터 전송 경과 시간)과 처리량(특정 시간 동안 처리된 데이터의 양)을 검증한다.
3. 사용례를 기반으로 RAG 품질 평가
LLM 정확도를 개선하기 위한 방법
- 콘텐츠 중앙 집중화하기
- 최신 데이터로 모델 업데이트하기
- 쿼리 파이프라인에 RAG 사용하기 등이 포함된다.
RAG는 LLM의 강력한 기능과 회사의 사유 정보를 결합하는 데 있어 중요하다.
생성형 고객 지원 AI에 사용되는 RAG를 평가하는 방법
- 질의에 대한 올바른 답으로 구성되어 모델 성능의 벤치마크 역할을 할 기준 데이터 집합 또는 사람이 레이블을 지정한 데이터 집합
- 강화 학습, 또는 챗봇과의 상호작용 이후 사용자의 만족도를 묻는 것과 같은 실제 시나리오에서 모델 테스트
- 적대적 네트워크, 또는 보조 LLM을 학습시켜 주 LLM의 성능을 평가. 이는 사람의 피드백에 의존하지 않고 자동화된 평가를 제공함
4. 품질 메트릭 및 벤치마크 개발
구체적이고 측정 가능한 KPI를 만들고 확실한 가드레일을 정립하는 것이 중요
기준은 정확성, 일관성, 속도, 도메인별 사용 사례와의 관련성 등
LLM의 사용례에 따라 다음과 같은 3가지 메트릭을 고려
- F1 점수 : 정밀도와 재현율에 대한 종합 점수로, LLM이 분류 또는 예측에 사용될 때 적용된다. 예를 들어 고객 지원 LLM이 고객에게 일련의 조치를 얼마나 잘 권장하는지를 평가할 수 있다.
- 루즈L(RougeL) : 요약 사용 사례에서 RAG와 LLM을 테스트하는 데 사용할 수 있지만 일반적으로 결과를 벤치마크하기 위해 사람이 만든 요약이 필요하다.
- 세이커블루(sacreBLEU) : 원래 언어 번역을 테스트하는 데 사용되던 방법으로, 현재 TER, ChrF, BERTScore 등의 다른 방법과 함께 LLM 응답의 정량적 평가에 사용된다.
https://www.itworld.co.kr/news/332966
“앱 구축하는 것보다 어렵다” LLM을 테스트하는 4가지 전략
AI 코파일럿을 사용한 수작업 감소, 코드 생성기를 사용한 소프트웨어 개발자 생산성 향상 등 생성형 AI를 통한 혁신에 많은 관심과 기대가 집중
www.itworld.co.kr
'07.AI' 카테고리의 다른 글
통계 - t-분포와 Normal 분포 (0) | 2024.05.14 |
---|---|
통계 - 기술 통계와 추론 통계 (0) | 2024.05.13 |
LLM - 서비스 레벨 목표(SLO) (0) | 2024.05.10 |
2024 - ML/AI/Data 업계 지도와 최신 트렌드 (0) | 2024.05.09 |
인지 - 감성 컴퓨팅 (Affective Computing) (0) | 2024.04.30 |