Char :: LLM - 성능 - 벤치마크

LLM - 성능 - 벤치마크 - τ-bench

07.AI/7. AI 벤치마크 2025. 3. 29. 02:14

τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

(개념) 현실적인 환경에서 도구, 에이전트, 그리고 사용자의 상호작용을 평가하기 위한 새로운 벤치마크를 제안

기존 벤치마크의 한계: 현재의 언어 에이전트 벤치마크는 인간과의 복잡한 상호작용이나 구체적인 도메인 규칙 준수 능력을 효과적으로 평가하지 못하고 있습니다. 실세계 응용 프로그램에서는 에이전트가 사용자와 장시간 교류하고, 세부적인 정책을 따르며 일관성 있고 신뢰할 수 있는 성능을 유지하는 것이 필수적입니다.
τ-bench의 목표: 이 논문은 실시간 대화를 모방하여 도메인별 API와 정책 지침을 통합한 시뮬레이션된 사용자와의 대화를 통해 에이전트의 일관성과 신뢰성을 평가합니다. 이를 통해 최종 데이터베이스 상태와 예상 목표 상태를 비교하며 에이전트의 능력을 테스트합니다.
실험 결과: 고객 서비스 분야(예: 소매 및 항공)에서의 실험에서는 고급 에이전트(GPT-4 등)가 50% 미만의 과제에서 성공적인 결과를 보이며, 시험 사이의 일관성도 부족함을 나타냈습니다. 이는 에이전트가 복잡한 추론 및 규칙 준수 능력을 향상시킬 필요성을 강조합니다.
미래 연구 방향: 데이터 큐레이션의 편견을 다루고, 장기적 정보 추적 및 문맥 집중 방법을 탐구하는 것이 필요합니다. 이렇게 함으로써 실세계 자동화를 발전시키고 인간-에이전트 상호작용을 개선할 수 있습니다.

GitHub - sierra-research/tau-bench: Code and Data for Tau-Bench

Code and Data for Tau-Bench. Contribute to sierra-research/tau-bench development by creating an account on GitHub.

github.com

𝜏-bench

We explore how Sierra’s 𝜏-bench is shaping the development and evaluation of agents.

sierra.ai

728x90

LLM - 성능 - 벤치마크, 케이엠엠엘유-프로(KMMLU-Pro) (1)	2025.07.20
LLM - 성능 - 벤치마크, 빅젠(BIGGEN) 벤치마크 (0)	2025.05.08
LLM - 성능 - 벤치마크, MMMU, GPQA, SWE, HLE (0)	2025.05.08
LLM - 성능 - 벤치마크, MBXP, HumanEval, HumanEval-X (0)	2025.01.21
성과측정 - AI 검증 및 평가 (0)	2024.04.23

Posted by Mr. Slumber