τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains
(https://arxiv.org/abs/2406.12045)
(개념) 현실적인 환경에서 도구, 에이전트, 그리고 사용자의 상호작용을 평가하기 위한 새로운 벤치마크를 제안
- 기존 벤치마크의 한계: 현재의 언어 에이전트 벤치마크는 인간과의 복잡한 상호작용이나 구체적인 도메인 규칙 준수 능력을 효과적으로 평가하지 못하고 있습니다. 실세계 응용 프로그램에서는 에이전트가 사용자와 장시간 교류하고, 세부적인 정책을 따르며 일관성 있고 신뢰할 수 있는 성능을 유지하는 것이 필수적입니다.
- τ-bench의 목표: 이 논문은 실시간 대화를 모방하여 도메인별 API와 정책 지침을 통합한 시뮬레이션된 사용자와의 대화를 통해 에이전트의 일관성과 신뢰성을 평가합니다. 이를 통해 최종 데이터베이스 상태와 예상 목표 상태를 비교하며 에이전트의 능력을 테스트합니다.
- 실험 결과: 고객 서비스 분야(예: 소매 및 항공)에서의 실험에서는 고급 에이전트(GPT-4 등)가 50% 미만의 과제에서 성공적인 결과를 보이며, 시험 사이의 일관성도 부족함을 나타냈습니다. 이는 에이전트가 복잡한 추론 및 규칙 준수 능력을 향상시킬 필요성을 강조합니다.
- 미래 연구 방향: 데이터 큐레이션의 편견을 다루고, 장기적 정보 추적 및 문맥 집중 방법을 탐구하는 것이 필요합니다. 이렇게 함으로써 실세계 자동화를 발전시키고 인간-에이전트 상호작용을 개선할 수 있습니다.
https://github.com/sierra-research/tau-bench
GitHub - sierra-research/tau-bench: Code and Data for Tau-Bench
Code and Data for Tau-Bench. Contribute to sierra-research/tau-bench development by creating an account on GitHub.
github.com
https://sierra.ai/blog/tau-bench-shaping-development-evaluation-agents
𝜏-bench
We explore how Sierra’s 𝜏-bench is shaping the development and evaluation of agents.
sierra.ai
'07.AI' 카테고리의 다른 글
머신러닝 - 강화학습 (0) | 2025.03.24 |
---|---|
생성형 AI - 미스트랄 AI - 미스트랄 스몰 3.1 (0) | 2025.03.24 |
AI 저널리즘 - 생성형 AI 저작권 - 2025 인공지능-저작권 제도개선 협의체 (0) | 2025.03.23 |
생성형 AI - Microsoft VASA (0) | 2025.03.23 |
생성형 AI - Tango2 (0) | 2025.03.23 |