사용자의 질문에 대해 깊이 생각하고 답변하기 위해 *'사고의 연쇄(CoT, Chain-of-Thought)' 추론을 사용
'사고의 연쇄(CoT, Chain-of-Thought)' 추론
구분 | Chain of Thought (CoT) | Tree of Thought (ToT) |
개념 | 문제를 단계별로 해결하며 사고를 전개하는 방식 | 사고 과정을 트리 구조로 확장하여 다양한 가능성을 탐색 |
특징 | - 선형적인 사고 전개 - 단계별로 결론 도출 |
- 비선형적 사고 전개 - 여러 경로를 탐색하며 최적의 결론 도출 |
장점 | - 과정이 명확하고 직관적 - 단계별로 논리를 검증 가능 |
- 복잡한 문제 해결 가능 - 유연한 사고 경로 제공 |
적용분야 | - 수학 문제 풀이 - 논리적 추론 - 단계적 설명이 필요한 문제 |
- 창의적 문제 해결 - 다단계 선택지 탐색 - 복잡한 의사결정 |
예시 | - 수학 문제: 계산 과정을 단계별로 기술 | - 퍼즐 문제: 여러 선택지를 시뮬레이션하여 최적 경로 선택 |
제한점 | - 복잡한 문제에서는 한정된 사고 경로만 탐색 | - 계산 비용이 높음 - 결과가 복잡해질 수 있음 |
https://charstring.tistory.com/1491
OpenAI o3의 ARC-AGI-1 평가 결과 요약
평가 기준 | 고효율 모드 (6 샘플) | 저효율 모드 (1024 샘플) |
Semi-Private Eval | 75.70% | 87.50% |
비용 | $20 | 고비용 (172배 연산량 증가) |
시간 (작업당) | 1.3분 | 13.8분 |
Public Eval | 82.80% | 91.50% |
비용 | $17 | 고비용 (연산량 증가) |
o3와 기존 GPT 모델 비교
특징 | GPT 계열 모델 | OpenAI o3 |
작업 처리 방식 | 저장 → 검색 → 적용 | 탐색 → 생성 → 실행 |
적응 능력 | 제한적, 새로운 작업에 약함 | 높은 적응력, 새로운 작업에 유연함 |
사고 과정(Chain of Thought) | 없음 | Monte-Carlo 트리 탐색 유사 |
연산 효율성 | 비용 대비 성능 낮음 | 효율성과 성능의 균형 우수 |
향후 연구 및 협력 계획
항목 | 세부 내용 |
ARC-AGI-2 벤치마크 | 2025년 출시 예정, 기존 평가 형식을 벗어나 새로운 AGI 능력 측정 목표. |
커뮤니티 협력 | o3의 테스트 데이터 및 미해결 과제 공개, GitHub 및 Discord에서 논의 가능. |
효율성 연구 | 비용 대비 성능 최적화, 고효율 오픈소스 솔루션 개발 목표. |
오픈소스화 | AI 연구자들과의 협력을 통한 혁신 가속화. |
주제 | 세부 내용 |
효율성 | - ARC-AGI-TUNED: 많은 컴퓨팅 자원이 필요하다는 것을 암시. |
- 인간이 ARC-AGI 퍼즐을 푸는 비용과 비교해, AI의 현재 연산 비용은 상당히 높음. | |
ARC의 난이도 | - 자연어 패턴 해독이 퍼즐보다 복잡하며, AI가 퍼즐 푸는 데 필요한 데이터 생성은 어려움. |
- 최소한의 추가 훈련으로 블록 패턴의 답을 추론하는 능력은 인상적임. | |
모델 비교 | - o3-mini의 프로그래밍 과제는 비교적 쉬웠음. |
- Claude 3.5 Sonnet은 첫 시도에 성공, 일부 작업에서는 기존 LLM 모델도 충분히 높은 성능을 발휘. | |
Francois Chollet의 ARC | - ARC는 추론 평가의 중요한 지표로, "진정한 추론"을 대표하지 않는다는 비판에도 불구하고 본질적으로 중요한 개념을 다룸. |
o3 성능 | - 인간 성능(85%)과 유사한 87.5%를 기록. |
- 이는 인간 수준의 알고리즘이 가능함을 암시. | |
- AGI 접근이 가까워졌다는 감각을 강화함. | |
o3의 한계 | - 쉬운 작업에서도 간헐적으로 실패. |
- ARC-AGI-2 벤치마크는 여전히 도전이 될 것. | |
경제적 효율성 | - o3 모델의 실행 비용은 높지만, 국가 차원에서는 비경제적일지라도 중요한 발전 가능성을 보여줌. |
- 인간 수준의 AI 제공 시 예상보다 빠른 변화 가능. | |
AGI와 벤치마크의 관계 | - ARC-AGI는 AGI 자체가 아님. |
- 일반 지능은 "진정한 회고적 관점"에서만 식별 가능. | |
- 어떤 벤치마크도 일반 지능과 혼동해서는 안 됨. |
https://www.aitimes.kr/news/articleView.html?idxno=33330
오픈AI, '생각하는 AI' 모델 o3 출시… "인공일반지능(AGI) 시대 앞당긴다!" - 인공지능신문
인공지능 기업 오픈AI(OpenAI)가 내년 초 더욱 강력해진 추론 능력을 갖춘 새로운 AI 모델 \'o3\'를 출시한다. o3는 기존 모델보다 코딩, 수학, 과학 등 다양한 분야에서 복잡한 문제를 해결하는 능력
www.aitimes.kr
https://www.aitimes.com/news/articleView.html?idxno=166425
"o3는 AGI에 도달한 첫번째 모델"...오픈AI, 최첨단 추론 모델 공개 - AI타임스
오픈AI가 \'o1\'의 후속작인 추론 모델 \'o3\'를 공개했다. 이를 \'인공지능(AI)의 새로운 단계\'라며, 인공일반지능(AGI)에 접근한 최초의 모델이라고 주장했다.오픈AI는 20일(현지시간) 12일 발표 이벤
www.aitimes.com
OpenAI O3, ARC-AGI-PUB에서 획기적 높은 점수 달성 | GeekNews
OpenAI O3, ARC-AGI-PUB에서 획기적 높은 점수 달성 | GeekNews
OpenAI의 o3 시스템이 ARC-AGI-1 공개 데이터셋에서 새로운 기록을 세움Semi-Private Evaluation: 고효율 모드에서 75.7% 달성고비용 모드(172배 높은 연산량): 87.5% 기록GPT 계열 모델의 한계를 넘어 새롭고 적
news.hada.io
'07.AI' 카테고리의 다른 글
AI 저널리즘 (3) | 2024.12.24 |
---|---|
AI 저널리즘 - 생성형 AI 저작권 (3) | 2024.12.23 |
인공지능 - 법/규제 - EU, AI 협약 (AI Act) (4) | 2024.12.20 |
생성형 AI - 코파일럿 (Copilot) (6) | 2024.12.20 |
딥러닝 - GAN (Generative Adversarial Network) - 딥페이크(Deepfake) (2) | 2024.12.11 |