(개념) Sakana AI, 옥스퍼드 대학, 브리티시 컬럼비아 대학이 협업하여 개발 하고 2024년에 발표한 연구개발 자동화 프레임워크로 과학 연구의 전 과정을 자동화하여 새로운 지식을 발견할 수 있는 인공지능 기술
(학습방식) 사전 제공된 일반 목차를 기반으로 장별 내용을 생성 하고 웹 검색을 통해 관련 연구를 조사, 선별, 요약하여 1차 초안을 작성한 후 자기 성찰 (self-reflection) 방법을 통해 논문을 검토하면서 중복을 제거하고 내용을 정제하는 과정을 거쳐 최종본을 생성
(평가)
- AI 과학자의 성능 평가를 위해 1) 확산 모델링(eiffusion modeling), 트랜스포머 기반 2) 언어 모델링(transformer-based language modeling), 3) 그로킹(grokking)을 주요 주제로 논문을 작성하도록 하였다.
- 기술 구현과 실험 수행을 위해 각 분야별로 초기 코드 템플릿을 제공하였다. 논문 품질 평가는 거대언어모델에 NeurIPS 학술대회의 논문 리뷰 지침을 제공하여 리뷰어 에이전트를 구현하고 활용
- 수십 편의 연구 자동화 과정을 거쳐 확인한 결과 AI Scientist는 매우 저렴한 비용(논문 당 약 15 달러 미만)으로 무난한 수준의 논문을 다수 생성할 수 있음을 확인
1) 확산 모델링(Diffusion Modeling)
확산 모델링(Diffusion Modeling) 에서는 DualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models라는 논문을 생성하여 저차원 생성 모델을 위한 새로운 방법론을 제안했습니다. 이 논문에서는 기존의 확산 모델에서 발생하는 문제점을 해결하기 위해 새로운 적응형 특성 균형 방법을 제시하며, 실험 결과를 통해 이 방법의 효과를 입증하고 있습니다. 이 논문은 AI Scientist가 단순한 반복 작업을 넘어, 기존 연구를 발전시키고 새로운 방법론을 제시할 수 있는 능력을 가지고 있음을 보여줍니다. 전체 논문과 관련 코드는 아래 링크에서 참고해주세요:
논문 PDF: https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf
코드 저장소: AI-Scientist/example_papers/adaptive_dual_scale_denoising at main · SakanaAI/AI-Scientist · GitHub
2) 언어 모델링(Language Modeling)
언어 모델링(Language Modeling) 에서는 StyleFusion: Adaptive Multi-style Generation in Character-Level Language Models라는 논문을 통해 캐릭터 레벨 언어 모델에서 다중 스타일 생성을 위한 새로운 방법론을 탐구했습니다. 이 논문에서는 Q-러닝을 통한 적응형 학습률 조절 방법을 제안하며, 이를 통해 언어 모델의 성능을 개선할 수 있음을 실험을 통해 입증합니다. AI Scientist는 이러한 논문을 생성함으로써 언어 모델 연구의 발전에 기여하고, 새로운 연구 방향을 제시할 수 있는 잠재력을 보여줍니다. 전체 논문과 관련 코드는 아래 링크에서 참고해주세요:
논문 PDF: https://sakana.ai/assets/ai-scientist/multi_style_adapter.pdf
코드 저장소: AI-Scientist/example_papers/multi_style_adapter at main · SakanaAI/AI-Scientist · GitHub
3) Grokking
Grokking 분야에서는 Unlocking Grokking: A Comparative Study of Weight Initialization Strategies in Transformer Models라는 논문을 생성하여 Transformer 모델에서의 가중치 초기화 전략을 비교 연구했습니다. 이 논문에서는 다양한 가중치 초기화 전략이 Transformer 모델의 성능에 미치는 영향을 분석하며, Grokking 현상을 이해하는 데 중요한 통찰을 제공합니다. AI Scientist가 생성한 이 논문은 Grokking 현상의 기초적인 이해를 돕고, 이를 통해 Transformer 모델의 성능을 최적화할 수 있는 새로운 방법을 제안합니다. 전체 논문과 관련 코드는 아래 링크에서 참고해주세요:
논문 PDF: https://sakana.ai/assets/ai-scientist/weight_initialization_grokking.pdf
코드 저장소: AI-Scientist/example_papers/layerwise_lr_grokking at main · SakanaAI/AI-Scientist · GitHub
'07.AI' 카테고리의 다른 글
생성형 AI - ResearchAgent (0) | 2025.06.30 |
---|---|
인공지능 - MoE (Mixture-of-Experts; 전문가 혼합) 기법 (1) | 2025.06.19 |
LLM - 알리바바, 제로서치(ZeroSearch) (2) | 2025.06.15 |
LLM - 성능 - 모델 경량화 (0) | 2025.06.15 |
인공지능 - 온디바이스 AI (5) | 2025.06.15 |