생성형 AI - AI Scientist

07.AI 2025. 6. 30. 20:30
728x90
반응형

(개념) Sakana AI, 옥스퍼드 대학, 브리티시 컬럼비아 대학이 협업하여 개발 하고 2024년에 발표한 연구개발 자동화 프레임워크로 과학 연구의 전 과정을 자동화하여 새로운 지식을 발견할 수 있는 인공지능 기술

 

 

(학습방식) 사전 제공된 일반 목차를 기반으로 장별 내용을 생성 하고 웹 검색을 통해 관련 연구를 조사, 선별, 요약하여 1차 초안을 작성한 후 자기 성찰 (self-reflection) 방법을 통해 논문을 검토하면서 중복을 제거하고 내용을 정제하는 과정을 거쳐 최종본을 생성

 

(평가)

- AI 과학자의 성능 평가를 위해 1) 확산 모델링(eiffusion modeling), 트랜스포머 기반 2) 언어 모델링(transformer-based language modeling), 3) 그로킹(grokking)을 주요 주제로 논문을 작성하도록 하였다.

 

- 기술 구현과 실험 수행을 위해 각 분야별로 초기 코드 템플릿을 제공하였다. 논문 품질 평가는 거대언어모델에 NeurIPS 학술대회의 논문 리뷰 지침을 제공하여 리뷰어 에이전트를 구현하고 활용

 

- 수십 편의 연구 자동화 과정을 거쳐 확인한 결과 AI Scientist는 매우 저렴한 비용(논문 당 약 15 달러 미만)으로 무난한 수준의 논문을 다수 생성할 수 있음을 확인

 

 

 

 

1) 확산 모델링(Diffusion Modeling)

확산 모델링(Diffusion Modeling) 에서는 DualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models라는 논문을 생성하여 저차원 생성 모델을 위한 새로운 방법론을 제안했습니다. 이 논문에서는 기존의 확산 모델에서 발생하는 문제점을 해결하기 위해 새로운 적응형 특성 균형 방법을 제시하며, 실험 결과를 통해 이 방법의 효과를 입증하고 있습니다. 이 논문은 AI Scientist가 단순한 반복 작업을 넘어, 기존 연구를 발전시키고 새로운 방법론을 제시할 수 있는 능력을 가지고 있음을 보여줍니다. 전체 논문과 관련 코드는 아래 링크에서 참고해주세요:

2) 언어 모델링(Language Modeling)

언어 모델링(Language Modeling) 에서는 StyleFusion: Adaptive Multi-style Generation in Character-Level Language Models라는 논문을 통해 캐릭터 레벨 언어 모델에서 다중 스타일 생성을 위한 새로운 방법론을 탐구했습니다. 이 논문에서는 Q-러닝을 통한 적응형 학습률 조절 방법을 제안하며, 이를 통해 언어 모델의 성능을 개선할 수 있음을 실험을 통해 입증합니다. AI Scientist는 이러한 논문을 생성함으로써 언어 모델 연구의 발전에 기여하고, 새로운 연구 방향을 제시할 수 있는 잠재력을 보여줍니다. 전체 논문과 관련 코드는 아래 링크에서 참고해주세요:

3) Grokking

Grokking 분야에서는 Unlocking Grokking: A Comparative Study of Weight Initialization Strategies in Transformer Models라는 논문을 생성하여 Transformer 모델에서의 가중치 초기화 전략을 비교 연구했습니다. 이 논문에서는 다양한 가중치 초기화 전략이 Transformer 모델의 성능에 미치는 영향을 분석하며, Grokking 현상을 이해하는 데 중요한 통찰을 제공합니다. AI Scientist가 생성한 이 논문은 Grokking 현상의 기초적인 이해를 돕고, 이를 통해 Transformer 모델의 성능을 최적화할 수 있는 새로운 방법을 제안합니다. 전체 논문과 관련 코드는 아래 링크에서 참고해주세요:

https://arxiv.org/abs/2408.06292

https://sakana.ai/ai-scientist/

728x90
Posted by Mr. Slumber
,