Char :: 2025 - AI 엔지니어 독서 목록 (latent.space)

2025 - AI 엔지니어 독서 목록 (latent.space)

13.일상다반사 2025. 1. 20. 12:09

728x90

Hacker News 의견

대부분의 오픈 소스 모델의 지침 미세 조정 방법은 Alpaca에서 비롯됨. Alpaca와 합성 데이터 생성에 관한 논문도 포함되어야 함
AI와 LLM 논문을 읽고 이해하는 데 시간을 낭비하지 말고, ELIZA에 대해 읽고 직접 구축해보는 것이 좋음. 텐서, 벡터, 필드, 언어학, 컴퓨터 아키텍처, 네트워크에 집중해야 함
독서 목록은 약 1년 전의 것임. 2025년에는 KTO, RLOO, DPO와 같은 기술에 집중해야 함. 2025년에는 증류와 최적화에만 집중해야 함. CoT는 새로운 것이 아니며, 수정된 CoT가 핵심임
훌륭한 조사임. 아래의 코스와 결합하면 최고의 결과를 얻을 수 있음
훌륭한 목록임

AI 엔지니어를 위한 50개의 논문, 모델, 블로그를 10개의 분야로 나누어 선정
LLMs, 벤치마크, 프롬프팅, RAG, 에이전트, 코드 생성, 비전, 음성, 확산, 파인튜닝 분야를 포함

섹션 1: 최전선 LLMs

OpenAI 모델
- GPT1 (논문), GPT2 (논문), GPT3 (논문), Codex (논문), InstructGPT (논문), GPT4 (논문)
- GPT3.5 (ChatGPT 소개), 4o (GPT-4o 소개), o1 (o1 프리뷰), o3 (시스템 카드)
Anthropic 및 Google 모델
- Claude 3 (논문), Gemini 1 (논문)
- Claude 3.5 Sonnet (세부정보), Gemini 2.0 Flash (공식 블로그), Flash Thinking (Gemini API 문서), Gemma 2 (논문)
Meta와 관련된 LLaMA 계열
- LLaMA 1 (논문), LLaMA 2 (논문), LLaMA 3 (논문)
- 확장 모델: Mistral 7B (논문), Mixtral (논문), Pixtral (논문)
DeepSeek 모델
- DeepSeek V1 (논문), Coder (논문), MoE (논문), V2 (논문), V3 (깃허브)
Apple Intelligence
- Apple Intelligence (논문) - 모든 Mac 및 iPhone에 포함된 모델
주목할 만한 추가 모델 및 연구
- LLM 모델
  - AI2 계열: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - 기타: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Scaling Laws 연구
  - Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- 최첨단 모델:
  - o1, o3, R1, QwQ, QVQ, f1
- Reasoning 모델 연구:
  - Let’s Verify Step By Step, STaR, Noam Brown의 강연

섹션 2: 벤치마크 및 평가

MMLU
- MMLU (논문): 다분야 지식 벤치마크의 표준
  - 2025년 최첨단 연구는 MMLU Pro (논문), GPQA Diamond (논문), BIG-Bench Hard (논문)를 사용
- GPQA (논문): 질문 생성 및 정답 평가에 중점
- BIG-Bench (논문): 다방면의 문제를 포함한 대규모 벤치마크
MuSR (논문): 긴 문맥 내 평가
- 관련 연구: LongBench (논문), BABILong (논문), RULER (소개)
- 문제 해결: Lost in the Middle (논문), Needle in a Haystack (깃허브)
MATH (논문): 수학 경시대회 문제 모음
- 최첨단 연구는 FrontierMath (논문) 및 고난도 문제에 초점
- 하위 집합: MATH Level 5, AIME, AMC10/AMC12
IFEval (논문): 주요 명령어 이행 평가 벤치마크
- Apple의 공식 채택 (링크)
- 관련 벤치마크: MT-Bench (논문)
ARC AGI (공식 페이지): 추상적 추론과 "IQ 테스트" 벤치마크
- 빠르게 포화되는 다른 벤치마크와 달리 장기적으로 유지
추가 참고 자료
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: 벤치마크에 대한 심층 분석
- LLM 관련 자료: LLM-as-Judge, Applied LLMs
- 데이터셋 리소스: Datasets

섹션 3: 프롬프팅, ICL 및 사고의 연쇄

GPT-3와 In-Context Learning (ICL)
- GPT-3 논문(논문): In-Context Learning (ICL) 개념 소개
- ICL은 프롬프팅과 밀접한 관련이 있으며, 이를 통해 LLM이 문맥 내에서 학습하고 적용 가능
- Prompt Injection: 프롬프트 조작 및 보안 문제 (Lilian Weng의 정리, Simon Willison의 시리즈)
The Prompt Report: 프롬프팅 관련 논문 서베이
- 개요: 프롬프팅 기술의 전반적인 발전과 최신 트렌드 요약 (관련 팟캐스트)
Chain-of-Thought (CoT):
- 단계별 사고 프로세스 모델링
- 관련 연구:
  - Scratchpads (논문)
  - Let’s Think Step By Step (논문)
Tree of Thought:
- Lookahead와 Backtracking 개념 소개
- 복잡한 문제 해결을 위한 효과적인 방법 (관련 팟캐스트)
Prompt Tuning:
- 프롬프트 없이 모델 성능 조정 가능:
  - Prefix-Tuning (논문)
  - Entropy 기반 디코딩 조정 (깃허브)
  - Representation Engineering (블로그)
Automatic Prompt Engineering:
- LLM이 직접 프롬프트를 생성하고 최적화하는 방법
- DSPy 프레임워크 (논문)에서 구현
연구 논문뿐 아니라 실무적인 가이드가 유용:
- Lilian Weng의 Prompt Engineering 블로그
- Eugene Yan의 Prompting 가이드
- Anthropic의 튜토리얼 및 워크숍:
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

섹션 4: RAG (Retrieval-Augmented Generation)

Introduction to Information Retrieval: 정보 검색의 기초를 다루는 고전적인 참고서
- RAG는 정보 검색(IR) 문제로, 60년 이상의 역사를 가진 분야와 밀접한 관련이 있음
- 주요 기술:
  - TF-IDF, BM25: 텍스트 기반 검색
  - FAISS, HNSW: 벡터 검색 및 근접 탐색
Meta RAG (2020년 논문) : RAG 용어 최초 등장
- HyDE (문서)
- Chunking (연구)
- Rerankers (Cohere 블로그)
- 멀티모달 데이터 처리 (YouTube)
MTEB: 임베딩 평가 벤치마크
- 논란과 한계 (관련 토론)
- 임베딩 모델 예시:
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (HuggingFace 블로그)
GraphRAG: Microsoft의 RAG와 지식 그래프 통합
- GraphRAG:
  - 지식 그래프를 RAG 워크플로우에 통합하여 개인 데이터에서 더 나은 결과 제공
  - 오픈소스화 (Microsoft 블로그)
- 관련 연구:
  - ColBERT, ColPali, ColQwen
RAGAS: OpenAI가 추천한 간단한 RAG 평가 방법
- Nvidia FACTS Framework (논문)
- Extrinsic Hallucinations in LLMs (Lilian Weng의 조사)
- Jason Wei의 Recall vs Precision (트윗)
학습 자료와 RAG 실무
- LlamaIndex (문서, 코스)
- LangChain (문서, 튜토리얼 영상)
- RAG vs Long Context Debate:
  - 논문: RAG와 긴 컨텍스트 접근법 비교

섹션 5: 에이전트

SWE-Bench:
- 에이전트 평가를 위한 대표적인 벤치마크 (코딩 중심)
- Anthropic, Devin, OpenAI 등에서 채택되어 높은 주목도
- 관련 자료:
  - SWE-Agent (논문)
  - SWE-Bench Multimodal (논문)
  - Konwinski Prize (웹사이트)
- 비교: WebArena (깃허브), SWE-Gym (관련 트윗)
ReAct:
- 도구 사용 및 함수 호출 LLM 연구의 시발점
- 관련 연구:
  - Gorilla (리더보드)
  - Toolformer (논문)
  - HuggingGPT (논문)
MemGPT:
- 장기 메모리 에뮬레이션 접근 방식
- 주요 활용:
  - ChatGPT의 메모리 및 제어 기능
  - LangGraph의 에피소드 메모리
- 관련 시스템:
  - MetaGPT (논문)
  - AutoGen (논문)
  - Smallville (깃허브)
Voyager:
- Nvidia의 인지 아키텍처 접근:
  - 커리큘럼, 스킬 라이브러리, 샌드박스를 활용한 성능 향상
- 개념 확장:
  - Agent Workflow Memory (논문)
Anthropic의 Building Effective Agents:
- 2024년 에이전트 설계의 핵심 정리
- 주요 주제:
  - 체이닝, 라우팅, 병렬화, 오케스트레이션, 평가, 최적화
- 관련 자료:
  - Lilian Weng의 에이전트 연구
  - Shunyu Yao의 LLM 에이전트 연구
  - Chip Huyen의 2025년 에이전트 개요
추가 학습 자료 및 강의
- 2024년 최신 에이전트 디자인: NeurIPS 정리
- UC Berkeley MOOC: LLM Agents 강의
- 에이전트 정의 논의: 필요 시 이 정의 참조

섹션 6: 코드 생성(CodeGen)

The Stack paper
- The Pile의 코드 중심 오픈 데이터셋 쌍으로 시작
- 후속 작업:
  - The Stack v2: 개선된 데이터셋
  - StarCoder: 최적화된 코드 생성 모델
오픈 코드 모델 논문
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- 많은 이들이 Claude 3.5 Sonnet을 최고의 코드 모델로 평가하지만 공식 논문은 없음
HumanEval/Codex
- 코딩 도메인의 필수 벤치마크 (현재는 포화 상태)
- 현대적 대체 벤치마크:
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - 에이전트 중심 평가로 유명하지만 비용이 많이 들고 모델보다는 에이전트 평가에 초점
AlphaCodeium
- Google의 AlphaCode 및 AlphaCode2 성능 기반
- Flow Engineering을 활용해 기존 모델의 성능을 대폭 향상
CriticGPT
- 코드 생성 시 발생하는 보안 문제 탐지에 초점
  - OpenAI의 CriticGPT는 보안 문제를 식별하도록 학습
  - Anthropic은 SAEs(Safety-relevant Activation Ensembles)를 사용해 문제를 유발하는 LLM 특징 분석 (연구)
산업에서의 코드 생성은 연구에서 실무로 중심 이동:
- Devin과 같은 코드 에이전트 활용 (영상)
- 코드 생성에 대한 실무적 조언 (YouTube)

섹션 7: 비전

Non-LLM 기반 비전 연구
- YOLO:
  - 실시간 객체 탐지 모델로 유명
  - 현재 v11까지 발전 (깃허브)
  - 최근 연구: DETR 기반 트랜스포머 모델이 YOLO를 능가하는 성과를 보임
- 참고: YOLO의 다양한 버전과 발전 계보에 주의 (관련 토론)
CLIP:
- ViT 기반 멀티모달 모델의 성공 사례
- 최신 모델:
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- CLIP은 여전히 중요한 배경 지식
MMVP benchmark:
- CLIP의 한계를 평가
- 멀티모달 버전: MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM):
- 이미지 및 비디오 세그멘테이션의 대표 모델
- 후속 연구: SAM 2 (관련 팟캐스트)
- 보완 모델: GroundingDINO
Early Fusion vs Late Fusion:
- Late Fusion: LLaVA (팟캐스트)
- Early Fusion:
  - Meta의 Flamingo
  - Chameleon
  - Apple의 AIMv2
  - Reka의 Core
- 참고 자료: 멀티모달 비전 연구 흐름
출판되지 않은 최신 작업:
- GPT4V System Card 및 파생 연구 (논문)
- OpenAI 4o:
  - 4o Vision 미세 조정
- 최신 모델:
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - 기타 모델:
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ

섹션 8: 음성

Whisper:
- OpenAI의 성공적인 ASR 모델
- 주요 버전:
  - Whisper v2 (관련 토론)
  - Whisper v3 (관련 토론)
  - Distil-Whisper (깃허브)
  - Whisper v3 Turbo (분석)
- Whisper는 여러 공개 가중치 모델 제공, 하지만 일부 버전은 논문 없음
AudioPaLM:
- Google의 AudioPaLM은 PaLM에서 Gemini로 전환되기 전의 연구
- 참고: Meta의 Llama 3 음성 탐구 (논문)
NaturalSpeech:
- 주요 TTS 연구 중 하나
- 최근 v3 (논문)로 업데이트
Kyutai Moshi:
- 풀-듀플렉스 음성-텍스트 오픈 가중치 모델
- 고품질 데모 (YouTube)
- 참고 모델: Hume OCTAVE (블로그)
OpenAI Realtime API: The Missing Manual:
- OpenAI의 실시간 음성 API에 대한 비공식 문서
- 최신 에이전트 및 실시간 작업에 중요한 도구
대형 연구소 외 다양한 솔루션 추천:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- 참고: State of Voice AI 2024
- NotebookLM 음성 모델:
  - 모델은 공개되지 않았으나, 모델링 프로세스에 대한 심층 설명 제공
Gemini 2.0: 음성과 비전을 자연스럽게 통합한 멀티모달 모델
- 2025년 이후: 음성과 비전 모달리티의 융합이 명확한 경로로 진화 중

섹션 9: 이미지/비디오 확산

Latent Diffusion:
- Stable Diffusion의 핵심 논문
- 확장 버전:
  - SD2 (공식 발표)
  - SDXL 및 SD3
- 현재 팀은 BFL Flux 개발 중
OpenAI DALL-E 시리즈:
- DALL-E, DALL-E-2, DALL-E-3
Google Imagen 시리즈:
- Imagen, Imagen 2, Imagen 3
- 참고: Ideogram
Consistency Models:
- 디퓨전 모델의 증류 작업
- 확장:
  - LCMs
  - 최신 업데이트: sCMs
Sora:
- OpenAI의 텍스트-비디오 변환 도구 (공식 논문 없음)
- 참고:
  - DiT 논문 (같은 저자)
  - OpenSora: 오픈 가중치 기반 경쟁 모델
  - Lilian Weng의 정리
ComfyUI:
- 비전 모델 사용자 인터페이스로 주목받음 (관련 인터뷰)
전문 분야:
- Text Diffusion: 텍스트 기반 디퓨전 모델
- Music Diffusion: 음악 생성 디퓨전
- Autoregressive Image Generation: 자회귀 이미지 생성
Open Weights 경쟁:
- Text-to-Video Arena
최신 동향 이해:
- Stable Diffusion 및 DALL-E 모델 활용
- 텍스트와 비디오 모달리티의 융합 연구

섹션 10: 모델 파인튜닝(Finetuning)

LoRA/QLoRA:
- 저비용 모델 파인튜닝의 표준
- 주요 응용:
  - 로컬 모델 및 OpenAI의 4o에서도 지원 (팟캐스트 확인)
  - FSDP+QLoRA: 교육 자료
DPO:
- OpenAI의 Preference Finetuning에서 지원
- PPO (논문)의 대안으로 인기가 있지만 성능은 다소 낮음
ReFT:
- 기존의 몇몇 레이어를 파인튜닝하는 대신 모델의 특징(feature)에 집중
- 효율적인 파인튜닝 접근법
Orca 3/AgentInstruct:
- 합성 데이터 생성에 적합한 방법
- 관련 연구:
  - NeurIPS의 Synthetic Data Picks
RL 튜닝:
- OpenAI의 **RL Finetuning for o1**는 논란의 여지가 있지만 중요한 자료
- 관련 연구:
  - Let’s Verify Step By Step
  - Noam Brown의 강연
Unsloth 노트북:
- 깃허브에 실습 중심 노트북 제공
HuggingFace 가이드:
- How to fine-tune open LLMs: 파인튜닝 전체 과정에 대한 심층 가이드

AI 엔지니어를 위한 2025년 독서 목록 마무리

이 목록은 방대하고 위압적으로 느껴질 수 있지만, 중간에 포기해도 괜찮음. 중요한 것은 다시 시작하는 것
최신 정보를 유지하기 위해 2025년에도 지속적으로 업데이트될 예정
자신의 학습 방법을 만들어도 좋지만, 1시간 안에 논문 읽는 법을 참고하면 도움이 될 것
독서 및 학습 팁은 여기에서 확인 가능
커뮤니티와 함께 학습하기
- 디스코드 및 텔레그램 그룹:
  - Krispin의 디스코드 그룹: https://app.discuna.com/invite/ai_engineer
  - NYC에서 활동 중인 Fed of Flow AI의 텔레그램 그룹: AI NYC 텔레그램
  - Latent Space 디스코드 커뮤니티 참여: 디스코드 초대 링크
- 노트와 하이라이트 공유:
  - 독자 Niels가 시작한 블로그: 2025 AI Engineer Reading List 노트

2025 AI 엔지니어 독서 목록 | GeekNews

The 2025 AI Engineering Reading List - Latent Space

The 2025 AI Engineering Reading List

We picked 50 paper/models/blogs across 10 fields in AI Eng: LLMs, Benchmarks, Prompting, RAG, Agents, CodeGen, Vision, Voice, Diffusion, Finetuning. If you're starting from scratch, start here.

www.latent.space

728x90

저작자표시 (새창열림)

'13.일상다반사' 카테고리의 다른 글

정말 모든 좋은 소프트웨어는 사랑과 정성으로 만들어진 인디 소프트웨어임. (1)	2025.02.26
인공지능 - AI 스케일링(Scaling) 법칙 (2)	2025.02.18
삼가 고인의 명복을 빕니다 (0)	2024.12.31
전망이론 (1)	2024.12.23
페이퍼클립(paperclip) (1)	2024.12.23

Posted by Mr. Slumber

Char

2025 - AI 엔지니어 독서 목록 (latent.space)

섹션 1: 최전선 LLMs

섹션 2: 벤치마크 및 평가

섹션 3: 프롬프팅, ICL 및 사고의 연쇄

섹션 4: RAG (Retrieval-Augmented Generation)

섹션 5: 에이전트

섹션 6: 코드 생성(CodeGen)

섹션 7: 비전

섹션 8: 음성

섹션 9: 이미지/비디오 확산

섹션 10: 모델 파인튜닝(Finetuning)

AI 엔지니어를 위한 2025년 독서 목록 마무리

'13.일상다반사' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바