728x90
반응형
[개념] 입력 시퀀스의 각 위치에서, 시퀀스 내의 모든 위치의 요소를 고려하여 이들의 가중합을 계산함으로써, 특정 요소가 다른 요소들과 어떻게 연관되는지를 반영하는 메커니즘
- Self-Attention 메커니즘의 주요 단계(ChatGPT-4o)
- Query, Key, Value 벡터 계산: 입력 벡터에서 각각 Query, Key, Value 벡터를 생성합니다. 이 벡터들은 동일한 차원을 가지거나, 다른 차원을 가질 수 있습니다.
- 유사도 계산: Query와 Key 벡터 간의 내적(dot product)을 계산하여 유사도를 구합니다. 이 유사도는 해당 Query와 다른 단어(Key) 사이의 연관성을 나타냅니다.
- 가중치 할당: 유사도를 기반으로 각 단어에 가중치를 할당합니다. 이 가중치는 소프트맥스(Softmax) 함수를 통해 정규화되어, 전체 가중치의 합이 1이 되도록 합니다.
- 가중합 계산: 각 Value 벡터에 가중치를 곱하여, 가중합을 구합니다. 이 가중합이 Self-Attention의 출력이 됩니다.
Self-Attention의 장점은 입력 시퀀스 내의 모든 요소 간의 관계를 동시에 고려할 수 있다는 점입니다. 이로 인해 모델은 문맥 정보를 더 잘 이해할 수 있으며, 특히 문장이 길어질수록 그 효용이 커집니다.
728x90
'07.AI' 카테고리의 다른 글
생성형 AI (7) | 2024.09.11 |
---|---|
LLM - 멀티모달 AI (1) | 2024.09.10 |
생성 모델 - 이미지 - 디퓨전 모델(Diffusion models) (0) | 2024.09.03 |
인공지능 - 법/규제 - EU, AI 시스템 규정(Regulation (EU) 2024/1689) (3) | 2024.09.03 |
인공지능 - 표준화 전략 (0) | 2024.08.30 |