728x90
반응형

[개념] 입력 시퀀스의 각 위치에서, 시퀀스 내의 모든 위치의 요소를 고려하여 이들의 가중합을 계산함으로써, 특정 요소가 다른 요소들과 어떻게 연관되는지를 반영하는 메커니즘

번역할 정보에 self attention 적용

 

attention과 self attention 비교

 

transformer 전체 구조

 

 

  • Self-Attention 메커니즘의 주요 단계(ChatGPT-4o)
  1. Query, Key, Value 벡터 계산: 입력 벡터에서 각각 Query, Key, Value 벡터를 생성합니다. 이 벡터들은 동일한 차원을 가지거나, 다른 차원을 가질 수 있습니다.
  2. 유사도 계산: Query와 Key 벡터 간의 내적(dot product)을 계산하여 유사도를 구합니다. 이 유사도는 해당 Query와 다른 단어(Key) 사이의 연관성을 나타냅니다.
  3. 가중치 할당: 유사도를 기반으로 각 단어에 가중치를 할당합니다. 이 가중치는 소프트맥스(Softmax) 함수를 통해 정규화되어, 전체 가중치의 합이 1이 되도록 합니다.
  4. 가중합 계산: 각 Value 벡터에 가중치를 곱하여, 가중합을 구합니다. 이 가중합이 Self-Attention의 출력이 됩니다.

Self-Attention의 장점은 입력 시퀀스 내의 모든 요소 간의 관계를 동시에 고려할 수 있다는 점입니다. 이로 인해 모델은 문맥 정보를 더 잘 이해할 수 있으며, 특히 문장이 길어질수록 그 효용이 커집니다.

 

 

 

https://ffighting.net/deep-learning-basic/%eb%94%a5%eb%9f%ac%eb%8b%9d-%ed%95%b5%ec%8b%ac-%ea%b0%9c%eb%85%90/attention-and-self-attention-in-deep-learning/

 

Self Attention 설명 : 최소한의 수식과 관련 논문으로 쉽게 이해하기

다양한 일상 생활과 딥러닝의 사례를 통해 Attention의 개념을 설명합니다. 언어 모델과 비전 모델에 적용된 Self Attention의 원리를 최소한의 수식으로 쉽게 이해해봅니다. 파이썬으로 Self Attention을

ffighting.net

 

728x90
Posted by Mr. Slumber
,