Attention Is All You Need

논문 개요

이 논문은 Transformer라는 새로운 시퀀스 변환 아키텍처를 제안합니다. 기존 RNN/CNN 기반 모델을 완전히 배제하고 오직 어텐션 메커니즘만으로 구성되어 있어요.

기존 시퀀스 모델(RNN, LSTM, GRU)은 순차적으로 처리해야 하므로 병렬화가 어려웠습니다. 이는 긴 시퀀스에서 학습 속도와 long-range dependency 문제를 야기했어요.

순차 처리라는 본질 때문에:

Scaled Dot-Product Attention과 Multi-Head Attention을 통해 시퀀스 내 모든 위치 간의 관계를 한 번에 계산합니다. Positional Encoding으로 순서 정보를 주입하고요.

핵심 수식:

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

이 논문은 NLP 패러다임을 완전히 바꿔버린 작품. 이후 BERT, GPT 시리즈가 모두 이 아키텍처를 기반으로 만들어졌어요. 안 읽고 NLP 한다는 건 사실상 불가능.