Attention Is All You Need

필승! 강화도에서 해병대 장교로 국방의 의무를 다하고, 현재는 대학원에서 인공지능을 공부하고 있는 규씨입니다.


단순히 읽고 이해하는 것만으로는 기억에 오래 남지 않는다는 것을 깨닫고, 공부한 내용을 정리하고 공유하면서 더 오래 기억하기 위해 블로그를 시작하게 되었습니다.


읽으시면서 틀리거나 제가 잘못 이해한 부분 지적해 주시면 정말 감사하겠습니다. 함께 배우고 성장하는 공간이 되기를 바랍니다. 감사합니다!


Attention Is All You Need


□ Abstract
RNN이나 CNN을 사용하지 않고, 어텐션 메커니즘만으로 구성된 새로운 네트워크 구조 제안
이 모델은 WMT 2014 영어-독일어 번역, 영어-프랑스어 번역 작업에서 기존 최고 성능을 뛰어넘음
Transformer는 다양한 작업에서 일반화 될 수 있음


□ Transformer architecture
Transformer 모델은 인코더-디코더 구조로 이뤄져있음. 

Encoder
Input Embedding: 각 단어를 고정된 크기의 벡터로 변환
Positional Encoding: 단어의 위치 정보를 추가하여 순서 정보 제공
Encoder Layers: 각 레이어는 두개의 서브레이어로 구성됨
Multi-Head Attention: 입력 시퀀스 내의 모든 단어 쌍 간의 관계 모델링
Feed-Forward Neural Network: 각 위치에서의 비선형 변환 수행
Residual Connection and Layer Normalization: 각 서브 레이어의 출력에 대해 수행

Decoder
Output Embedding: 목표 언어의 단어를 고정된 크기의 벡터로 변환
Positional Encoding: 단어의 위치 정보를 추가하여 순서 정보 제공
Decoder Layers: 각 레이어는 세개의 서브레이어로 구성
Masked Multi-Head Attention: 이전 단어들에 대해서만 어텐션을 수행하여 미래의 단어를 보지 않도록 함
Encoder-Decoder Multi-Head Attention: 인코더의 출력과 디코더의 입력 간의 관계 모델링
Feed-Forward Neural Network: 각 위치에서의 비선형 변환 수행
Residual Connection and Layer Normalization: 각 서브 레이어의 출력에 대해 수행

Final Linear Layer and Softmax
디코더의 출력은 선형 레이어를 거쳐 목표 어휘의 확률 분포로 변환

 

transformer architecture

 

□ Results
Transformer는 여러 기계 번역 작업 및 다양한 NLP 작업에서도 뛰어난 성능을 보임

 


□ Conclusion

RNN, CNN을 사용하지 않고, 어텐션 메커니즘만으로 구성된 Transformer 구조 제안

Transformer는 높은 성능과 병렬 처리가 가능한 효율적인 모델

인코더와 디코더의 내부 구조는 매우 중요하기 때문에, 이에 대한 세부 내용은 별도로 다루겠습니다.


Reference:

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. arXiv. https://doi.org/10.48550/arXiv.1706.03762