[비전공자도 이해하는 트랜스포머] 3. Multi-Head Attention

필승! 강화도에서 해병대 장교로 국방의 의무를 다하고, 현재는 대학원에서 인공지능을 공부하고 있는 규씨입니다.


단순히 읽고 이해하는 것만으로는 기억에 오래 남지 않는다는 것을 깨닫고, 공부한 내용을 정리하고 공유하면서 더 오래 기억하기 위해 블로그를 시작하게 되었습니다.


읽으시면서 틀리거나 제가 잘못 이해한 부분 지적해 주시면 정말 감사하겠습니다. 함께 배우고 성장하는 공간이 되기를 바랍니다. 감사합니다!


트랜스포머의 전체적인 구조가 궁금하신 분은 아래 링크를 참고하시면 되겠습니다.

2024.06.07 - [논문 리뷰] - Attention Is All You Need

 

Attention Is All You Need

필승! 강화도에서 해병대 장교로 국방의 의무를 다하고,현재는 대학원에서 인공지능을 공부하고 있는 규씨입니다.단순히 읽고 이해하는 것만으로는 기억에 오래 남지 않는다는 것을 깨닫고,공

acting-rationally.tistory.com

 

추가로 전에 작성했던 글도 참고하시면 도움이 될것 같습니다.

 

1. Scaled Dot-Product Attention

2024.06.08 - [딥러닝] - [비전공자도 이해하는 트랜스포머] 1. Scaled Dot-Product Attention

 

[비전공자도 이해하는 트랜스포머] 1. Scaled Dot-Product Attention

필승! 강화도에서 해병대 장교로 국방의 의무를 다하고, 현재는 대학원에서 인공지능을 공부하고 있는 규씨입니다.단순히 읽고 이해하는 것만으로는 기억에 오래 남지 않는다는 것을 깨닫고,

acting-rationally.tistory.com

 

2. Self-Attention

2024.06.09 - [딥러닝] - [비전공자도 이해하는 트랜스포머] 2. Self-Attention

 

[비전공자도 이해하는 트랜스포머] 2. Self-Attention

필승! 강화도에서 해병대 장교로 국방의 의무를 다하고, 현재는 대학원에서 인공지능을 공부하고 있는 규씨입니다.단순히 읽고 이해하는 것만으로는 기억에 오래 남지 않는다는 것을 깨닫고,

acting-rationally.tistory.com


□ 멀티헤드 어텐션(Multi-Head Attention)

멀티헤드어텐션의 기본 아이디어는 입력 데이터를 여러 다른 방식으로 동시에 처리하고, 각 처리 결과를 결합하는 것입니다. 그림을 보면 'I am a student'라는 문장이 입력으로 들어와 있고, 이 문장이 먼저 세 개의 가중치 행렬 WQ, , 을 사용하여 쿼리, 키, 밸류로 변환하고, 어텐션을 병렬적으로 계산합니다

 

Multi-Head Attention
각 헤드는 입력 데이터를 다른 방식으로 다른 가중치 세트를 사용하여 처리하며, 이렇게 하여 다양한 관점에서 정보를 추출합니다. 각 헤드가 생성한 어텐션 출력은 결합(concatenate)되어 더 풍부한 표현을 제공합니다. 

 

예를들어 하나의 Scaled Dot-Product Attention은 문장에서 주요 동사에 주목합니다. 동시에 다른 헤드는 주요명사, 또 다른 헤드는 문맥적 연결 등을 주목합니다. 이러한 다양한 포인트들이 합쳐져서 문장 전체의 의미를 더 잘 이해하고 번역하거나 요약하는데 기여합니다.

 

 

 왜 멀티헤드어텐션을 사용하는가?

멀티헤드어텐션 헤드가 독립적으로 정보를 처리하고 결과를 통합함으로써, 복잡한 언어 이해 과정에서 트랜스포머 모델의 성능을 크게 향상시키는 핵심 기능입니다. 메커니즘 덕분에 트랜스포머는 다양한 언어 처리 작업에서 뛰어난 결과를 보여줍니다.


지금까지 Multi-Head Attention 대해 알아보았습니다. 궁금한 점이나 잘못된 부분이 있다면 언제든지 댓글로 알려주세요함께 배우고 성장하는 공간이 되기를 바랍니다읽어주셔서 감사합니다!