Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

필승! 강화도에서 해병대 장교로 국방의 의무를 다하고, 현재는 대학원에서 인공지능을 공부하고 있는 규씨입니다.


단순히 읽고 이해하는 것만으로는 기억에 오래 남지 않는다는 것을 깨닫고, 공부한 내용을 정리하고 공유하면서 더 오래 기억하기 위해 블로그를 시작하게 되었습니다.


읽으시면서 틀리거나 제가 잘못 이해한 부분 지적해 주시면 정말 감사하겠습니다.  함께 배우고 성장하는 공간이 되기를 바랍니다. 감사합니다!


Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

 

 

  Abstract
매개변수에 지식을 저장하고, 하위 NLP 작업에서 파인튜닝을 통해 SOTA 달성한 대규모 사전 학습된 언어 모델은 지식을 접근하고 정밀하게 조작하는 능력이 제한되며, 지식 집약적인 작업에서의 성능은 작업별 아키텍처에 비해 뒤떨어짐

사전 학습된 매개변수와 비매개변수 메모리를 결합하여 언어 생성에 사용되는 RAG(Retrieval-Augmented Generation) 모델 소개

이 모델은 사전 학습된 seq2seq 모델과 밀집 벡터 인덱스를 결합하여 다양한 NLP 작업에서 우수한 성능을 보임임

 


  RAG
RAG 모델은 입력 시퀀스 x를 사용하여 텍스트 문서 z를 검색하고, 이를 추가 컨텍스트로 사용하여 목표 시퀀스 y 생성

 

Retriever: 입력 x에 대한 텍스트 구문 z의 분포를 반환, 문서 인코더와 쿼리 인코더로 구성된 DPR을 사용하여 입력 x에 대해 상위 K개의 문서 검색

Generator: 입력 x, z 및 이전 토큰 y1을 기반으로 현재 토큰 yi 생성. 학습된 seq2seq 트랜스포머 BART를 사용하여 입력 x와 검색된 콘텐츠 z를 결합하여 출력 생성

overview of RAG

 


  Results
RAG 모델은 여러 지식 집약적인 NLP 작업에서 SOTA 달성

Open Natural Questions, WebQuestions, CuratedTrec에서 우수한 성능을 보임, TriviaQA에서도 최근 접근 방식을 능가

MS-MARCO 및 Jeopardy 질문 생성 작업에서 RAG 모델은 BART보다 더 사실적이고 구체적이며 다양한 응답 생성

 


  Conclusion
RAG 모델은 매개변수와 비매개변수 메모리를 결합하여 지식 집약적인 NLP 작업에서 우수한 성능을 보임
비매개변수 메모리 교체를 통해 모델의 지식을 업데이트할 수 있음


Reference: 

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., ... & Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. arXiv. https://doi.org/10.48550/arXiv.2005.11401