Transformer 이론¶1. 딥러닝 기반 기계 번역 발전 과정¶ 2021년 기준으로 최신 고성능 몬델들은 Transformer 아키텍처 기반으로 하고 있음 GPT : Transformer의 디코더 아키텍처 활용 BERT : Transformer의 인코더 아키텍처 활용 1.1. 연도순 발전과정¶ RNN (1986) LSTM (1997) : 다양한 시퀀스 정보 모델링 가능 (주가예측, 주기함수 예측 등) Seq2Seq (NIPS 2014) : 딥러닝 기반. 고정된 크기의 context vector를 사용하여 번역 진행. 단, 소스 문장을 고정된 크기의 vector에 압축해야 한다는 점에서 성능 한계가 드러남 Attention (ICLR 2015) : Attention 기법의 등장 Transformer (..