2. LSTM¶
- 핵심 아이디어 Gate
- Forget gate : 정보를 잊게 만드는 gate
- Input gate : 새로운 정보를 장기기억에 반영하는 역할
- Cell state : forget gate와 input gate를 이용하여 업데이트하는 일종의 장기기억
- output gate : 장기기억과 현재의 데이터를 이용해 단기기억(hidden state) 갱신
전통적 RNN 기반 번역 과정¶
- 전통적 RNN기반 기계 번역은 입력과 출력의 크기가 같다고 가정
- 인코더를 거쳐 context vector(문맥벡터)로 압축하여 추출한 후 디코더가 번역결과를 추론하는 방식을 사용한다.
1.1. Seq2Seq with Attention¶
- Seq2Seq 모델에 어텐션 매커니즘 사용
- 디코더는 인코더의 모든 출력(outputs)을 참고한다
- 디코더는 매번 인코더의 모든 출력 중 어떤 정보가 중요한지를 계산
- 어텐션 가중치를 사용해 각 출력이 어떤 입력 정보를 참고했는지 알 수 있음
2. Transformer¶
- 트랜스포머는 RNN이나 CNN을 전혀 사용하지 않음
- 바로 인코딩을 진행하여 위치정보를 알려주기 때문에, 순서를 알려주는 RNN을 사용할 필요가 없어진다.
- 대신 Positional Encoding을 사용
- BERT와 같은 향상된 네트워크에서도 채택되고 있음
- 인코더와 디코더로 구성되며, Attention 과정을 여러 레이어에서 반복
- 인코더와 디코더를 다수 사용하게 됨
'전문지식 함양 > TIL' 카테고리의 다른 글
[Microsoft Excel] 엑셀 매크로 작성1 (0) | 2023.04.21 |
---|---|
[프로그래머스 겨울방학 인공지능 과정] Transformer 이론 기초 (0) | 2022.02.22 |
[프로그래머스 겨울방학 인공지능 과정] Neural Image Caption 이론 (0) | 2022.02.20 |
[프로그래머스 겨울방학 인공지능 과정] Sequence to Sequence Learning with Neural Networks - 이론 (0) | 2022.02.20 |
[프로그래머스 겨울방학 인공지능 과정] CNN을 활용한 풍경 이미지 분류 실습1 (0) | 2022.02.17 |