Seq2Seq Model

Untitled

원리

Seq2Seq 모델은 문장을 순서대로 처리한다.

다음과 같이 Encoder과 Decoder라는 두 개의 모듈로 구성된다.

입력 문장의 모든 단어들을 순차적으로 Encoder에 넣으면 Encoder에서 모든 단어 정보를 압축해서 하나의 Hidden vector을 만들고 이를 Context vector이라고 한다.

입력문장의 모든 정보가 담긴 하나의 Context vector를 디코더로 전송한다.

디코더는 해당 Context를 받아서 번역된 단어로 순차적으로 출력하게 된다.

Untitled

각각의 Encoder Architecture와 Decoder Architecture의 내부는 RNN과 같은 순환 신경망 모델로 구성 되어 있다.

보통 LSTM/GRU를 많이 쓴다.

Encoder에서의 마지막 셀의 Hidden state의 Vector을 Decoder에 넘겨주고 이 Vector을 Context Vector이라고 한다.