트랜스포머 모델에서 사용하는 Self Attention과 Multi-Head Attention의 개념을 이해하기 위해 우선 Seq2Seq with Attention 모델이 가진 문제점에 대해 이해해야한다. Seq2Seq with Attention의 문제연산의 순차성으로 인한 병렬 처리의 한계Seq2Seq 모델은 RNN 계열의 Encoder-Decoder 구조를 기반으로 하며, RNN의 특성 상 입력 시퀀스를 순차적으로 처리해야한다.이전 time step의 출력이 다음 time step의 입력으로 들어가기 때문에 병렬 처리가 어렵다는 문제가 있다.그래서 긴 시퀀스를 처리할 때 학습 속도가 느려지고, 데이터셋의 규모가 커질 경우 학습 속도가 더욱 느려지게 된다. 장기 의존성 (Long-term Depende..