[Attention] Evolution of Attention

Version 1과의 차이 딱봐도 softmax -> scaled softmax 밖에 없쥬? 이젠 고수가 된걸지도 모르겠어요

그래도 천천히 설명따라 가봅시다.

Version 2에서는 Similarity Function을 계산하기 위해 "Normal Dot Product"를 사용하는 대신에 "Scaled Dot Product"를 사용합니다.

[ViTs] Going deep with Image Transformers - LayerScale(2/4) (0)	2022.10.27
[ViTs] Going deep with Image Transformers (1/4) (0)	2022.10.27
[Attention] Evolution of Attention - Version_0,1 (0)	2022.09.13
[Attention] Intro + Transformer Architecture (0)	2022.09.13
[Attention] attention 뭐 들어도 모르겠는 제대로 공부좀 하자 (0)	2022.07.05

Problem Solver