본문 바로가기
Have Done/Attention

[Attention] Evolution of Attention - Version.2

by 에아오요이가야 2022. 9. 14.

https://pyimagesearch.com/2022/09/05/a-deep-dive-into-transformers-with-tensorflow-and-keras-part-1/

 

 

Version 1과의 차이 딱봐도 softmax -> scaled softmax 밖에 없쥬? 이젠 고수가 된걸지도 모르겠어요

그래도 천천히 설명따라 가봅시다.

 

Version 2에서는 Similarity Function을 계산하기 위해 "Normal Dot Product"를 사용하는 대신에 "Scaled Dot Product"를 사용합니다.

댓글