https://pyimagesearch.com/2022/09/05/a-deep-dive-into-transformers-with-tensorflow-and-keras-part-1/
Version 1과의 차이 딱봐도 softmax -> scaled softmax 밖에 없쥬? 이젠 고수가 된걸지도 모르겠어요
그래도 천천히 설명따라 가봅시다.
Version 2에서는 Similarity Function을 계산하기 위해 "Normal Dot Product"를 사용하는 대신에 "Scaled Dot Product"를 사용합니다.
'Have Done > Attention' 카테고리의 다른 글
[ViTs] Going deep with Image Transformers - LayerScale(2/4) (0) | 2022.10.27 |
---|---|
[ViTs] Going deep with Image Transformers (1/4) (0) | 2022.10.27 |
[Attention] Evolution of Attention - Version_0,1 (0) | 2022.09.13 |
[Attention] Intro + Transformer Architecture (0) | 2022.09.13 |
[Attention] attention 뭐 들어도 모르겠는 제대로 공부좀 하자 (0) | 2022.07.05 |
댓글