Going deeper
GoogLeNet -> inception module : width 확장-> 1x1 convolution layer로 연산량 줄임 : bottleneck layer
1x1 convolution 이란?
이미지의 모든 채널에 대한 특정 픽셀 (x,y)에 1x1 kernel을 내적하여 계산 m개의 kernel을 사용한다면 output 채널이 m개 생성됨
-> 공간의 특성은 유지한채 channel수만 줄여줌
ResNet
Network의 depth를 쌓기 어려웠던게 overfitting이 아니고 degradation problem 이더라
Residual function에 대한 아이디어 (skip connection) 신호의 덧셈
DensNet
dense connection(상위 layer에서도 하위 layer의 특징을 참고를 한다) 신호의 concatenate (feature의 정보를 그대로 보존함)
근데 뭐.. EfficientNet이 image classification은 지금까지 알려진거중에 가장 성능이 압도적이다.
deformable convolution
deformable(irregular)한 image(예, 사람이나 동물의 팔다리 움직임에 따른 차이)를 분석하기 위해 필요한 분석연산이 필요하지 않을까?
- 기존의 convolution이 따로 있고 2d offset map을 추정하기위한 branch가 따로 결합이 돼있다.
- offset field를 생성한뒤 그에 따라서 weight kernel들을 이동시킨뒤 연산을 해서 하나의 feature pixel을 얻는다
Pose estimation같은거 할때는 반드시 deformable convolution을 사용해야겠구나
기본적으로 Image-level classification이 있고
Image-level classification + Regression => object detection
pixel - level classification => semantic segmentation
Semantic Segmentation -> pixel단위의 segmentation
영상속의 물체의 mask를 생성함 - 같은 class의 서로다른 물체는 구별하지 못함(instance segmentation과 다른점)
FCN (Fully convolutional networks) 첫번째 end-to-end architecture for semantic segmentation
테스트 이미지의 size와 무관하게 inference가 가능하게된 첫 모델
Fully connected vs Fully convolutional
1. Fully connected
-> 공간정보의 상실
-> Flattening
2. Fully convolutional
-> 입력과 출력 모두 activation map(Fully convolutional layer by 1x1 convolutions)
-> 결과로 나온 activation map이 연산상 downsampling밖에 안되기 때문에 inference결과가 input이미지의 size와 같도록 하기 위해 upsampling을 진행함
-> Transposed convolution (일부 부분에서 이미지 해석이 애매함)
-> interpolation followed by convolution 학습 가능한 interpolation을 적용하고자 한 시도
Hypercolumns for object segmentation (end-to-end는 아님)
U-Net이 semantic segmentation이 breakthrough가 됐음
Concatenation of feature maps provides localized information
공간적으로 높은 해상도와 입력이 약간 바뀌는것만으로도 민감한 정보를 제공하기 때문에 뒤쪽layer에 바로 전달하는 중요한 역할을 한다???
Contracting path 와 Expanding path로 나뉨
Contracting path
-> 일반적인 conv part : downsampling에 집중 resolution을 낮추고 채널을 올림
Expanding path
-> upsampling part 채널 낮추고 resolution올림
DeepLab
CRFs(Conditional Random Fields)
Dilated convolution(Atrous convolution - 연산량 줄이기 위함)
'Have Done > BoostCamp' 카테고리의 다른 글
Object Detection! (1) | 2024.01.03 |
---|---|
streamlit (0) | 2023.12.29 |
Week4 정리 (1) | 2023.11.27 |
Week3 주간 정리 (0) | 2023.11.20 |
Week2 주간 학습 정리 (0) | 2023.11.17 |
댓글