본문 바로가기
Have Done/BoostCamp

Week5

by 에아오요이가야 2023. 12. 4.

Going deeper

 

GoogLeNet -> inception module : width 확장-> 1x1 convolution layer로 연산량 줄임 : bottleneck layer

 

1x1 convolution 이란?

이미지의 모든 채널에 대한 특정 픽셀 (x,y)에 1x1 kernel을 내적하여 계산 m개의 kernel을 사용한다면 output 채널이 m개 생성됨 

-> 공간의 특성은 유지한채 channel수만 줄여줌

 

ResNet 

Network의 depth를 쌓기 어려웠던게 overfitting이 아니고 degradation problem 이더라

Residual function에 대한 아이디어 (skip connection) 신호의 덧셈

 

DensNet

dense connection(상위 layer에서도 하위 layer의 특징을 참고를 한다)  신호의 concatenate (feature의 정보를 그대로 보존함)

 

근데 뭐.. EfficientNet이 image classification은 지금까지 알려진거중에 가장 성능이 압도적이다.

 

deformable convolution

deformable(irregular)한 image(예, 사람이나 동물의 팔다리 움직임에 따른 차이)를 분석하기 위해 필요한 분석연산이 필요하지 않을까?

- 기존의 convolution이 따로 있고 2d offset map을 추정하기위한 branch가 따로 결합이 돼있다.

- offset field를 생성한뒤 그에 따라서 weight kernel들을 이동시킨뒤 연산을 해서 하나의 feature pixel을 얻는다

 

Pose estimation같은거 할때는 반드시 deformable convolution을 사용해야겠구나

 

 

기본적으로 Image-level classification이 있고

Image-level classification + Regression => object detection

pixel - level classification => semantic segmentation

 

 

Semantic Segmentation -> pixel단위의 segmentation

영상속의 물체의 mask를 생성함 - 같은 class의 서로다른 물체는 구별하지 못함(instance segmentation과 다른점)

 

FCN (Fully convolutional networks) 첫번째 end-to-end architecture for semantic segmentation

테스트 이미지의 size와 무관하게 inference가 가능하게된 첫 모델

 

Fully connected vs Fully convolutional

1. Fully connected

  -> 공간정보의 상실

  -> Flattening

2. Fully convolutional

  -> 입력과 출력 모두 activation map(Fully convolutional layer by 1x1 convolutions)

  -> 결과로 나온 activation map이 연산상 downsampling밖에 안되기 때문에 inference결과가 input이미지의 size와 같도록 하기 위해 upsampling을 진행함

  -> Transposed convolution (일부 부분에서 이미지 해석이 애매함)

  -> interpolation followed by convolution 학습 가능한 interpolation을 적용하고자 한 시도

 

Hypercolumns for object segmentation (end-to-end는 아님)

 

U-Net이 semantic segmentation이 breakthrough가 됐음

Concatenation of feature maps provides localized information

공간적으로 높은 해상도와 입력이 약간 바뀌는것만으로도 민감한 정보를 제공하기 때문에 뒤쪽layer에 바로 전달하는 중요한 역할을 한다???

 

Contracting path 와 Expanding path로 나뉨

Contracting path 

-> 일반적인 conv part : downsampling에 집중 resolution을 낮추고 채널을 올림

Expanding path

-> upsampling part 채널 낮추고 resolution올림

 

DeepLab

CRFs(Conditional Random Fields)

Dilated convolution(Atrous convolution - 연산량 줄이기 위함)

'Have Done > BoostCamp' 카테고리의 다른 글

Object Detection!  (1) 2024.01.03
streamlit  (0) 2023.12.29
Week4 정리  (1) 2023.11.27
Week3 주간 정리  (0) 2023.11.20
Week2 주간 학습 정리  (0) 2023.11.17

댓글