본문 바로가기
Multi-modal learning 1. Over of multi-modal learning(다중 감각) Challenge (1) - Different representations between modalities (2) - Unbalance between heterogeneous feature spaces - 1:N matching가능성 (3) - May a model be biased on a specific modality Desipite the challenges, multi-modal learning is fruitful and important Matching : 서로 다른 데이터 타입을 공통된 space로 match Translating : 하나의 데이터타입을 다른 데이터 타입으로 translate Referencing : 서.. 2023. 12. 7.
Circumstances Dominance "Under similar circumstances is more powerful than personality." This concept made me reflect on the importance of having the right skills and knowledge to tackle various situations in life. I used to believe that one's personality traits were the most defining aspect of an indiviual. While personality is undoubtedly essential, I now understand that it's not enough on its own. It's under challen.. 2023. 12. 7.
cGAN(conditional generative model) what is cGAN? Translating an image given "condition" \(P(X|condition)\) condition을 따르는 확률분포를 학습하는 것 Generative model vs Conditional generative model - Generative model generates a random sample - Conditional generative model generates a random smaple under the given "condition" Example of conditional generative model \(P\)(high resolution audio|low resolution audio\()\), \(P(\) English sentence|.. 2023. 12. 7.
Generative Model Basic 2 Maximum Likelihood Learning - parameter가 주어졌을 때 데이터가 얼마나 likely 한지(뭐랑?), 이를 높이는 방향으로 학습함 - 뭘 Metric으로 삼을까? -> KL-divergence - minimizing KL-divergence Maximizing the expected log-likelihood - empirical log-likelihood is approximation of expected log-likelihood? - ERM(empirical risk minimization)을 보통 사용하지만 overfitting 문제를 갖고 있음 *jensen-shannon divegence(GAN), Wasserstein distance(WAE, AAE)등이 metr.. 2023. 12. 5.
Generative model Basic 1 \( P(x)\)를 학습한다 : input x에 대한 확률분포를 학습한다 Suppose that we are given images of dogs we want to learn a probability distribution \(p(x)\) such that - Generation : If we sample \(\tilde x ~ p(x), \tilde x \) should look like a dog - Density estimation : \(p(x)\) shoud be high if x looks like a dog, and low otherwise. - This is also known as explicit models. - Then, how can we represent \( p(x)\)? 기본.. 2023. 12. 5.
Conditional Generative model Translating an image given "condition" We can explicitly generate an image corresponding to a given "condition" Generative model vs Conditional generative model - Generative model generates a random sample - conditional generative model generates a random sample under the give "condition" 2023. 12. 5.
Landmark localization Landmark localization - 예시(facial landmark localization & Human pose estimation) Predicting the coordinate of keypoints 1. Coordinate regression : Usually inaccurate and biased 2. heatmap classification : better performance but high computational cost Hourglass network stacked hourglass modules allow for repeated bottom-up and top-down inference that refines the output of the previous hourglass .. 2023. 12. 5.
Segmentations(Instance & Panoptic) Semantic segmentation(stuff + things) = pixel-wise classification object detection Instance Segmentation = Semantic segmentation + distinguishing instances two-stage Mask R-CNN = Faster R-CNN + Mask branch RoIAlign single-stage YOLACT(You Only Look At CoefficienTs) - real-time 연산은 어려움 mask는 아니지만 mask처럼 쓰이는 component인 prototypes(재료)를 구하여 span 하여(선형결합) mask를 만들고자 함 YolactEdge - (Yolact의 key 부분만 가져.. 2023. 12. 5.
CNN visualization Image - Low level feature map - mid level - high level -> output inference Image Filter visualization(first conv layer) Activation visualization(first conv layer) Model을 이해하기 위한 노력 vs data를 분석하기 위한 노력 Analysis of model behaviors - NN(Nearest Neighbors) search in feature space 모델자체의 연산 분석 High level 해석 - 보통 FC layer를 잘라서 feature map을 보는식으로 진행 - backbone에서 나온 결과를 해석하기위해서 Dimentionality reduction 연.. 2023. 12. 5.
Object detection TASKS Image Segmentic segmentation instance segmentation (같은 클래스끼리 객체의 구분이 가능하냐) panoptic segmentation (instace segmentaion + alpha) Object Detection = classification + Box localization (label :(P_class, x_min, y_min, x_max, y_max) 꼴) 무인차 응용사례, OCR 등 object detection의 역사 - image의 경계(gradient)를 근사하는 접근(SVM) - selective search : box proposal(candidate object) 1) over-segmentation : 일단 색깔 전체를 나눔 2).. 2023. 12. 5.
Week5 Going deeper GoogLeNet -> inception module : width 확장-> 1x1 convolution layer로 연산량 줄임 : bottleneck layer 1x1 convolution 이란? 이미지의 모든 채널에 대한 특정 픽셀 (x,y)에 1x1 kernel을 내적하여 계산 m개의 kernel을 사용한다면 output 채널이 m개 생성됨 -> 공간의 특성은 유지한채 channel수만 줄여줌 ResNet Network의 depth를 쌓기 어려웠던게 overfitting이 아니고 degradation problem 이더라 Residual function에 대한 아이디어 (skip connection) 신호의 덧셈 DensNet dense connection(상위 layer에.. 2023. 12. 4.
On Going/Deep Learning[Paper Review] ConvNeXt - A ConvNet for the 2020s (4/n) ConvNet : Other tasks 1. object detection and segmentation on COCO도 잘하고 2. Semantic segmentation on ADE20K 도 잘하고 3. model efficiency도 낫다 In addition, Hybrid model = CNN + self attention이 연구되고 있다. Prior to ViT, the focus was on augmenting a ConvNet with self-attention/non-local modules [8, 55, 66, 79] to capture long-range dependencies The original ViT [20] first studied a hybrid configuration, and a large body of fol.. 2023. 12. 4.
[Paper Review] ConvNeXt - A ConvNet for the 2020s (3/n) ConvNet : Evaluations on classification ConvNeXtT/S/B/L, to be of similar complexities to Swin-T/S/B/L. ConvNeXt-T/B is the end product of the “modernizing” procedure on ResNet-50/200 regime, respectively. In addition, we build a larger ConvNeXt-XL to further test the scalability of ConvNeXt. The variants only differ in the number of channels C, and the number of blocks B in each stage 1. settings ImageNet-22K(21841개의 class, 14M개의 이미지.. 2023. 11. 28.
[Paper Review] ConvNeXt - A ConvNet for the 2020s (2/n) ConvNet : a Roadmap Starting Point is a ResNet-50 model을 Vision transformer가 학습하는 방식으로 학습시켰더니 performance가 더 좋았다. Deisign Decision (network modernization : CNN의 현대화) 1. Macro design 2. ResNeXt 3. Inverted bottleneck 4. Large kernel size 5. various layer-wise micro design Training Techniques 0. train a baseline model(resnet 50/200) with the vision transformer training procedure ~ DeiT와 Swin Trnasfomer에서 소개된 것들과 유사한 .. 2023. 11. 27.
[Paper Review] ConvNeXt - A ConvNet for the 2020s (1/n) Introduction In this work, we reexamine the design spaces and test the limits of what a pure ConvNet can achieve. We gradually “modernize” a standard ResNet toward the design of a vision Transformer, and discover several key components that contribute to the performance difference along the way. 대표적인 inductive bias 1. sliding-window manner = is intrinsic to visual processing, particularly when working with h.. 2023. 11. 27.
Week4 정리 Transfer Learning 1. FC Layer만 update하는 방법 (주로 데이터가 적을때) 2. Cov Layer의 learning rate는 낮게하고, FC layer는 learning rate를 높게 함(주로 데이터가 충분히 있을때) Knowledge distillation  모델압축에 유용하게 사용됨, pretrained된 모델의 inference를 unlabed data의 pseudo-label로써 사용하는 방법 1. Unsupervised Version (label이 없는 데이터를 학습) 같은 input에 대해 Teacher Model, Student Model의 출력값을 통해 Student Model만을 학습시킴 2. Supervised Version (label이 있는 데이터를.. 2023. 11. 27.
기술 아무리 빠르다 빠르다 한들 이렇게 빠를줄 상상이나 했겠냐고 공부를 다시 하다보니 매우 당연한 얘기지만 내가 공들여 3개월에서 6개월동안 쌓아온 지식이 5년이 지난 현재시점에서 10시간 만에 정리되는 내용이라니 exponent한 발전 속도를 따라잡으려면 일단 그래프를 향해 뛰어야 되고 계속 메달려있기위해 고군분투해야된다고 생각하고 말해왔지만 행동하지 않았던 지난날의 과오가 약간 아쉽다 그래도 뭐 재미는 있었으니까~ 앞으로 잘하자 성실하게 매일 밀어내자 2023. 11. 22.
Week3 주간 정리 Bagging vs Boosting Bagging(Bootstrap Aggregating)과 Boosting은 앙상블 학습(Ensemble Learning) 기법으로, 다수의 기본 모델을 결합하여 더 강력한 예측 모델을 생성하는 데 사용됩니다. 그러나 두 기법은 다음과 같이 다릅니다: Bagging (Bootstrap Aggregating): Bagging은 다수의 독립적인 기본 모델을 병렬로 훈련한 다음, 이들의 예측을 결합하여 최종 예측을 생성 각 기본 모델은 학습데이터에서 무작위로 중복을 허용하여 bootstrap sample을 생성하고, 이 부트스트랩 샘플을 사용하여 모델을 훈련 Bagging은 모델의 variance를 줄이고 overfitting을 방지 Boosting Boosting은 weak.. 2023. 11. 20.
Week2 주간 학습 정리 정리 PyTorch project flow 모든 구성에 대해 꼼꼼히 알자! 1. install environment 2. Data Loader 3. define model architecture, loss function, optimizer 4. Train model with multi gpu through DDP 5. monitoring model performance with Wandb 6. trouble shooting 7. hyperparameter tuning Tensor, Parameter, Buffer의 개념차이도 처음 알게 됐고 솔직히 따로따로의 필요성을 아직 체감하지 못했기 때문에 완전히 이해하진 못했지만 그래도 좀 신기했다 hook을 걸어서 중간 layer에서 gradient를 확인 하.. 2023. 11. 17.
Week 1 주간 학습정리 Python의 기본적인 개념과 언어의 특징을 공부했다. 기본적인 package들을 공부했다 pandas는 참 내용이 진짜 진짜 어이없이 많다. 많이 알고 있으면 활용이 더 쉽겠지 동료들도 좋고.. 아 그리고 정규식에 대해 처음으로 알게됐다. 문자 전처리등에 잘 쓰일 수 있을 것 같다. 프로젝트가 기대된다 2023. 11. 10.