Week2 주간 학습 정리

정리 PyTorch project flow 모든 구성에 대해 꼼꼼히 알자!

1. install environment

2. Data Loader

3. define model architecture, loss function, optimizer

4. Train model with multi gpu through DDP

5. monitoring model performance with Wandb

6. trouble shooting

7. hyperparameter tuning

Tensor, Parameter, Buffer의 개념차이도 처음 알게 됐고 솔직히 따로따로의 필요성을 아직 체감하지 못했기 때문에 완전히 이해하진 못했지만 그래도 좀 신기했다

hook을 걸어서 중간 layer에서 gradient를 확인 하는 방법도 처음 알았고..

optimizer.step -> weight update

optimizer.zero_grad -> weight initialize

GPU resource가 부족할때 batch처럼 작동하도록 하는 Gradient Accumulation기법을 이용할 수 있다.

Multi GPU를 사용하여 모델을 학습한 경우 단일 GPU로 state_dict가 안 되는 줄 알았는데

map_location을 이용해서 해결할수 있다.

그리고 Ray가 그냥 병렬처리 툴인줄만 알았는데, pytorch의 multi node, multi gpu해결용 툴이란 걸 알게 됐다

Problem Solver