▶ OOM OutOfMemory, 학습을 시키다보면 적지않게 마주치는 에러이다. 이 에러를 보면 배치 사이즈를 줄이거나 캐시를 비우는 방식으로 처리했었는데 그 이외의 방법들(?)도 알게되어 포스팅으로 정리해보려한다. ▷ GPUtil 활용하기 - iter마다 메모리가 늘어나는지 확인할 수 있는 모듈이다. - nvidia-smi처럼 GPU 상태를 보여주는 모듈이다. 다만 nvidia-smi는 현재시점의 스냅샷을 보여줄 순 있지만 iteration이 돌아가며 쌓이는 메모리는 보여줄 수 없다. 반면 GPU util은 이를 보여줄 수 있다. - nvidia smi output 예시 아래와 같이 특정 timestamp에 해당하는 gpu의 상태를 확인할 수 있다. - GPUtil 예시 아래와 같이 GPU ID, 사용..