728x90
반응형
1.
1_1. 모델의 Loss를 0으로 만드는 가중치 행렬은 유일하지 않다. W가 Loss를 0으로 만든다면, 2W도 Loss를 0으로 만든다.
1_2. Loss를 0으로 만들기 위한 Optimization을 할 때, Gradient Descent 방법을 주로 사용한다. Random Search는 연산량이 너무 많아 사용하지 않는다.
1_3. 손실함수 (Loss Function)에 L2 Regularization term을 추가하면, 손실(Loss)을 낮추면서도 가능한 작은 가중치 행렬을 찾을 수 있는 weight decay 효과가 있다.
728x90
반응형
'개념공부 > AI, 머신러닝 등' 카테고리의 다른 글
[논문 리뷰] Vector Net: Encoding HD maps and agent dynamics from vectorized representation (0) | 2022.11.06 |
---|---|
[논문 리뷰] Safetynet: Safe planning for real-world self-driving vehicles using machine-learned policies (0) | 2022.11.03 |
[CS231n ] Lecture 2. Image Classification 정리 (0) | 2020.10.06 |
Training Neural Networks (0) | 2020.09.10 |
Anaconda 1 < 가상 환경 생성, 삭제, 실행> (0) | 2020.09.04 |