딥러닝

기울기 소실 문제와 ResNet

cj92 2021. 5. 25. 20:32

기울기 소실 문제(Gradient Vanishing Problem)

 

학습과정에서 출력값과 멀어질수록 학습이 잘 안되는 현상

 

레이어가 깊어질수록 미분 많아지므로 오차역전파(Backpropagation)를 진행해도

 

앞의 레이어일수록 미분값이 작아져 그만큼 출력값(Output)에 영향을 미치는 가중치가 작아지는 현상

 

기울기 소실문제의 해결 방안으로 그라디언트 클래핑, 다양한 활성화함수(swish, mish) 등이 제시

 

ResNet

 

기존 딥러닝 알고리즘은 y=H(x)를 찾는 과정이였다면, 

 

ResNet은 H(x)-y를 최소화 하는 방향으로 진행하며, 

 

기울기 소실 문제를 해결하기 위해서 F(x)+x=H(x)로 하고, F(x)=0이 되게 학습을 진행

 

F(x)+x의 미분값은 F'(x)+1이므로 모든 층에서 적어도 1이상의 gradient를 가지게 됨