Coursera - Hyperparameter Tuning 이제까지 신경망을 학습시킬 때 사용하는 여러 하이퍼파라미터들(레이어, 히든유닛, 학습률 알파, 베타, 미니배치사이즈, 모멘텀파라미터 등등)이 있다. 그럼 이 많은 하이퍼파라미터들 중에 좋은 하이퍼파라미터를 어떻게 찾을 수 있을까? 체계적으로 하이퍼 파라미터를 튜닝할 수 있는 법을 알아보자. 대충 앤드류 응이 생각하는 하이퍼 파라미터 중요도 순위 α (학습률) 모멘텀 β (0.9) 미니배치 사이즈 히든유닛 레이어 학습률 감쇠 머신러닝에서 하이퍼파라미터들을 정하는 법들. 수많은 하이퍼파라미터중에 어떤 하이퍼파라미터가 문제해결에 더 중요한지를 모르기 때문에 무작위로 정해야한다. 은닉유닛수를 정한다고 치면 50부터 100까지의 값들을 수직선상에 세워두고..
Learning Decay (학습률 감쇠) 학습 알고리즘의 속도를 높이는 한가지 방법은 시간에 따라 학습률을 천천히 하는 것이다. 이를 Learning Decay (학습률 감쇠) 라고 부른다. 왜 학습률이 감쇠해야함? 배치를 잘게 자른 미니배치 경사하강법을 사용한다고 생각해보자. 고정된 α (learning_rate) 를 사용할 경우 최솟값에 정확하게 수렴하지 않고 주변을 돌아다니게 된다. α를 줄임으로써 학습 초기 단계에서는 훨씬 큰 스텝으로 진행하다가 학습이 수렴할수록 작은 스텝으로 진행하게 할 수 있다. 이 경우 단계마다 진행 정도가 작아지면서 주변을 돌아다니는 대신에 최솟값 주변에서 밀집하여 진동할 것이다. 구현 1 epoch 는 배치 한번을 통과하는 단위다. α0 는 초기학습률이다. Learni..
Adam (Adaptive Moment Estimation) Momentum 과 RMSProp 을 합친 알고리즘인 Adam 어떻게 작동하는지? # 지수 가중 평균법 : Vt = β*Vt-1 + (1-β)*Θt # Vdw = 0, Sdw = 0, Vdb = 0, Sdb = 0 로 초기화 # 모멘텀을 구현해준다. (RMSProp과 구분하기위해 β1으로 표기) Vdw = β1*Sdw + (1-β1)*dw Vdb = β1*Sdb + (1-β1)*db # RMSProp을 구현해준다. (모멘텀과 구분하기위해 β2으로 표기) Sdw = β2*Sdw + (1-β2)*dw² Sdb = β2*Sdb + (1-β2)*db² # 각각 편향보정을 해준다. V^corrected dw = Vdw / (1-β^t) V^correct..