
불균형 데이터 다루기 - Resampling Kaggle - Resampling strategies for imbalanced datasets 을 중심으로 정리한 글입니다. Classification에서 불균형 데이터를 다루는 방법을 resampling 에 중점을 두고 under-sampling, over-sampling의 대표적인 것들을 알아보자. 불균형 데이터셋이 뭔데? 불균형 데이터셋은 각 클래스가 가지고 있는 데이터양 차이가 커서 불균형한 데이터셋을 말한다. 대표적인 불균형 데이터셋은 다음과 같다. 금융사기 : 금융사기 데이터셋은 실제 사기 데이터가 1~2%밖에 되지 않는다. 광고 클릭 예측 : 클릭 예측 데이터 세트도 클릭률이 그렇게 높지가 않다. 항공 사고 : 비행기 사고가 발생하는 경우가 별..

로지스틱 회귀와 신경망의 차이 로지스틱 회귀는 히든레이어가 없는 신경망의 특수한 경우라고 볼 수 있다. 로지스틱 회귀는 선형 모델에 주로 사용하는데, 선형모델이 아닌 복잡한 비선형 관계에서는 사용하기 어려울 정도로 퍼포먼스가 나지않는다. 그에 반해 신경망은 히든레이어를 구축하고 점점 더 복잡한 관계를 포착할 수 있기 때문에 퍼포먼스가 더 좋다. 비선형관계에서 Logistic Regression의 decision boundaries. 죽 그어진 선 형태라 위와같이 비선형분포에서 정확도가 떨어질 수 밖에 없다. 비선형관계에서 은닉층을 4개 둔 신경망의 decision boundaries. 참조 Quora: What is the difference between neural network and logisti..