기본 콘텐츠로 건너뛰기

추천 가젯

딥러닝 데이터간의 correlation이 왜 크면 안 되는가?

 DQN논문이나 A3C 논문을 보면 Neural Network를 학습시킬 때, 학습되는 데이터의 분포가 깨지는 것 그리고 일반화되지 않는 문제를 해결하기 위해 여러 방법론을 제시하는 것을 볼 수 있었다. 그렇다면, 자연스럽게 왜 학습되는 데이터간의 독립이 왜 중요한지, correlation이 크면 안 되는가? 를 궁금해할 수 있다. 그래야만 한다. 그냥 자연스럽게 군더더기 없이 내용을 정리해본 것을 공유해본다. 딥러닝 데이터간의 correlation이 왜 크면 안 되는가? 딥러닝·머신러닝 이론의 핵심 전제인 (iid assumption)과 일반화(generalizatoin)을 위해서임 i.i.d.가 머신러닝에서 중요한 이유 머신러닝은 훈련 데이터와 테스트 데이터가 동일한 분포 내에서 독립적으로 샘플링되었다는 가정 하에 수행됨 이는, 머신러닝 자체가 i.i.d.를 직접적으로 가정하고 있음을 알고 있음 i.i.d.가 깨지게 되면 학습데이터의 성능이 크게 저하된다. 일반화 / 교차검증 / 오차추정 / 통계적 신뢰도 모든 문제가 i.i.d. 가정 위에 존재함. 데이터 간 correlation이 클 때의 문제 학습왜곡 데이터 간 상관관계가 크다는 것은 데이터 내에 중복되는 데이터가 내재적으로 계속 존재한다는 것을 의미함 데이터 중복 즉, 데이터 간 상관관계가 학습을 왜곡되게 만든다. 조금 더 의미론적으로 접근하면 특정 분포내에서 샘플링된 데이터로부터 분포를 추정한다고 칠 때, 더욱 일반화된 데이터가 부족하게 되고 새로운 패턴 혹은 그 분포를 학습할 수 없게 만든다. overfitting 증가 i.i.d.가 아닐 경우 샘플링된 전체 패턴 혹은 분포를 학습하지 못하고 non i.i.d.인 데이터로만 학습하면 분포에 대해서만 과적합될 수 있음 학습 데이터 다양성 감소 / 노이즈 패턴까지 학습되어버림 / test 성능 급락 Distribution Shift 문제 어떤 Non i.i.d. 데이터의 패턴을 학습하게 되면서 특정 패턴에 편향되...

최근 글

[논문리딩] DQN : Playing Atari with Deep Reinforcement Learning