데이터 관리의 필요성 1. ML Research vs ML Production ML에서 다양한 이유에서 데이터 관리의 필요성이 대두되나, 특히 연구와 배포의 괴리 문제 해결을 위해 중요함. 배포 이전 연구 단계에서, Competition 의 경우 지정된 데이터만, Research 의 경우 벤치마크 데이터만 사용하는 경우가 다수인데, 배포 이후 시간의 흐름에 따라 데이터가 변화하면서 모델의 성능은 필연적으로 떨어짐. 2. Data Drift 문제의 발생 이런 문제를 Data Drift 현상이라고 하는데, Train 데이터의 distribution과 Real world 데이터의 distribution이 서로 다르기 때문에 발생. 현실에서는 순간적으로, 지속적으로, 점진적으로, 일시적으로 등 데이터가 변화하므..