머신러닝 연구에서 개념 드리프트는 항상 까다로운 문제였습니다. 이는 시간이 지남에 따라 데이터 분포가 변경되어 모델의 효율성이 영향을 받는 것을 의미합니다. 이러한 상황으로 인해 연구자들은 새로운 데이터 분포에 적응하기 위해 모델을 지속적으로 조정해야 합니다. 개념 표류 문제를 해결하는 열쇠는 적시에 데이터 변화를 감지하고 적응할 수 있는 알고리즘을 개발하는 것입니다. 분명한 예는 CLEAR 비정상 학습 벤치마크의 이미지 디스플레이로, 이는 데이터의 중요한 변화를 보여줍니다. 지난 10년간 사물의 시각적 특성이 변했습니다.
이 현상을 "느린 개념 표류"라고 하며 객체 분류 모델에 심각한 문제를 제기합니다. 시간이 지남에 따라 물체의 모양이나 속성이 변하기 때문에 모델이 이러한 변화에 적응하고 계속해서 정확하게 분류할 수 있는지 확인하는 것이 연구의 초점이 됩니다.
최근 이러한 과제에 직면한 Google AI 연구팀은 거대하고 변화하는 데이터 중심 성능에서 모델을 성공적으로 개선한 MUSCATEL(Multi-Scale Temporal Learning)이라는 최적화 기반 방법을 제안했습니다. 이번 연구 결과는 AAAI2024에 게재됐다.
논문 주소: https://arxiv.org/abs/2212.05908
현재 확률 드리프트의 주류 방법은 온라인 학습과 연속 학습(온라인 및 계속 학습)입니다.
이 방법의 주요 개념은 모델의 효율성을 보장하기 위해 최신 데이터에 적응하도록 모델을 지속적으로 업데이트하는 것입니다. 그러나 이 접근 방식은 두 가지 주요 과제에 직면해 있습니다.
이러한 방법은 최신 데이터에만 초점을 맞추고 과거 데이터에 포함된 귀중한 정보를 무시하는 경우가 많습니다. 또한 그들은 모든 데이터 인스턴스의 기여도가 시간이 지남에 따라 균일하게 감소한다고 가정하는데, 이는 현실과 일치하지 않습니다.
MUSCATEL 방법은 이러한 문제를 효과적으로 해결할 수 있으며 학습 인스턴스에 중요도 점수를 할당하고 향후 인스턴스에서 모델 성능을 최적화합니다.
이를 위해 연구진은 인스턴스와 해당 연령을 결합하여 점수를 생성하는 보조 모델을 도입했습니다. 보조 모델과 주 모델은 두 가지 핵심 문제를 해결하기 위해 협력하여 학습합니다.
이 방법은 실제 응용 분야에서 탁월한 성능을 발휘했으며, 3,900만 장의 사진을 대상으로 9년 동안 지속된 대규모 실제 데이터 세트 실험에서 다른 정상 상태 학습 방법에 비해 정확도가 15% 향상되었습니다. .
동시에 두 개의 비정상 학습 데이터 세트와 연속 학습 환경에서도 SOTA 방법보다 더 나은 결과를 보여줍니다.
지도 학습에 대한 개념 드리프트의 과제
아래 그림과 같이 오프라인 훈련 모델의 초기 성능은 높지만 시간이 지남에 따라 정확도가 감소하고 치명적인 망각으로 인해 초기 데이터에 대한 이해도가 떨어집니다.
반대로, 연속 학습 모델의 초기 성능은 낮지만 이전 데이터에 대한 의존도가 적고 테스트 중에 성능이 더 빨리 저하됩니다.
이는 시간이 지남에 따라 데이터가 진화하고 두 모델의 적용성이 감소한다는 것을 보여줍니다. 개념 드리프트는 데이터 변화에 적응하기 위해 모델을 지속적으로 업데이트해야 하는 지도 학습에 문제를 제기합니다.
MUSCATEL
MUSCATEL은 느린 컨셉 드리프트 문제를 해결하기 위해 고안된 혁신적인 접근 방식입니다. 오프라인 학습과 지속적인 학습의 장점을 교묘하게 결합하여 향후 모델의 성능 저하를 줄이는 것을 목표로 합니다.
방대한 훈련 데이터 앞에서 MUSCATEL은 남다른 매력을 보여줍니다. 이는 전통적인 오프라인 학습에 의존할 뿐만 아니라 이를 기반으로 과거 데이터의 영향을 신중하게 규제하고 최적화하여 모델의 향후 성능을 위한 견고한 기반을 마련합니다.
새로운 데이터에 대한 기본 모델의 성능을 더욱 향상시키기 위해 MUSCATEL에서는 보조 모델을 도입합니다.
아래 그림의 최적화 목표를 기반으로 학습 보조 모델은 콘텐츠와 연령을 기준으로 각 데이터 포인트에 가중치를 할당합니다. 이 설계를 통해 모델은 향후 데이터의 변화에 더 잘 적응하고 지속적인 학습 기능을 유지할 수 있습니다.
MUSCATEL은 보조모델과 메인모델의 공동진화를 위해 메타러닝 전략도 채택하고 있습니다.
이 전략의 핵심은 아래 그림과 같이 샘플 인스턴스와 연령의 기여도를 효과적으로 분리하고 여러 고정 붕괴 시간 척도를 결합하여 가중치를 설정하는 것입니다.
또한 MUSCATEL은 보다 정확한 학습을 위해 각 인스턴스를 가장 적절한 시간 척도로 "분산"하는 방법을 학습합니다.
아래 그림과 같이 CLEAR 객체 인식 챌린지에서 학습된 보조 모델이 객체의 무게를 성공적으로 조정했습니다. 새로운 모습의 객체의 무게가 증가했고, 객체의 무게도 증가했습니다. 오래된 모습이 감소했습니다.
그래디언트 기반 특징 중요도 평가를 통해 보조 모델이 인스턴스의 연령에 관계없이 배경이나 특징보다는 이미지 속 피사체에 초점을 맞춰 효율성을 입증할 수 있음을 알 수 있습니다.
대규모 사진 분류 작업(PCAT)은 YFCC100M 데이터 세트에서 처음 5년간의 데이터를 사용하여 연구되었습니다. 훈련 세트와 지난 5년간의 데이터를 테스트 세트로 사용합니다.
비가중 기준선 및 기타 강력한 학습 기술과 비교할 때 MUSCATEL 방법은 분명한 이점을 보여줍니다.
MUSCATEL 방법은 테스트 중 성능이 크게 향상되는 대가로 먼 과거 데이터의 정확성을 의식적으로 조정한다는 점에 주목할 가치가 있습니다. 이 전략은 미래 데이터에 적응하는 모델의 능력을 최적화할 뿐만 아니라 테스트 중에 성능 저하도 낮춰줍니다.
비고정 학습 챌린지를 위한 데이터세트는 사진, 위성 이미지, 소셜 미디어 텍스트, 의료 기록, 센서 판독값, 표 형식 데이터를 비롯한 다양한 데이터 소스와 양식을 다룹니다. , 데이터 크기도 10,000개에서 3,900만 개까지 다양합니다. 이전의 최선의 방법은 각 데이터 세트마다 다를 수 있다는 점은 주목할 가치가 있습니다. 그러나 아래 그림에서 볼 수 있듯이 데이터와 방법의 다양성 측면에서 MUSCATEL 방법은 상당한 이득 효과를 나타냈습니다. 이 결과는 MUSCATEL의 광범위한 적용 가능성을 충분히 보여줍니다.
산더미 같은 대규모 데이터에 직면했을 때 기존의 오프라인 학습 방법은 부적절하다고 느낄 수 있습니다.
이 문제를 염두에두고 연구팀은 대규모 데이터 처리에 쉽게 적응할 수 있도록 지속적인 학습에서 영감을 얻은 방법을 교묘하게 적용했습니다.
이 방법은 매우 간단합니다. 즉, 각 데이터 배치에 시간 가중치를 추가한 다음 모델을 순차적으로 업데이트하는 것입니다.
모델 업데이트는 최신 데이터를 기반으로만 할 수 있는 등 여전히 작은 제한이 있지만 효과는 놀라울 정도로 좋습니다!
아래 사진 분류 벤치마크 테스트에서 이 방법은 기존의 연속 학습 알고리즘과 기타 다양한 알고리즘보다 더 나은 성능을 보였습니다.
게다가 기존의 여러 방법들과도 잘 어울리는 아이디어이기 때문에 다른 방법들과 결합하면 그 효과는 더욱 놀라울 것으로 예상됩니다!
일반적으로 연구팀은 오랫동안 업계를 괴롭혀온 데이터 드리프트 문제를 해결하기 위해 오프라인 학습과 지속적인 학습을 성공적으로 결합했습니다.
이 혁신적인 전략은 모델의 '재난 망각' 현상을 크게 완화할 뿐만 아니라, 대규모 데이터 연속 학습의 미래 발전을 위한 새로운 길을 열어 머신러닝 전 분야에 새로운 활력을 불어넣습니다. .
위 내용은 '개념적 우아함' 문제에 맞서 싸우세요! Google, 새로운 시간 인식 프레임워크 출시: 이미지 인식 정확도 15% 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!