중국 과학 기술 대학과 Huawei Noah는 대형 모델 성능, 데이터 압축률 및 훈련 손실 간의 관계를 밝히기 위해 엔트로피 법칙을 제안했습니다.-일체 포함-php.cn

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

AIxiv 칼럼은 본 사이트에 학술적, 기술적 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 작업은 과학 기술 대학의 국가 핵심 인지 지능 연구소의 IEEE 펠로우 Chen Enhong 팀이 완료했습니다. 중국과 화웨이의 노아의 방주 연구소. Chen Enhong 교수 팀은 데이터 마이닝 및 기계 학습 분야에 깊이 관여하고 있으며 최고의 저널과 컨퍼런스에 많은 논문을 발표했으며 Google Scholar 논문은 20,000회 이상 인용되었습니다. 노아의 방주 연구소(Noah's Ark Laboratory)는 인공 지능에 대한 기초 연구에 종사하는 화웨이의 연구소로 이론적 연구와 응용 혁신을 동등하게 강조한다는 개념을 고수하며 인공 지능 분야의 기술 혁신과 개발을 촉진하는 데 전념하고 있습니다.

데이터는 LLM(대형 언어 모델) 성공의 초석이지만 모든 데이터가 모델 학습에 유익한 것은 아닙니다. 직관적으로 고품질 샘플은 LLM 교육에 더 나은 효율성을 가질 것으로 예상됩니다. 따라서 기존 방법은 일반적으로 품질 기반 데이터 선택에 중점을 둡니다. 그러나 이러한 방법의 대부분은 샘플 간의 복잡한 조합 효과를 무시하고 서로 다른 데이터 샘플을 독립적으로 평가합니다. 그림 1에 표시된 것처럼 각 샘플의 품질이 완벽하더라도 상호 정보 중복 또는 불일치로 인해 조합이 여전히 최적이 아닐 수 있습니다. 품질 기반 하위 집합은 세 가지 품질 샘플로 모두 구성되지만, 이들이 인코딩하는 지식은 실제로 중복되고 상충됩니다. 대조적으로, 상대적으로 품질은 낮지만 다양한 샘플로 구성된 또 다른 데이터 하위 집합은 LLM 교육 측면에서 더 유익할 수 있습니다. 따라서 품질 기반 데이터 선택은 LLM 지식 캡처를 극대화하려는 목표와 완전히 일치하지 않습니다.

그리고 이 글은 LLM 성과와 데이터 선택 사이의 본질적인 관계를 밝히는 것을 목표로 합니다. LLM 정보 압축의 특성에서 영감을 받아 LLM 성능을 데이터 압축률 및 모델 훈련의 이전 단계 손실과 연결하는 엔트로피 법칙을 발견했습니다. 이는 각각 데이터 세트의 정보 중복 정도와 고유 효과를 반영합니다. 데이터 세트에 대한 LLM의 지식 숙달 정도. 이론적 도출과 경험적 평가를 통해 모델 성능은 훈련 데이터의 압축 비율과 반비례 관계에 있으며, 이는 일반적으로 훈련 손실을 낮추는 결과를 낳습니다. 엔트로피 법칙의 발견을 바탕으로 우리는 LLM 훈련을 위한 매우 효율적이고 일반적인 데이터 선택 방법인 ZIP을 제안합니다. 이 방법은 압축률이 낮은 데이터 하위 집합을 우선적으로 선택하는 것을 목표로 합니다. ZIP은 여러 단계에서 다양한 데이터를 탐욕스럽게 선택하여 궁극적으로 다양성이 좋은 데이터 하위 집합을 얻습니다.

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

팀: 중국 과학 기술 대학교, 화웨이 노아의 방주 연구소 국가 핵심 인지 지능 연구소 Chen Enhong 팀
논문 링크: https://arxiv.org/pdf/2407.06645
코드링크 : https://github.com/USTC-StarTeam/ZIP

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

O 그림 1 tENTropy Law

데이터 압축과 LLM 성능 간의 관계에 대한 이론적 분석을 분석합니다. 직관적으로 훈련 데이터의 정확성과 다양성은 최종 모델의 성능에 영향을 미칩니다. 동시에, 데이터에 심각한 본질적인 충돌이 있거나 모델이 데이터에 인코딩된 정보를 제대로 파악하지 못하는 경우 LLM 성능이 최적이 아닐 수 있습니다. 이러한 가정을 바탕으로 우리는 LLM의 성능을 Z로 표시하며 이는 다음의 영향을 받을 것으로 예상됩니다.

데이터 압축 비율 R: 직관적으로 압축 비율이 낮은 데이터 세트는 정보 밀도가 높다는 것을 나타냅니다.

훈련 손실 L: 모델이 데이터를 기억하기 어려운지 여부를 나타냅니다. 동일한 기본 모델에서 높은 훈련 손실은 일반적으로 데이터 세트에 노이즈가 있거나 일관되지 않은 정보가 있기 때문에 발생합니다.

데이터 일관성 C: 데이터의 일관성은 이전 상황에서 다음 토큰의 확률 엔트로피에 의해 반영됩니다. 데이터 일관성이 높을수록 일반적으로 학습 손실이 낮아집니다.
평균 데이터 품질 Q: 다양한 객관적, 주관적 측면을 통해 측정할 수 있는 평균 샘플 수준의 데이터 품질을 반영합니다.
특정 양의 훈련 데이터가 주어지면 모델 성능은 위의 요소로 추정할 수 있습니다.

여기서 f는 암시적 함수입니다. 특정 기본 모델이 주어지면 L의 척도는 일반적으로 R과 C에 따라 달라지며 다음과 같이 표현될 수 있습니다.

균질성이 높거나 데이터 일관성이 더 나은 데이터 세트가 모델에서 학습하기 더 쉽기 때문에 L은 다음과 같이 예상됩니다. R과 C에서 단조로워야 합니다. 따라서 위 공식을 다음과 같이 다시 작성할 수 있습니다. 中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

여기서 g'는 역함수입니다. 위의 세 가지 방정식을 결합하면 다음을 얻습니다. 中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

여기서 h는 또 다른 암시적 함수입니다. 데이터 선택 방법이 평균 데이터 품질 Q를 크게 변경하지 않는 경우 변수 Q를 대략적으로 상수로 처리할 수 있습니다. 따라서 최종 성능은 대략적으로 다음과 같이 표현할 수 있습니다. 中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

이는 모델 성능이 데이터 압축률 및 훈련 손실과 관련이 있음을 의미합니다. 우리는 이 관계를 엔트로피 법칙이라고 부릅니다.

엔트로피 법칙을 기반으로 두 가지 추론을 제안합니다.

C가 상수로 간주되면 훈련 손실은 압축률의 직접적인 영향을 받습니다. 따라서 모델 성능은 압축 비율에 의해 제어됩니다. 데이터 압축 비율 R이 높으면 Z는 일반적으로 더 나쁩니다. 이는 실험에서 확인됩니다.
동일한 압축률에서 훈련 손실이 높을수록 데이터 일관성이 낮아집니다. 따라서 모델이 학습하는 효과적인 지식은 더욱 제한될 수 있습니다. 이는 유사한 압축 비율과 샘플 품질을 사용하여 다양한 데이터에 대한 LLM의 성능을 예측하는 데 사용할 수 있습니다. 나중에 이 추론을 실제로 적용하는 방법을 보여 드리겠습니다.

ZIP: 초경량 데이터 선택 알고리즘

엔트로피 법칙에 따라 데이터 압축률을 통해 데이터 샘플을 선택하는 데이터 선택 방법인 ZIP을 제안했습니다. 제한된 훈련 데이터 예산 하에서 효과적인 정보의 양. 효율성을 이유로 상대적으로 낮은 압축률로 대략적인 솔루션을 효율적으로 얻기 위해 반복적인 다단계 탐욕 패러다임을 채택했습니다. 각 반복에서 우리는 먼저 전역 선택 단계를 사용하여 압축률이 낮은 후보 샘플 풀을 선택하여 정보 밀도가 높은 샘플을 찾습니다. 그런 다음 선택된 샘플과 가장 낮은 중복성을 갖는 더 작은 샘플 세트를 선택하기 위해 대략적인 로컬 선택 단계를 사용합니다. 마지막으로 추가할 샘플 간의 유사성을 최소화하기 위해 세분화된 로컬 선택 단계를 사용합니다. 위 프로세스는 충분한 데이터를 얻을 때까지 계속됩니다. 구체적인 알고리즘은 다음과 같습니다.

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

실험 결과

1. 다양한 LLM 및 다양한 LLM 정렬 단계에 대한 ZIP 선택 알고리즘의 효율성

다양한 SFT 데이터 선택 알고리즘을 비교해 보면, ZIP 선택 데이터를 기반으로 훈련된 모델은 성능 면에서 장점을 보이며 효율성 면에서도 우수합니다. 구체적인 결과는 아래 표에 나와 있습니다.

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系 ZIP의 모델 독립적이고 내용에 구애받지 않는 특성 덕분에 선호도 정렬 단계의 데이터 선택에도 적용할 수 있습니다. ZIP으로 선정된 데이터 역시 큰 장점을 보여준다. 구체적인 결과는 아래 표와 같습니다.

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

2. 엔트로피 법칙의 실험적 검증

SFT 데이터 선택 실험을 기반으로 모델 효과, 데이터 압축률 및 손실을 기반으로 합니다. 이전 훈련 단계에서 모델의 다중 관계 곡선이 각각 맞춰졌습니다. 결과는 그림 2와 3에 나와 있으며, 이를 통해 세 가지 요인 간의 밀접한 상관관계를 확인할 수 있습니다. 우선, 압축률이 낮은 데이터는 일반적으로 더 나은 모델 결과를 가져옵니다. 이는 LLM의 학습 과정이 정보 압축과 관련이 높기 때문에 LLM을 데이터 압축기로 생각할 수 있으므로 압축률이 낮은 데이터는 더 많은 지식을 의미합니다. 따라서 압축기에 더 가치가 있습니다. 동시에, 압축 비율이 낮을수록 일반적으로 훈련 손실이 높아지는 것을 볼 수 있습니다. 이는 압축하기 어려운 데이터가 더 많은 지식을 담고 있어 LLM이 그 안에 포함된 지식을 흡수하는 데 더 큰 어려움을 초래하기 때문입니다. ㅋㅋ ~그림 3 Llama-3-8B

실제 시나리오 애플리케이션에서 LLM 교육 데이터의 증분 업데이트를 안내하는 엔트로피 법칙을 제공합니다. 이 작업 시나리오에서는 훈련 데이터의 양이 상대적으로 안정적으로 유지되며 데이터의 작은 부분만 수정됩니다. 결과는 그림 4에 표시되어 있으며, 여기서 ~ ^{는 점진적으로 업데이트되는 5개의 데이터 버전입니다. 기밀 요구 사항으로 인해 다양한 압축률에서 모델 효과의 상대적 관계만 제공됩니다. 엔트로피 법칙 예측에 따르면, 각 증분 업데이트 후에도 데이터 품질이 크게 떨어지지 않는다고 가정하면 데이터 압축률이 감소함에 따라 모델 성능이 향상될 것으로 예상할 수 있습니다. 이 예측은 그림의 데이터 버전}~에 대한 결과와 일치합니다. 그러나 데이터 버전

은 손실 및 데이터 압축 비율이 비정상적으로 증가한 것을 보여줍니다. 이는 훈련 데이터의 일관성 감소로 인해 모델 성능 저하가 발생할 가능성이 있음을 나타냅니다. 이 예측은 후속 모델 성능 평가를 통해 추가로 확인되었습니다. 따라서 엔트로피 법칙은 수렴할 때까지 전체 데이터 세트에서 모델을 훈련하지 않고도 LLM 훈련 실패의 잠재적 위험을 예측하여 LLM 훈련을 위한 지침 원리 역할을 할 수 있습니다. 이는 LLM 교육에 드는 비용이 높기 때문에 특히 중요합니다. ㅋㅋ

위 내용은 중국 과학 기술 대학과 Huawei Noah는 대형 모델 성능, 데이터 압축률 및 훈련 손실 간의 관계를 밝히기 위해 엔트로피 법칙을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!