일반적으로 신경망을 훈련하는 데 필요한 계산이 많을수록 성능이 향상됩니다. 계산을 확장할 때는 모델 매개변수 수를 늘리거나 데이터 세트 크기를 늘리는 등 결정을 내려야 합니다. 두 요소 모두 고정된 계산 예산 내에서 평가되어야 합니다. 모델 매개변수 수를 늘리는 것의 장점은 모델의 복잡성과 표현 능력을 향상시켜 훈련 데이터를 더 잘 맞출 수 있다는 것입니다. 그러나 매개변수가 너무 많으면 과적합이 발생하여 보이지 않는 데이터에 대한 모델 성능이 저하될 수 있습니다. 반면에 데이터 세트 크기를 확장하면 모델의 일반화 능력이 향상되고 과적합 문제가 줄어들 수 있습니다.
매개변수와 데이터를 적절하게 할당할 수 있는 한 고정된 컴퓨팅 예산 하에서 성능을 극대화할 수 있습니다. 이전의 많은 연구에서는 신경 언어 모델의 확장 법칙을 탐구했으며 이러한 연구에서는 일반적으로 매개변수와 훈련 토큰의 수가 일대일로 확장되어야 한다는 결론을 내렸습니다.
그러나 이전 언어 모델 스케일링 법칙 연구는 분산된 네트워크 텍스트를 학습한 Transformer를 기반으로 했습니다. 이는 매우 구체적인 데이터 분포이므로 자연스럽게 질문하게 됩니다. 이러한 웹 텍스트 데이터 세트를 기반으로 얻은 스케일링 법칙을 다른 분포로 일반화할 수 있습니까?
네트워크 텍스트 데이터의 특정 사례에만 적용되는 현재 언어 모델(예: Chinchilla) 외에도 학습 데이터의 속성을 기반으로 하는 더 광범위한 확장 법칙이 있습니다. 데이터 품질을 향상시키면 언어 모델의 성능이 크게 향상될 수 있다는 점을 고려하면 강화 학습의 확장 법칙은 게임 강도에 따라 확장될 수 있습니다. 아마도 현재 언어 모델 스케일링 법칙(예: Chinchilla)은 네트워크 텍스트 데이터의 특정 사례에만 적용되며 그 뒤에는 훈련 데이터의 속성을 기반으로 하는 더 광범위한 스케일링 법칙이 있다고 가정할 수 있습니다.
그렇다면 훈련에 사용되는 토큰 시퀀스 데이터 세트의 어떤 속성이 신경 확장 법칙에 민감할까요? 즉, 훈련 과정에 계산을 가장 잘 할당하는 방법을 정확하게 예측하려면 데이터의 어떤 속성을 관찰해야 합니까? 또한 스케일링 법칙의 데이터 의존적 특성은 단지 이론적인 문제일까요, 아니면 실제 데이터 세트에도 중요한가요?
이러한 문제를 탐구하기 위해 AI 데이터 회사 Reworkd의 연구원인 Rohan Pandey는 몇 가지 연구를 수행하여 이러한 질문에 대한 답을 얻었습니다. 또한 그는 예측할 수 있는 압축 알고리즘 gzip도 제안했습니다. 확장 속성에 대한 데이터 복잡성의 영향.
그의 연구 방법은 다음과 같습니다. 복잡성을 제어하는 텍스트 데이터의 설정 하에서 스케일링 법칙의 데이터 의존성에 대한 이유를 이해하기 위해 정보 이론 방법을 사용합니다.
그가 마침내 발견한 설정은 Probabilistic Context-Free Grammar(PCFG, 1956년 Chomsky가 처음 제안함)입니다. 이 설정은 비교적 자연스럽고(자연어, 코드 등을 모델링할 수 있음) 제어 가능한 구문 복잡성을 가지며 잘 이해되는 일부 정보 이론 원칙을 따릅니다.
실험에서 그는 PCFG의 구문 속성을 조정하여 서로 다른 복잡성을 지닌 6개의 데이터 세트를 생성했습니다. 각 데이터 세트에 대해 그는 다양한 크기(4.4M~1.4B의 매개변수)의 6개 언어 모델을 교육하고 6가지 교육 단계(100K~100M 토큰)에 따라 이러한 언어 모델의 결과를 기록했습니다. 그런 다음 그는 각 데이터 세트에 스케일링 법칙을 적용하고 스케일링 법칙의 매개변수가 구문 복잡성에 따라 의미있게 변한다는 것을 발견했습니다. 형식 문법의 엔트로피에 대한 이전 작업에 이어 복잡성 측정을 위해 그는 gzip을 사용하여 쉽게 계산할 수 있는 데이터세트의 각 토큰 시퀀스의 중앙 압축률을 사용했습니다.
훈련 데이터의 압축성이 감소(복잡해짐)할수록 스케일링 법칙 계산의 최적 경계가 매개변수 양에서 데이터 크기로 점차 이동하는 것으로 나타났습니다. 그런 다음 그는 실제 코드와 자연어 데이터 세트의 압축성을 측정하고 전자가 더 압축성이 높으므로 다양한 스케일링 법칙을 준수할 것으로 예측한다는 사실을 발견했습니다.
확률적 문맥 자유 문법(PCFG)은 자연어 구문을 모델링하는 데 사용할 수 있는 전산 언어학의 기본 도구입니다. PCFG는 생성 규칙의 확률을 연관시켜 언어의 모호함과 가변성을 정량화할 수 있는 방식으로 표현하는 표준 CFG(문맥 자유 문법)의 확장입니다. 이러한 문법은 각 노드가 구문 범주를 나타내고 각 가장자리가 문장을 생성하는 데 사용되는 생성 규칙을 나타내는 트리를 생성합니다. PCFG에서 문장을 생성할 때 적용된 생성 규칙의 시퀀스는 트리의 모든 리프 노드가 끝점(실제 어휘 토큰)이 될 때까지 확률적으로 샘플링됩니다.
PCFG의 구문 속성을 제어하여 텍스트 데이터 세트의 복잡성을 자연스럽게 조정할 수 있습니다. 구체적으로 PCFG 생성 기능이 허용할 수 있는 매개변수에는 끝점 수, 비끝점에 대한 데이터, 생성 규칙 오른쪽의 최대 길이, 모든 비끝점에 허용되는 최대 생성 규칙 수( 이 값이 1이면 주어진 비끝점은 항상 동일한 오른쪽을 얻습니다. 직관적으로 위의 각 값이 증가하면 구문 복잡성이 증가합니다.
위 매개변수를 기반으로 PCFG를 생성하려면 각 엔드포인트에 대해 세대 수(RHS 옵션), 각 세대의 길이를 무작위로 선택하고 엔드포인트와 비-엔드포인트에서 무작위로 샘플링하여 생성 규칙을 인스턴스화합니다. 그리고 확률이 할당됩니다(비종점에 대한 전체 RHS 옵션으로 정규화됨). 그런 다음 모든 비엔드포인트에 대해 생성된 모든 규칙을 수집하고 NLTK에 구축된 PCFG 패키지를 사용하여 문법을 인스턴스화합니다.
그런 다음 이 문법(주어진 제약 조건에 따라 무작위로 생성됨)을 사용하여 문장을 확률적으로 샘플링하여 토큰 시퀀스 데이터 세트를 구축합니다. 나중에 다른 문법에 대한 훈련(다른 평균 길이의 문장 생성)을 더 쉽게 비교할 수 있도록 하기 위해 그는 동일한 수의 토큰을 사용하여 문장을 문서로 샘플링하기로 결정했습니다. 문맥 길이가 채워질 때까지 문법에 따라 문장을 계속 샘플링합니다. 오버플로가 있으면 문장이 직접 잘립니다.
문장은 정수로만 구성된 끝점으로 구성되므로 언어 모델의 토큰 ID로 간주할 수 있습니다. 사용되지 않은 정수 0(자연어의 마침표에 해당)이 문장을 연결하는 데 사용됩니다. 명확히 말하면 이는 자연어처럼 "보이는" 문자열을 생성한 다음 이를 토큰화하는 것이 아닙니다. PCFG는 토큰 ID 자체의 시퀀스를 직접 생성합니다. 이제 6개의 초기 문법 제약 조건을 기반으로 서로 다른 복잡성을 지닌 6개의 토큰 시퀀스 데이터 세트를 생성할 수 있습니다.
생성된 데이터세트와 실제 데이터세트의 복잡성을 추정하기 위해 Rohan Pandey는 gzip이라는 압축 알고리즘을 사용하기로 결정했습니다.
gzip의 한 가지 장점은 압축성이 엔트로피에 반비례하고 엔트로피가 구문 복잡성에 정비례한다는 것을 보여주는 훌륭한 이론적 연구 기반이 있다는 것입니다. 특히 데이터 세트에 있는 1000개 토큰의 각 토큰 시퀀스에 대해 gzip을 사용하고 원본 데이터에 대한 압축된 데이터의 크기(바이트) 비율을 계산합니다.
그런 다음 압축률의 중앙값과 표준편차를 계산하여 문법이 더 복잡할수록 데이터 세트를 압축하기가 더 어려워진다는 것을 확인합니다.
표 1에는 각 문법의 구문 매개변수와 측정된 압축 비율이 나열되어 있습니다.
비종점(문법 범주), 종점(토큰), 오른쪽 옵션 및 오른쪽 길이가 증가함에 따라 gzip 압축률도 증가하는 것을 관찰할 수 있습니다. 압축하기가 더 어려워집니다.
그림 1은 이러한 데이터 세트를 자연어 및 코드 데이터와 함께 표시합니다.
복잡성 측면에서 일부 PCFG 데이터세트는 코드 데이터(압축하기 쉬운 부분)에 가깝고 다른 PCFG 데이터세트는 자연어에 가깝다는 것을 알 수 있습니다.
데이터 세트의 스케일링 법칙을 결정하기 위해 연구원은 여러 가지 다른 크기(매개변수 양은 4.2M, 8.8M, 20.3M, 59.0M, 275.3M, 1.4B) 모델을 훈련했으며, 표 6은 그 결과를 제공합니다. 그런 다음 그는 얻은 손실 결과에 맞는 멱법칙을 수행했습니다. 대부분의 실험은 PyTorch FSDP를 사용하여 80GB VRAM을 갖춘 4개의 NVIDIA A100에서 수행되었습니다.
그림 2에 표시된 것처럼 데이터 세트를 압축하기가 더 쉬운 경우(압축률이 낮을수록) 모델이 더 빠르게 수렴됩니다. 이는 우리의 직관적인 이해와 일치합니다.
이는 더 복잡한 데이터 세트를 모델링하려면 더 많은 계산 노력이 필요하다는 것을 의미하지만, 계산 최적 경계가 데이터 복잡성의 함수로 직접 변경되는지 여부를 확인하려면 여전히 더 많은 증거가 필요합니다. 데이터 복잡성에 대한 스케일링 법칙의 중요한 민감도를 설정하려면 각 데이터 세트에 대한 스케일링 법칙을 계산하고 해당 피팅 매개변수를 조사해야 합니다.
Hoffmann et al. 2022년에 제안된 스케일링 법칙의 기능적 형태는 훈련 손실을 모델과 데이터 크기의 함수로 처리하는 것입니다. :
여기서 N은 모델의 매개변수 수이고 D는 훈련 데이터 세트에 있는 토큰 수입니다. 그들은 E가 "자연 텍스트의 엔트로피"이고 스케일링 법칙이 "데이터 세트 독립적"이라고 주장합니다. 그러나 Rohan Pandey는 훈련 결과를 PCFG 데이터 세트에 이 함수로 맞추었을 때 각 데이터 세트의 스케일링 법칙이 매우 다르다는 것을 발견했습니다(표 2 참조).
이 스케일링 법칙은 매개변수 수량에 대한 계산 최적 경계를 얻을 수 있습니다(Kaplan et al. [2020] 및 Hoffmann et al. [2022]에서 파생됨). 이는 다음과 같이 단순화될 수 있습니다.
여기서 C는 FLOP 단위의 계산 예산입니다.
그림 3은 Chinchilla의 계산된 최적 경계와 각 PCFG 데이터 세트에 맞는 스케일링 법칙을 보여줍니다.
데이터를 압축하기가 점점 더 어려워짐에 따라 피팅을 통해 얻은 스케일링 법칙의 경계가 0.23 < gzip 압축률 간격 어딘가에서 점차 데이터쪽으로 편향되는 것을 볼 수 있습니다. < 0.45 지점이 친칠라의 일대일 경계를 넘었습니다.
데이터 세트의 압축률을 기반으로 스케일링 법칙 매개변수를 예측하기 위해 각 데이터 세트의 맞춤된 스케일링 법칙 매개변수에 대해 간단한 선형 회귀 피팅을 수행할 수 있습니다. 앞에서 언급했듯이 데이터 세트 D에 대해 압축률 H를 계산하는 방법은 먼저 각 요소 d의 원래 비트량에 대한 압축된 비트량의 비율을 계산한 다음 모든 요소의 평균을 계산하는 것입니다.
각 매개변수(E, A, B, α, β)를 예측하는 선이 H에서 피팅되면 각 매개변수는 압축성의 함수로 재정의될 수 있습니다.
여기서 m_x 및 n_x는 피팅 후 선형 회귀의 매개변수입니다.
표 3은 이러한 적합치(및 회귀의 p-값)를 제공하고 그림 4는 이러한 선형 회귀의 시각화 결과입니다.
그들은 단지 다른 비율로 거의 모두 단조롭게 감소하며, H 약 0.27에서 α와 β가 교차합니다. E(원래 상수로 설정된 "자연어의 엔트로피")는 H에 따라 증가하는(그러나 유의미하지는 않음) 유일한 매개변수라는 점에 유의해야 합니다.
이제 압축률 H의 함수로 방정식 (1)을 다시 매개변수화할 수 있습니다.
그러나 여기서 실험 규모는 매우 작고 주로 PCFG 데이터 세트에 초점을 맞추기 때문에 Pandey는 기능을 확장했습니다. Chinchilla를 조정한 후 데이터 종속 스케일링 법칙이 얻어졌습니다.
여기서 ε 는 훈련 데이터의 gzip 압축률에 대한 조정 가중치이고, 추가된 매개변수는 친칠라 상수이다.
위의 실험에서는 이 압축성 척도가 일부 기본 구문 속성(예: 어휘 크기)에 의해 교란될 가능성을 다루지 않습니다. 이 문제를 해결하기 위해 그림 5에는 추가 결과가 나와 있습니다.
어휘 크기를 안정적으로 유지하고 다른 구문 속성을 변경할 때(표 4), gzip 압축률은 여전히 스케일링 법칙의 매개변수 변경을 예측할 수 있음을 알 수 있습니다(상관 관계는 어휘 증가보다 훨씬 더 강함) 설정).
그림 6은 실제로 발견된 반례로, 구문 속성이 크게 다르지만(표 5) 이러한 데이터 세트의 최종 gzip 압축률이 동일한 경우 스케일링 법칙 매개변수가 크게 변경되지 않음을 보여줍니다.
이 등가 어휘 사례에서는 그림 4와 같은 교차 동작이 관찰되지 않지만 α의 기울기는 여전히 β보다 가파르며(A도 B보다 가파르다) 이는 gzip을 사용하면 다음을 알 수 있습니다. 압축성이 증가함에 따라 데이터에 대한 동일한 편향이 있습니다.
따라서 이러한 결과는 다음을 보여준다고 말할 수 있습니다. 스케일링 법칙은 훈련 데이터에 따라 달라지며 gzip 압축률은 데이터 복잡성이 스케일링 속성에 미치는 영향을 잘 예측할 수 있습니다.
위 내용은 서로 다른 데이터 세트에는 서로 다른 스케일링 법칙이 있습니까? 그리고 압축 알고리즘으로 예측할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!