이 연구 논문은 "모든 LLM 추론자가 동등하게 만들어지지는 않았다"는이 연구 논문은 복잡한 추론 작업, 특히 다단계 문제 해결이 필요한 대형 언어 모델 (LLM)의 한계를 탐구합니다. LLM은 수학적 문제에 도전하는 데 탁월하지만, 한 문제에 대한 해결책이 다음을 알리는 상호 연결된 질문에 직면 할 때 성능이 크게 저하됩니다.
Mila, Google Deepmind 및 Microsoft Research의 연구원들이 수행 한이 연구는 더 작고 비용 효율적인 LLM에서 놀라운 약점을 보여줍니다. 이러한 모델은 더 간단한 작업에 능숙하지만 묶인 문제를 해결하는 데 필요한 "2 차 추론"으로 어려움을 겪고 있습니다. 이것은 데이터 유출과 같은 문제 때문이 아닙니다. 오히려 상황은 컨텍스트를 유지하고 논리적으로 문제 부분을 연결할 수 없기 때문입니다. 일반적인 성능 향상 기술인 명령 튜닝은 소규모 모델에 일관성이없는 이점을 제공하여 때로는 과응을 일으 킵니다.
주요 결과 :
이 논문은이 차이를 설명하기 위해 작곡 학년 수학 (GSM) 테스트를 사용합니다. 테스트에는 두 개의 연결된 질문이 포함되며, 첫 번째 (Q1)에 대한 답은 두 번째 (Q2)의 변수 (x)가됩니다. 결과는 대부분의 모델이 개별 질문에 대한 성능에 의해 예측 된 것보다 구성 작업에서 훨씬 더 악화된다는 것을 보여줍니다. GPT-4O와 같은 더 크고 강력한 모델은 우수한 추론 능력을 보여주고, 더 작고 비용 효율적인 모델, 심지어 수학 전문 모델조차도 실질적인 성능 감소를 보여줍니다.
오픈 소스 및 폐쇄 소스 LLM을 비교하는 그래프는 이러한 추론 격차를 강조합니다. 더 작고 비용 효율적인 모델은 지속적으로 더 큰 부정적인 추론 격차를 나타내며, 이는 더 큰 모델에 비해 구성 작업에 대한 성능이 저하됨을 나타냅니다. 예를 들어, GPT-4O는 최소한의 간격을 나타내고, PHI 3-MINI-4K-IT와 같은 다른 것들은 상당한 단점을 나타냅니다.
추가 분석에 따르면 추론 격차는 전적으로 벤치 마크 누출로 인한 것이 아닙니다. 이 문제는 과적으로 벤치 마크에 이르기까지, 관련이없는 상황에 의한 산만 및 하위 작업간에 정보를 효과적으로 전송하지 못하는 것입니다.
이 연구는 구성 추론을 개선하려면 혁신적인 훈련 접근법이 필요하다고 결론을 내립니다. 교육 튜닝 및 수학 전문화와 같은 기술은 몇 가지 이점을 제공하지만 추론 격차를 해소하기에는 충분하지 않습니다. 코드 기반 추론과 같은 대체 방법을 탐색하는 것은 복잡한 다단계 추론 작업을 처리 할 수있는 LLM의 능력을 향상시키기 위해 필요할 수 있습니다. 이 연구는 더 작고 비용 효율적인 LLM이 복잡한 추론 작업을 안정적으로 수행 할 수 있도록 개선 된 교육 기술의 필요성을 강조합니다.
위 내용은 LLM의 복잡한 추론 : 소규모 모델이 왜 어려움을 겪습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!