대형 모델 + 몬테카를로 트리 검색, 한 번의 이동으로 LLaMa-3 8B 올림피아드 수준이 GPT-4에 가까워짐-일체 포함-php.cn

알고리즘 수준의 혁신을 통해 대규모 언어 모델의 수학적 문제 해결 능력은 앞으로도 계속 향상될 것입니다.

지난 며칠간 17세 기술중등학생 Jiang Ping이 2024년 알리바바 글로벌 수학 경시대회 예선에서 세계 12위를 차지했다는 소식이 화면을 가득 채웠습니다. 동시에 AI 챌린지 결과에 따르면 AI 참가 전체 563개 팀 중 최고 점수는 34점, 평균 점수는 18점으로 인간 플레이어의 평균 수준을 따라잡았다.

수학 대회에 참가하는 AI의 가장 큰 단점은 논리적 추론 능력이 약하고 증명 문제에서 만점을 받기가 어렵다는 것입니다. 이는 전략과 논리적 추론이 필요한 작업에서 GPT-4, LLaMA 등 현재 LLM(대형 언어 모델)이 직면한 주요 과제이기도 합니다.

중요한 장애물 중 하나는 출력의 정확성과 신뢰성입니다. 특히 정확성이 보장되어야 하는 수학적 맥락에서 LLM은 추론할 때 환각을 일으키는 경우가 많습니다. 출력이 표면적으로는 합리적으로 보일 수 있지만 실제로는 관련성이 없거나 사실적으로 부정확하여 결과적으로 불합리한 추론 프로세스로 이어집니다.

자체 개선과 같은 자연스러운 재작성 기술은 이러한 편향을 해결하는 데 도움이 될 수 있지만 복잡한 실제 수학 문제에 대해서는 여전히 오해의 소지가 있거나 잘못된 결과를 초래할 수 있습니다.

따라서 이러한 과제를 해결하기 위해 푸단대학교와 상하이 AI 연구소의 연구원들은 LLM과 MCTS(Monte Carlo Tree Search) 알고리즘을 결합하고 복잡한 환경에서 LLM의 성능을 향상시키는 데 초점을 맞춘 MCT Self-Refine(MCTSr)을 제안했습니다. 수학적 추론 과제(예: 수학 올림피아드 질문) 수행.

MCTS는 일반적으로 게임 및 복잡한 문제 해결 환경에서 전략적 계획이 필요한 인공 지능 시나리오에 널리 사용되는 의사 결정 도구입니다. 본 논문은 MCTS의 시스템 탐색 기능과 LLM의 Self-Refine 및 Self-Evaluation 기능을 결합하여 현재 LLM으로 해결하기 어려운 복잡한 추론 작업을 처리할 수 있는 보다 강력한 프레임워크를 만드는 것을 목표로 합니다.

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

논문 주소: https://arxiv.org/pdf/2406.07394
프로젝트 주소: https://github.com/trotsky1997/MathBlackBox

MCTS와 LLM을 결합하는 경우 통합 과정에는 몇 가지 기술적인 문제가 있습니다. 전통적인 MCTS 전략은 일반적으로 잠재적인 행동의 무한하고 연속적인 공간을 포함하는 LLM 출력의 확률론적 및 생성적 특성과 잘 맞지 않을 수 있습니다. 이러한 불일치에는 LLM의 고유한 속성을 더 잘 수용하기 위해 MCTS 프레임워크 내에서 맞춤형 기대 계산 및 역전파 방법이 필요합니다.

또한 연구원들은 고위험 작업에서 효과적인 의사 결정에 필요한 탐사-착취 균형을 최적화하기 위해 향상된 신뢰 상한(UCB) 공식을 통합하는 동적 가지치기 전략을 도입했습니다.

이 연구는 복잡한 추론 문제에서 LLM의 적용을 발전시키고 AI 관련 기술 혁신의 미래 통합을 위한 기반을 마련하여 LLM 기반 응용 프로그램이 더욱 강력한 의사 결정, 추론 정확성 및 신뢰성을 가질 수 있도록 한다고 말할 수 있습니다. 섹스.

방법 개요

MCTSr 아키텍처 다이어그램은 그림 1에 표시됩니다.

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4 MCTSr 워크플로에는 다음이 포함됩니다.

초기화: 모델 생성 답변과 더미 응답을 사용하여 모델 오버슈트를 최소화하기 위해 루트 노드 설정
선택: 이 알고리즘은 가치 함수 Q를 사용하여 불완전하게 확장된 모든 답변을 정렬하고 탐욕스러운 전략을 사용하여 추가 탐색 및 최적화를 위해 가장 높은 값을 가진 노드를 선택합니다.
자체 개선: 좋은 답변 a를 선택합니다. 최적화를 위해 Self-Refine 프레임워크를 사용하세요. 처음에 모델은 향상된 답변 a를 생성하기 위해 최적화 프로세스를 안내하는 피드백 m을 생성합니다.
자체 평가: 정제된 답변에 점수를 매겨 보상 값을 샘플링하고 Q 값을 계산합니다. 여기에는 점수의 신뢰성과 공정성을 보장하기 위해 엄격한 점수 기준 및 전체 점수 억제와 같은 모델 자체 보상 피드백 및 제약이 포함됩니다. 트리의 값 정보를 업데이트합니다. 하위 노드의 Q 값이 변경되면 상위 노드의 Q 값을 업데이트합니다.
UCT 업데이트: 모든 노드의 Q 값 업데이트가 완료된 후 추가 확장 또는 선택을 위한 후보 노드 세트 C를 결정합니다. 그런 다음 UCT 업데이트 공식을 사용하여 다음 선택 단계를 준비하기 위해 모든 노드의 UCT 값을 업데이트합니다.
종료 조건 T가 충족될 때까지 위 단계를 반복합니다.

자체 개선

자기 개선 단계에서 모델은 여러 차례의 대화 개선 프롬프트를 통해 질문 P에 대한 답변 a를 최적화합니다. 먼저, 모델은 답변 a에 대해 반성적이거나 비판적인 의견을 생성합니다. 그 후, m의 지침에 따라 모델은 답변 a를 수정하여 개선된 버전 a'를 생성합니다. 이러한 반복적 개선은 모델 응답의 품질을 향상시킵니다.

자체 평가

수학적 문제 P의 답을 정제하는 과정에서 답 a의 Q값은 a를 더 나은 답으로 다듬을 때 기대되는 품질로 정의됩니다. 이 정의는 a에서 다시 작성된 형식으로의 전환에 대한 마르코프 속성을 기반으로 합니다. 즉, 다음 상태(즉, 다시 작성된 답변)는 현재 상태(즉, 현재 답변 a)에만 의존하고 a와는 아무 관련이 없습니다. 이전 상태.

또한 연구원들은 프롬프트 제약, 전체 점수 억제, 반복 샘플링이라는 세 가지 제약 조건도 설계했습니다. 샘플링 후 a의 Q 값을 계산합니다.

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

역전파

모든 리프 노드의 보상 값이 샘플링되고 Q 값이 업데이트된 후 이러한 변경 사항이 상위 노드와 조상 노드에 전파됩니다. 이 업데이트 과정에서 노드 a의 집합 Children(a)에 있는 요소의 Q 함수 값이 변경되면 노드 a의 Q 함수 값도 업데이트됩니다. 이러한 전파는 노드의 Q 값이 가능한 모든 하위 노드의 최신 상태와 평가를 반영하도록 보장합니다.

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

UCT 및 선택 업데이트

트리에 있는 모든 노드의 Q 값을 업데이트한 후 다음 선택 단계로 들어갑니다. 이 프로세스에는 다음 단계가 포함됩니다.

후보 노드 선택: 연구원은 노드를 선택할 때 루트 노드에서 시작할 필요가 없으며 트리의 노드를 계층적 순서로 순회합니다.
UCT 업데이트: AlphaGo를 바탕으로 이 연구에서는 UCT 및 UCB-1 방법을 사용하여 후보 세트 C의 노드 a에 대한 탐색 및 활용의 균형을 유지합니다. UCT_a 값은

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

해지 기능

조기 해지 : 검색 결과의 향상도가 감소하기 시작하거나 연속 검색 결과가 중복되는 경우 해지됩니다.

검색 제약 조건: 확장 수가 미리 결정된 제한에 도달하거나 트리의 하나 이상의 노드가 최대 깊이 제약 조건을 충족하면 검색이 종료됩니다.

실험 결과

수학 문제 해결에 있어 MCTSr 알고리즘의 효율성을 평가하기 위해 연구진은 LLaMA3-8B를 기본 모델로 사용하고 향상을 위해 MCTSr을 사용했습니다. 그들은 Zero-Shot CoT, Self-Refine, 4롤아웃 MCTSr 및 8롤아웃 MCTSr을 포함한 여러 설정에서 LLaMA3-8B를 GPT-4, Claude 3 및 Gemini 1.5-Pro와 비교했습니다.

연구원들은 GSM8K 및 GSM-hard 테스트 세트(각각 일반적인 수학적 문제와 까다로운 수학적 문제를 포함함)에서 위 방법을 평가했으며 결과는 아래 표 1에 나와 있습니다.

롤아웃 횟수와 MCTSr의 성공률 사이에 직접적인 상관관계가 있다는 것을 알 수 있으며, 특히 덜 복잡한 GSM8K에서는 반복 횟수가 증가할수록 크게 증가합니다. 그러나 더 복잡한 GSM-Hard 테스트 세트의 경우 롤아웃 수가 많아도 성능 한계에 도달하므로 현재 전략으로는 복잡한 문제를 해결하는 데 한계가 있음을 나타냅니다.

이러한 결과는 MCT-Self-Refine 알고리즘의 견고성과 잠재적 경계뿐만 아니라 더 복잡한 문제를 효과적으로 해결하기 위한 지속적인 개선의 필요성을 강조합니다.

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

아래 표 2는 MATH 데이터 세트에 복잡도 수준을 달리한 MCT-Self-refine 알고리즘을 적용한 결과를 보여줍니다. 데이터 세트는 레벨 1(가장 쉬움)부터 레벨 5(가장 어려움)까지 5가지 난이도로 구분됩니다.

결과에 따르면 레벨 1의 성공률은 8회 출시 후 90.16%의 성공률을 달성하고 437개 문제 중 394개를 해결했습니다. 출시 횟수가 증가하면 이 수준의 성공률도 크게 높아집니다.

가장 어려운 레벨 5 난이도에서 8번의 출시 후 MCTSr은 34.06%의 성공률을 보이며 1324개 문제 중 451개 문제를 해결했습니다. 이는 난이도가 높아짐에 따라 매우 복잡한 시나리오에서 이 알고리즘의 성능 제한을 보여줍니다.

모든 레벨의 전반적인 성능을 보면 8번의 롤아웃 후 MCTSr의 누적 성공률은 58.24%로 5000개 문제 중 2912개를 해결한 것으로 나타났습니다. 이 성공률은 Zero-Shot CoT의 초기 성공률 24.36%에 비해 크게 향상된 것입니다. 이는 롤아웃 횟수의 증가가 성공률의 증가와 일치함을 보여주며, 다양한 수준의 수학적 복잡성에서 문제 해결 능력을 향상시키는 MCT-Self-Refine 알고리즘의 효율성을 강조합니다.

이 결과는 또한 학술 및 문제 해결 맥락에서 MCT-Self-refine 알고리즘의 잠재력을 검증하고 MATH 데이터 세트에서 다양한 복잡성 수준의 문제에 대한 확장성과 적응성을 강조합니다.

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

아래 표 3은 올림피아드 수학 대회의 세 가지 데이터 세트인 AlME, GAIC Math Odyssey 및 OlympiadBench에서 테스트된 MCT-Self-refne 알고리즘을 보여줍니다.

AIME: Zero-Shot CoT의 경우 2.36%(22개 문제 해결)에서 MCTSr의 경우 11.79%(110개 문제 해결)까지.

GAIC Math Odyssey: 성공률이 17.22%(67문제 해결)에서 49.36%(192문제 해결)로 증가했습니다.

OlympiadBench: Zero-Shot CoT(16개 문제 해결)의 1.25%에서 MCTSr(99개 문제 해결)의 7.76%로 향상되었습니다.

이러한 결과는 보이지 않는 수학 문제에 대한 MCT-Self-refine 알고리즘의 적용 가능성을 확인하여 올림피아드와 같은 경쟁이 치열한 학술 환경에서 그 장점을 입증합니다.

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

표 4와 같습니다. 현재의 폐쇄 소스 대형 모델과 비교할 때 MCTSr은 작은 매개변수 오픈 소스 모델(예: LLaMa-3)의 수학적 추론 기능을 비슷한 수준으로 효과적으로 향상시킬 수 있습니다.

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

더 자세한 기술적 내용과 실험 결과는 원본 논문을 참고해주세요.

위 내용은 대형 모델 + 몬테카를로 트리 검색, 한 번의 이동으로 LLaMa-3 8B 올림피아드 수준이 GPT-4에 가까워짐의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!