> 기술 주변기기 > 일체 포함 > 생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT '군사훈련' LLM

생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT '군사훈련' LLM

PHPz
풀어 주다: 2023-06-02 19:55:37
앞으로
1038명이 탐색했습니다.

GPT 및 PaLM과 같은 대규모 언어 모델은 수학, 기호, 상식 및 지식 추론과 같은 작업을 처리하는 데 점점 더 능숙해지고 있습니다. 아마도 놀랍게도 이러한 모든 발전의 기초는 텍스트 생성을 위한 원래의 자동 회귀 메커니즘으로 남아 있습니다. 토큰별로 결정을 내리고 왼쪽에서 오른쪽으로 텍스트를 생성합니다. 일반적인 문제 해결사를 위한 언어 모델을 구축하는 데 이러한 간단한 메커니즘이 충분한가요? 그렇지 않다면 어떤 문제가 현재 패러다임에 도전하게 되며 어떤 대체 메커니즘을 채택해야 합니까?

인간 인지에 관한 문헌은 이러한 질문에 답할 수 있는 몇 가지 단서를 제공합니다. "이중 프로세스" 모델에 대한 연구에 따르면 사람들은 의사결정을 내릴 때 두 가지 모드를 가지고 있습니다. 하나는 빠르고 자동적이며 무의식적인 모드(시스템 1)이고 다른 하나는 느리고 신중하며 의식적인 모드(시스템 2)입니다. . 이 두 패턴은 이전에 기계 학습에 사용되는 다양한 수학적 모델과 연관되어 있었습니다. 예를 들어, 인간과 다른 동물의 강화 학습에 대한 연구에서는 이들이 연관적 "모델 없는" 학습에 참여하는지 아니면 보다 신중한 "모델 기반" 계획에 참여하는지 탐구합니다. 언어 모델의 간단한 연관 토큰 수준 선택도 "시스템 1"과 유사하므로 단지 하나를 선택하는 것이 아니라 현재 선택에 대한 여러 대안을 유지하고 탐색하는 보다 사려 깊은 "시스템 2" 계획 프로세스의 향상으로 이점을 얻을 수 있습니다. . 또한 현재 상태를 평가하고 보다 포괄적인 결정을 내리기 위해 적극적으로 앞이나 뒤를 살펴봅니다.

이러한 계획 프로세스를 설계하기 위해 프린스턴 대학과 Google DeepMind의 연구자들은 먼저 인공 지능(및 인지 과학)의 기원을 되돌아보고 Newell, Shaw 및 Simon이 탐구한 계획 프로세스에서 배우기로 결정했습니다. 1950년대 영감. Newell과 동료들은 문제 해결을 트리로 표현된 조합 문제 공간 검색으로 설명합니다. 따라서 그들은 일반적인 문제 해결을 위해 언어 모델에 적합한 ToT(Tree of Thought) 프레임워크를 제안했습니다.

생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT 군사훈련 LLM

논문 링크: https://arxiv.org/pdf/2305.10601.pdf

프로젝트 주소: https://github.com/ysymyth/tree-of -thought-llm

그림 1에서 볼 수 있듯이 기존 방법은 연속적인 언어 시퀀스를 샘플링하여 문제를 해결하는 반면, ToT는 문제 해결의 중간 단계로 각 생각이 일관된 언어 시퀀스인 사고 트리를 적극적으로 유지합니다(표 1).

생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT 군사훈련 LLM

생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT 군사훈련 LLM

이러한 높은 수준의 의미 단위를 통해 LM은 사려 깊은 추론 과정을 통해 문제 해결 과정에 다양한 중간 생각의 기여도를 자체 평가할 수 있습니다(그림 2, 4, 6) . LM 자체 평가 및 숙고를 통해 검색 휴리스틱을 구현하는 것은 이전 검색 휴리스틱이 프로그래밍되거나 학습되었기 때문에 새로운 접근 방식입니다.

생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT 군사훈련 LLM

생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT 군사훈련 LLM

마지막으로 연구자들은 다양한 생각을 생성하고 평가하는 언어 기반 능력을 BFS(Breadth-First Search) 또는 DFS(Depth-First Search)와 같은 검색 알고리즘과 결합했습니다. ), 이러한 알고리즘을 사용하면 미래 예측 및 역추적 기능을 통해 사고 트리를 체계적으로 탐색할 수 있습니다.

실험 단계에서 연구원들은 24점 게임, 창의적 글쓰기, 크로스워드 퍼즐(표 1)이라는 세 가지 작업을 설정했습니다. 이러한 문제는 기존 LM 추론 방법으로는 상당히 어려운 문제이며 GPT-4에서도 예외는 아닙니다. 이러한 작업에는 연역적, 수학적, 일반 지식, 어휘 추론 기술, 체계적인 계획 또는 검색을 통합하는 방법이 필요합니다. 실험 결과에 따르면 ToT는 다양한 수준의 사고, 다양한 사고 생성 및 평가 방식을 지원하고 다양한 검색 알고리즘에 적응할 수 있을 만큼 다재다능하고 유연하기 때문에 이 세 가지 작업에서 우수한 결과를 달성합니다. 체계적인 실험 절제 분석을 통해 저자는 이러한 선택이 모델 성능에 어떤 영향을 미치는지 탐구하고 LM 교육 및 사용에 대한 향후 방향에 대해 논의합니다.

생각하는 나무: 사려 깊은 문제 해결을 위한 언어 모델 활용

진정한 문제 해결 프로세스에는 사용 가능한 정보를 반복적으로 사용하여 탐색을 시작하고 궁극적으로 해결책을 찾을 수 있는 방법이 발견될 때까지 더 많은 정보가 표시됩니다. ——Newell et al.

인간 문제 해결에 관한 연구에 따르면 인간은 조합 문제 공간을 검색하여 문제를 해결합니다. 이는 노드가 부분 솔루션을 나타내고 분기가 이를 수정하는 연산자에 해당하는 트리로 볼 수 있습니다. 어떤 분기가 선택되는지는 문제 공간을 탐색하고 문제 해결사를 솔루션 방향으로 안내하는 데 도움이 되는 경험적 방법에 의해 결정됩니다. 이 관점은 일반적인 문제를 해결하기 위해 언어 모델을 사용하는 기존 접근 방식의 두 가지 주요 단점을 강조합니다. 1) 로컬에서는 사고 과정, 즉 트리의 분기에서 서로 다른 연속을 탐색하지 않습니다. 2) 전 세계적으로 이러한 다양한 옵션을 평가하는 데 도움이 되는 어떤 종류의 계획, 미리 내다보기 또는 역추적(인간 문제 해결의 특징인 것으로 보이는 일종의 경험적 유도 검색)도 포함되지 않습니다.

이러한 문제를 해결하기 위해 저자는 언어 모델이 사고 경로에서 다양한 추론 방법을 탐색할 수 있도록 하는 패러다임인 생각의 나무(ToT)를 소개합니다(그림 1 (c)). ToT는 모든 문제를 트리 검색으로 구성합니다. 여기서 각 노드는 상태 s = [x, z_1・・・i ]이며, 지금까지의 입력과 일련의 생각을 통해 부분적인 솔루션을 나타냅니다. ToT의 구체적인 예에는 다음 네 가지 질문에 대한 답변이 포함됩니다.

  • 1. 중간 프로세스를 사고 단계로 나누는 방법
  • 2. 각 상태에서 잠재적 사고를 생성하는 방법; 영감을 주는 방법 공식에서 상태를 평가합니다.
  • 4. 사용할 검색 알고리즘.
  • 1. 생각의 분해. CoT는 명시적인 분해 없이 일관되게 사고를 샘플링하는 반면, ToT는 문제 속성을 활용하여 중간 사고 단계를 설계하고 분해합니다. 표 1에서 볼 수 있듯이, 생각은 문제에 따라 몇 단어(크로스워드 퍼즐), 방정식(24점 게임), 쓰기 계획(창의적 글쓰기)이 될 수 있습니다. 일반적으로 생각은 LM이 예상되는 다양한 샘플을 생성할 수 있을 만큼 충분히 "작아야"하지만(예: 일관성이 되기에는 너무 "큰" 책을 생성하는 등) 생각은 충분히 "크"어야 합니다. LM은 문제 해결에 대한 전망을 평가할 수 있습니다(예를 들어 토큰 생성은 일반적으로 평가하기에는 너무 작습니다).

2. 사고 생성기 G(p_θ, s, k). 트리 상태 s = [x, z_1・・・i]가 주어지면 이 연구는 다음 사고 단계에 대한 k개의 후보를 생성하기 위해 두 가지 전략을 활용합니다.

3. 상태 평가자 V(p_θ, S). 다양한 상태의 경계가 주어지면 상태 평가자는 문제 해결을 위한 진행 상황을 평가하여 어떤 상태를 계속 탐색해야 하는지, 어떤 순서로 탐색해야 하는지 결정합니다. 휴리스틱은 검색 문제를 해결하는 표준 방법이지만 프로그래밍 방식(예: DeepBlue)이거나 학습된 방법(예: AlphaGo)인 경우가 많습니다. 이 글은 상태에 대해 의도적으로 추론하기 위해 언어를 사용하는 세 번째 대안을 제안합니다. 적용 가능한 경우, 그러한 사려 깊은 경험적 방법은 프로그래밍 규칙보다 더 유연하고 학습 모델보다 더 효율적일 수 있습니다.

Thought Generator와 유사하게 상태를 개별적으로 또는 함께 평가하는 두 가지 전략을 고려하십시오.

(1) 각 상태를 독립적으로 평가

  • (2) 여러 상태에 걸쳐 폴링
  • 두 가지 모두 사용 전략을 사용하는 경우 LM은 가치 또는 투표 결과를 통합하고 보다 안정적이고 강력한 휴리스틱을 위해 시간, 리소스 및 비용을 교환하도록 여러 번 메시지를 받을 수 있습니다.
  • 4. 검색 알고리즘. 마지막으로, ToT 프레임워크 내에서는 트리 구조를 기반으로 다양한 검색 알고리즘을 플러그 앤 플레이할 수 있습니다. 이 기사에서는 상대적으로 간단한 두 가지 검색 알고리즘을 살펴보고 향후 연구를 위해 더 발전된 알고리즘을 남겨둡니다.

    • (1) 너비 우선 검색(BFS)(알고리즘 1)
    • (2) 깊이 우선 검색(DFS) (알고리즘 2)

    개념적으로 ToT는 언어 모델이 일반적인 문제를 해결하는 방법으로 여러 가지 이점을 가지고 있습니다.

    • (1) 보편성. IO, CoT, CoT-sc 및 자체 개선은 ToT의 특별한 경우로 볼 수 있습니다(예: 깊이와 폭이 제한된 트리, 그림 1)
    • (2) 모듈성. 기본 LM 및 사고 분해, 생성, 평가 및 검색 프로세스는 모두 독립적으로 다를 수 있습니다.
    • (3) 적응성. 다양한 문제 속성, LM 기능 및 리소스 제약 조건에 적응할 수 있습니다.
    • (4) 편의성. 추가 교육은 필요하지 않으며 사전 교육을 받은 LM이면 충분합니다.

    실험 결과

    이 연구는 표준 IO 프롬프트 또는 CoT(사상 사슬) 프롬프트를 통해 샘플링된 최첨단 언어 모델 GPT-4를 사용하더라도 여전히 어려운 세 가지 작업을 제시합니다.

    24점 수학 게임

    4개의 숫자가 주어지면 플레이어는 이 4개의 숫자와 기본 수학 연산 기호(더하기 기호, 빼기 기호, 곱하기 기호, 나누기 기호)를 제한된 시간 내에 사용해야 합니다. 24로 평가되는 표현식입니다. 예를 들어 숫자가 4, 6, 8, 2인 경우 가능한 해는 (8 ¼ (4 - 2)) × 6 = 24입니다.

    표 2에 표시된 것처럼 IO, CoT 및 CoT-SC 프롬프트 방법을 사용하면 작업 성과가 좋지 않아 7.3%, 4.0% 및 9.0% 성공률만 달성했습니다. 이에 비해 b(breadth) = 1인 ToT는 45%의 성공률을 달성했고, b = 5인 ToT는 74%에 도달했습니다. 또한 IO/CoT의 oracle 설정을 고려하여 k 샘플(1 ≤ k ≤ 100) 중 가장 좋은 값을 사용하여 성공률을 계산했습니다.

    IO/CoT(k개의 최고 결과)를 ToT와 비교하기 위해 연구원은 ToT의 각 작업에서 방문한 트리 노드 수를 계산하는 것을 고려합니다. 여기서 b = 1・・・5 및 5 성공률은 다음과 같이 매핑됩니다. 그림 3(a)는 IO/CoT(k개의 최상의 결과)를 도박 기계의 k 노드를 방문하는 것으로 간주합니다. 놀랍지도 않게 CoT는 IO보다 확장성이 뛰어나며 최고의 100개 CoT 샘플은 49%의 성공률을 달성했는데 이는 여전히 ToT(b> 1)에서 더 많은 노드를 탐색하는 것보다 훨씬 낮습니다.

    생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT 군사훈련 LLM

    아래 그림 3 (b)는 작업 실패 시 CoT 및 ToT 샘플을 분석합니다. 특히 CoT 샘플의 약 60%는 첫 번째 생성 단계 이후 이미 실패했습니다. 이는 처음 세 단어(예: "4 + 9")를 생성하는 것과 같습니다. 이는 왼쪽에서 오른쪽으로 직접 디코딩하는 문제를 더욱 분명하게 만듭니다.

    생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT 군사훈련 LLM

    Creative Writing

    연구원들은 또한 4개의 무작위 문장을 입력하고 각 문단이 4로 시작하는 4개의 문단을 포함하는 일관된 기사를 출력하는 창의적 글쓰기 작업을 발명했습니다. 입력 문장. 이러한 작업은 개방적이고 탐색적이며 창의적 사고와 높은 수준의 계획에 도전합니다.

    아래 그림 5 (a)는 100개 작업에 대한 GPT-4의 평균 점수를 보여줍니다. 여기서 ToT(7.56)는 IO(6.19) 및 CoT(6.93)보다 더 일관된 단락을 생성합니다. 이러한 자동 조치는 시끄러울 수 있지만 그림 5(b)는 인간이 100개 통로 쌍 중 41개 쌍에서 CoT보다 ToT를 선호하는 반면, 21개 쌍만이 ToT보다 CoT를 선호한다는 것을 확인합니다(나머지 38개 쌍은 "유사하게 일관됨"으로 확인됨).

    마지막으로, 반복 최적화 알고리즘은 IO 일관성 점수가 6.19에서 7.67로 증가하고 ToT 일관성 점수가 7.56에서 7.91로 증가하여 이 자연어 작업에서 더 나은 결과를 얻었습니다. 연구자들은 이것이 ToT 프레임워크의 세 번째 사고 생성 방식이라고 볼 수 있으며, 순차적 생성이 아닌 기존 사고의 정제를 통해 새로운 사고가 생성될 수 있다고 믿습니다.

    생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT 군사훈련 LLM

    Mini Crossword

    "24 도트 수학 게임"과 창의적인 글쓰기에서 ToT는 상대적으로 간단합니다. 최종 출력에 도달하려면 최대 3개의 사고 단계가 필요합니다. 연구자들은 자연어에 대한 검색 질문의 더 어려운 계층으로 5×5 미니 크로스워드 퍼즐을 탐색할 것입니다. 이번에도 목표는 단지 ​​작업을 해결하는 것이 아닙니다. 일반적인 크로스워드 퍼즐은 LM 대신 대규모 검색을 활용하는 특수 NLP 파이프라인으로 쉽게 풀 수 있기 때문입니다. 대신, 연구자들은 일반적인 문제 해결사로서 언어 모델의 한계를 탐구하고, 자체 사고를 탐구하며, 탐색을 안내하기 위한 경험적 방법으로 엄격한 추론을 사용하는 것을 목표로 합니다.

    아래 표 3에서 볼 수 있듯이 IO 및 CoT 프롬프트 방법은 단어 수준 성공률이 16% 미만으로 성능이 좋지 않은 반면 ToT는 모든 측정 항목을 크게 개선하여 20 4년에 단어 수준 성공률 60%를 달성했습니다. 게임에서 해결됩니다. IO와 CoT에 다양한 신호를 시도하고 결정을 변경하거나 역추적하는 메커니즘이 없다는 점을 고려하면 이러한 개선은 놀라운 일이 아닙니다.

    생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT 군사훈련 LLM

위 내용은 생각하고 생각하고 멈추지 않고 생각하는 Thinking Tree ToT '군사훈련' LLM의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿