대규모 언어 모델(LLM)은 특정 작업에 대한 교육이나 미세 조정 없이 상황 내 학습을 통해 다양하고 복잡한 작업에서 뛰어난 성능을 보여주었습니다. 최근 프롬프트 및 디코딩의 발전으로 LLM이 복잡한 추론을 해결할 수도 있습니다. 사명이 현실이 되었습니다.
그러나 LLM은 오래되었거나 불완전하거나 잘못된 지식을 저장할 수 있으며 LLM을 실제 응용 프로그램에 성공적으로 배포하려면 외부 지식 소스(예: Wikipedia)가 중요합니다. 이전에는 T5, BERT 및 RoBERTa와 같은 소규모 언어 모델(LM)에 지식을 적용하려는 시도가 있었지만 이러한 방법은 종종 추가 교육이나 미세 조정이 필요하고 비용이 많이 들고 LLM에 완전히 비실용적입니다.
이를 기반으로 로체스터 대학교, 텐센트 AI 연구소, 펜실베니아 대학교 연구진은 LLM에서 외부 지식을 활용하기 위한 RR(Rethinking with Retrieval)이라는 후처리 방법을 공동으로 제안했습니다.
논문 주소: https://arxiv.org/pdf/2301.00303v1.pdf
이 연구의 아이디어는 먼저 생각의 사슬을 사용하는 것입니다. (CoT) 프롬프트 방법은 Wang et al.(2022)의 방법과 유사하게 다양한 추론 경로 세트를 생성합니다. 그런 다음 연구에서는 이러한 경로의 각 추론 단계를 사용하여 관련 외부 지식을 검색하므로 RR 방법이 더 그럴듯한 설명과 더 정확한 예측을 제공할 수 있습니다.
이 연구에서는 GPT-3 175B와 여러 일반적인 외부 지식 소스(Wikipedia, Wikidata, WordNet 및 Conceptnet)를 사용하여 상식 추론, 타이밍 추론 및 표 형식 추론을 포함한 세 가지 복잡한 추론 작업에 대한 RR 방법의 효과를 평가합니다. 실험 결과에 따르면 RR은 추가 교육이나 미세 조정 없이 이 세 가지 작업에서 다른 방법보다 지속적으로 뛰어난 성능을 발휘하며, 이는 RR 방법이 LLM 성능을 향상시키기 위해 외부 지식을 활용하는 데 큰 이점이 있음을 나타냅니다.
실제로 LLM은 질문에 대답하는 데 필요한 요소를 정확하게 포착하지만 이러한 모델은 때때로 잘못된 결과를 생성합니다. 이 현상은 LLM이 다음을 포함하여 지식을 저장하고 검색하는 방식에 몇 가지 문제가 있음을 나타냅니다.
RR 방법의 일반적인 아이디어는 다음과 같습니다. 입력 질문 Q가 주어지면 RR 방법은 먼저 서로 다른 추론 경로 R_1, R_2,... 세트를 생성하라는 메시지를 표시하면서 체인을 사용합니다. , R_N, 여기서 각 추론 경로 R_i는 설명 E_i와 다음 예측 P_i로 구성되며, 각 추론 경로의 설명을 뒷받침하기 위해 적절한 지식 베이스 KB에서 관련 지식 K_1,...,K_M을 검색하고, 가장 일관된 지식이 선택됩니다 .
CoT(사고 사슬) 프롬프트. 표준 프롬프트와 크게 다른 CoT 프롬프트에는 추론 프로세스를 포착하는 일련의 짧은 문장을 생성하기 위한 프롬프트의 단계별 추론 예제 시연이 포함됩니다.
예를 들어, "아리스토텔레스는 노트북을 사용했습니까?"라는 입력 질문이 있는 경우 CoT 프롬프트는 완전한 추론 경로를 생성하는 것을 목표로 합니다.
CoT 프롬프트의 추론 프로세스는 "아리스토텔레스는 기원전 322년에 사망했습니다. 최초의 노트북은 1980년에 발명되었습니다. 따라서 아리스토텔레스는 노트북을 사용하지 않았습니다. 따라서 대답은 '아니오'입니다.
다양한 추론 경로 샘플링. Wang et al.(2022)과 유사하게, 이 연구는 Wei et al.(2022) 경로와 같이 최적 비례 경로(탐욕)만 고려하는 대신 다른 추론 경로 세트 R_1, R_2, ..., R_N을 샘플링했습니다. . "아리스토텔레스는 노트북을 사용했습니까?"라는 질문에 대해 가능한 추론 경로는 다음과 같습니다.
(R_1) 아리스토텔레스는 2000년에 사망했습니다. 최초의 노트북은 1980년에 발명되었습니다. 그래서 아리스토텔레스는 노트북을 사용했습니다. 따라서 이 질문에 대한 대답은 '예'입니다.
(R_2) 아리스토텔레스는 기원전 322년에 사망했습니다. 최초의 노트북은 2000년에 발명되었습니다. 따라서 아리스토텔레스는 노트북을 사용하지 않았습니다. 그래서 대답은 '아니요'입니다.
지식 검색. 다양한 지식 기반을 사용하여 다양한 작업을 처리할 수 있습니다. 예를 들어, "아리스토텔레스가 노트북을 사용했습니까?"라는 질문에 답하기 위해 Wikipedia를 외부 지식 기반 KB로 사용할 수 있습니다. 정보 검색 기술은 분해된 추론 단계를 기반으로 Wikipedia에서 관련 지식 K_1,...K_M을 검색하는 데 사용될 수 있습니다. 이상적으로는 이 질문에 대해 Wikipedia에서 다음 두 문단을 얻을 수 있습니다.
(K_1) 아리스토텔레스(기원전 384년 ~ 기원전 322년)는 고대 그리스 고전 시대의 그리스 철학자이자 학식 있는 대가
( K_2) 최초의 노트북인 Epson HX-20은 1980년에 발명되었습니다...
충실한 추론. 지식 베이스 KB에서 검색된 관련 지식 K_1,...,K_M을 기반으로 f_KB(R_i) 함수를 사용하여 각 추론 경로 R_i의 신뢰도를 추정할 수 있습니다. 최종 예측은 다음 추론 프로세스를 적용하여 얻을 수 있습니다.
이 섹션에서는 상식 추론, 시간 추론, 세 가지 복잡한 추론 작업에 대한 RR 평가를 소개합니다. 표 형식 추론.
실험적 설정. 본 연구에서는 달리 명시하지 않는 한 모든 실험에서 GPT-3 text-davinci-002를 사용합니다. 실험 완료 시 생성되는 토큰의 최대 수는 256개, 제로샷(zero-shot), 퓨샷(Few-shot), 사고체인 프롬프트(chain-of-thought)로 설정되었으며, 온도 매개변수(온도)는 0으로 고정되었다.
결과. 표 1에서 볼 수 있듯이 제안된 방법인 RR은 추가 교육이나 미세 조정 없이 세 가지 추론 작업 모두에서 모든 기준선보다 지속적으로 성능이 뛰어납니다. 이러한 결과는 LLM 성과를 향상시키기 위해 외부 지식을 활용하는 RR의 효율성을 강조합니다.
이 연구는 StrategyQA 데이터세트에서 CoT 프롬프트 방법을 사용한 GPT-3 분석을 보여줍니다. GPT-3의 출력을 주의 깊게 검토한 후, 연구에서는 RR이 많은 문제에 대해 합리적인 설명과 정확한 예측을 제공할 수 있음을 관찰했습니다. 예를 들어, "조지아주 올버니가 뉴욕주 올버니보다 먼저 주민 100,000명에 도달할 것인가?"라는 질문이 주어지면 GPT-3는 다음과 같은 출력을 생성했습니다.
전체적으로 질문에 대한 출력 답변의 품질이 높습니다 . 그러나 연구에서는 GPT-3가 일반적으로 적절한 관점을 식별할 수 있음에도 불구하고 때때로 해석에 대해 잘못된 사실적 뒷받침을 제공하거나 예측에 대해 잘못된 추론을 할 수 있다는 점도 관찰했습니다.
지원 사실이 잘못되었습니다. 표 2에서 볼 수 있듯이 GPT-3는 빌보드 차트에서 가장 높은 순위를 기록한 노래에 대해 정답인 Yeah 대신 Get Low가 가장 높은 순위를 기록한 노래에 대해 잘못된 사실적 지원을 제공합니다. 게다가 GPT-3는 후지산 정상이 일본해보다 높을 수 없다는 것이 정답이 아니라 잘못된 추론을 내린다.
자세한 기술적인 내용은 원본 문서를 참조하세요.
위 내용은 대규모 언어 모델을 무작위로 구성하는 것은 금지되어 있으며 일부 외부 지식을 고려하면 추론은 매우 신뢰할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!