목차
Method
실험 및 결과
기술 주변기기 일체 포함 언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

Apr 08, 2023 am 11:11 AM
도구 모델

자연어 처리 작업에서 대규모 언어 모델은 제로샷 및 퓨샷 학습에서 인상적인 결과를 달성했습니다. 그러나 모든 모델에는 추가 확장을 통해 부분적으로만 해결될 수 있는 본질적인 한계가 있습니다. 구체적으로 모델의 한계로는 최신 정보에 접근할 수 없다는 점, 사실에 대한 '정보 환각', 저자원 언어 이해의 어려움, 정확한 계산을 위한 수학적 능력 부족 등이 있습니다.

이러한 문제를 해결하는 간단한 방법은 모델에 검색 엔진, 계산기 또는 달력과 같은 외부 도구를 장착하는 것입니다. 그러나 기존 방법은 종종 광범위한 수동 주석에 의존하거나 도구 사용을 특정 작업 설정으로 제한하여 외부 도구와 결합된 언어 모델의 사용을 일반화하기 어렵게 만듭니다.

이 병목 현상을 해결하기 위해 Meta AI는 최근 언어 모델이 다양한 외부 도구를 "사용"하는 방법을 학습할 수 있는 Toolformer라는 새로운 방법을 제안했습니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

논문 주소: https://arxiv.org/pdf/2302.04761v1.pdf

Toolformer는 곧 큰 주목을 받았고, 이 논문이 문제를 해결했다고 생각하는 사람들도 있습니다. 현재 대규모 언어 모델에는 많은 문제가 있으며 그는 "이것은 최근 몇 주 동안 가장 중요한 논문입니다."라고 칭찬했습니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

누군가는 Toolformer가 자기 지도 학습을 사용하여 대규모 언어 모델이 몇 개의 샘플만으로 일부 API 및 도구를 사용하는 방법을 학습할 수 있다는 점을 지적했습니다. 이는 매우 유연하고 효율적입니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

어떤 사람들은 Toolformer가 우리를 인공일반지능(AGI)에 한발 더 가까이 다가갈 것이라고 생각하기도 합니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

Toolformer는 다음과 같은 실질적인 요구 사항을 충족하기 때문에 매우 높은 평가를 받았습니다.

  • 대규모 언어 모델은 자체 감독 방식으로 도구 사용법을 배워야 하며 광범위한 매뉴얼이 필요하지 않습니다. 주석. 사람이 주석을 추가하는 데 드는 비용이 높기 때문에 이는 매우 중요합니다. 그러나 더 중요한 것은 사람이 유용하다고 생각하는 것과 모델이 유용하다고 생각하는 것이 다를 수 있다는 것입니다.
  • 언어 모델에는 특정 작업에 국한되지 않는 도구의 보다 포괄적인 사용이 필요합니다.

이것은 위에서 언급한 병목 현상을 분명히 해결합니다. Toolformer의 방법과 실험 결과를 자세히 살펴보겠습니다.

Method

Toolformer는 다음과 같은 기능을 갖춘 대규모 언어 모델을 기반으로 처음부터 데이터 세트를 생성한다는 아이디어(Schick and Schütze, 2021b; Honovich et al., 2022; Wang et al., 2022)를 기반으로 합니다. 컨텍스트 학습(ICL): API를 사용하는 인간의 샘플이 몇 개만 주어지면 LM이 잠재적인 API 호출로 거대한 언어 모델링 데이터세트에 주석을 달도록 한 다음 자체 감독 손실 함수를 사용하여 실제로 모델 예측에 도움이 되는 API 호출을 결정할 수 있습니다. 향후 토큰, 그리고 마지막으로 LM 자체에 유용한 API 호출을 기반으로 미세 조정합니다.

Toolformer는 사용된 데이터 세트에 구애받지 않기 때문에 모델이 사전 훈련된 것과 정확히 동일한 데이터 세트에 사용할 수 있으므로 모델이 일반성과 언어 모델링 기능을 잃지 않습니다.

구체적으로 이 연구의 목표는 언어 모델 M에 API 호출을 통해 다양한 도구를 사용할 수 있는 기능을 제공하는 것입니다. 이를 위해서는 각 API의 입력 및 출력이 텍스트 시퀀스로 특성화될 수 있어야 합니다. 이를 통해 각 호출의 시작과 끝을 표시하는 데 사용되는 특수 토큰을 사용하여 API 호출을 특정 텍스트에 원활하게 삽입할 수 있습니다.

이 연구는 각 API 호출을 튜플로 표현합니다

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

, 여기서 a_c는 API의 이름이고 i_c는 해당 입력입니다. 해당 결과 r이 있는 API 호출 c가 주어지면 이 연구는 결과를 제외하고 포함하는 선형화된 API 호출 순서를

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

여기서, , 및 "→"로 표현합니다. . 아래 그림 1에서 볼 수 있듯이 이 접근 방식을 통해 LM은 다양한 도구를 제어하는 ​​방법을 배우고 어떤 도구를 언제, 어떻게 사용할지 스스로 선택할 수 있습니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

데이터세트

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

가 주어지면 연구에서는 먼저 API 호출을 추가하여 이 데이터세트를 데이터세트 C*로 변환했습니다. 이는 아래 그림 2에 표시된 것처럼 세 단계로 수행됩니다. 먼저 연구에서는 M의 상황 내 학습 기능을 활용하여 다수의 잠재적 API 호출을 샘플링한 다음 이러한 API 호출을 실행하고 얻은 응답이 예측에 도움이 되는지 확인합니다. 필터링 기준으로 사용될 미래 토큰입니다. 필터링 후 연구에서는 API 호출을 다른 도구에 병합하여 궁극적으로 데이터 세트 C*를 생성하고 이 데이터 세트에서 M 자체를 미세 조정합니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

실험 및 결과

이 연구에서는 다양한 다운스트림 작업에 대한 실험을 수행했으며 결과는 다음과 같습니다. 사전 학습된 6.7B 매개변수를 기반으로 Toolformer(다양한 API 사용 방법 학습) GPT-J 모델 및 도구)는 다양한 작업에서 더 큰 GPT-3 모델 및 기타 여러 기준보다 훨씬 뛰어난 성능을 발휘합니다.

이 연구에서는 LAMA 벤치마크의 SQuAD, GoogleRE 및 T-REx 하위 집합에 대한 여러 모델을 평가했으며 실험 결과는 아래 표 3에 나와 있습니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

Toolformer Inference의 수학을 테스트하려면 기능, 본 연구에서는 ASDiv, SVAMP 및 MAWPS 벤치마크에 대한 실험을 수행했습니다. 실험에 따르면 Toolformer는 대부분의 경우 계산기 도구를 사용하며 이는 OPT(66B) 및 GPT-3(175B)보다 훨씬 뛰어납니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

질문 응답 측면에서 본 연구는 웹 질문, 자연 질문 및 TriviaQA의 세 가지 질의 응답 데이터 세트에 대한 실험을 수행했습니다. Toolformer는 동일한 크기의 기본 모델보다 성능이 크게 뛰어나지만 GPT-3(175B)보다 열등합니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

언어 간 작업 측면에서 본 연구에서는 Toolformer와 MLQA의 모든 기본 모델을 비교했으며 그 결과는 아래 표 6과 같습니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

달력 API 연구 유용성을 입증하기 위해 이 연구에서는 TEMPLAMA에 대한 여러 모델과 DATESET이라는 새로운 데이터 세트를 실험합니다. Toolformer는 모든 기준보다 성능이 뛰어나지만 TEMPLAMA 달력 도구를 사용하지 않습니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

다양한 다운스트림 작업의 성능 향상을 검증하는 것 외에도, 본 연구에서는 API 호출의 미세 조정으로 인해 Toolformer의 언어 모델링 성능이 저하되지 않는지 확인하기를 희망합니다. 이를 위해 본 연구에서는 두 가지 언어 모델링 데이터셋을 대상으로 실험을 수행하여 평가하였으며, 모델의 Perplexity는 아래 표 8과 같다.

API 호출이 없는 언어 모델링의 경우 API 호출을 추가하는 데 비용이 들지 않습니다.

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

마지막으로 연구자들은 언어 모델의 규모가 커짐에 따라 외부 도구의 도움을 구하는 기능이 모델 성능에 미치는 영향을 분석했습니다. 분석 결과는 아래 그림 4에 나와 있습니다

언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer

관심 있는 독자는 원본 논문을 읽고 더 많은 연구 세부 사항을 알아볼 수 있습니다.

위 내용은 언어 모델이 자체적으로 검색 엔진을 사용하는 방법을 배웠습니까? Meta AI가 제안하는 API 호출 자기지도 학습 방법 Toolformer의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP의 CURL 라이브러리를 사용하여 JSON 데이터가 포함 된 게시물 요청을 보내는 방법은 무엇입니까? PHP의 CURL 라이브러리를 사용하여 JSON 데이터가 포함 된 게시물 요청을 보내는 방법은 무엇입니까? Apr 01, 2025 pm 03:12 PM

PHP 개발에서 PHP의 CURL 라이브러리를 사용하여 JSON 데이터를 보내면 종종 외부 API와 상호 작용해야합니다. 일반적인 방법 중 하나는 컬 라이브러리를 사용하여 게시물을 보내는 것입니다 ...

통화 서클에서 일반적으로 사용되는 가상 환전에서 초보자 권장 자습서 통화 서클에서 일반적으로 사용되는 가상 환전에서 초보자 권장 자습서 Mar 31, 2025 pm 10:45 PM

이 기사는 통화 서클의 초보자를위한 자세한 교환 권장 사항 및 입문 자습서를 제공합니다. Coinbase, Binance, Kraken, Ouyi 및 Sesame Open Door와 같은 일반적으로 사용되는 교환을 권장하며 등록, 신원 확인, 보안 설정, 재충전 및 거래 단계가 도입됩니다. 이 기사는 또한 초보자가 디지털 자산 분야에 안전하고 합리적으로 들어가도록 돕기 위해 보안 인식, 위험 관리 및 지속적인 학습의 중요성을 강조합니다.

램프 아키텍처에서 Node.js 또는 Python 서비스를 효율적으로 통합하는 방법은 무엇입니까? 램프 아키텍처에서 Node.js 또는 Python 서비스를 효율적으로 통합하는 방법은 무엇입니까? Apr 01, 2025 pm 02:48 PM

많은 웹 사이트 개발자는 램프 아키텍처에서 Node.js 또는 Python 서비스를 통합하는 문제에 직면 해 있습니다. 기존 램프 (Linux Apache MySQL PHP) 아키텍처 웹 사이트 요구 사항 ...

통화 서클 2025에서 일반적으로 사용되는 가상 화폐 거래소에 대한 최신 자습서 통화 서클 2025에서 일반적으로 사용되는 가상 화폐 거래소에 대한 최신 자습서 Mar 31, 2025 pm 10:57 PM

이 기사에서는 2025 년 Binance, Ouyi, Coinbase 및 참깨 오픈 도어를 포함하여 통화 서클에 들어가는 초보자에게 일반적으로 사용되고 비교적 안전한 가상 화폐 거래소를 권장합니다. 이 기사는 등록, 인증, 보안 설정 및 거래 프로세스에 대한 자세한 자습서를 제공하며, 초보자가 디지털 자산 거래를 안전하게 시작할 수 있도록 위험 관리, 보안 인식 및 지속적인 학습의 중요성을 강조합니다.

PHP 성능 분석 : YII2 프레임 워크에서 Excel Import로 인한 메모리 오버플로 및 시간 소모 문제를 효율적으로 문제 해결하는 방법? PHP 성능 분석 : YII2 프레임 워크에서 Excel Import로 인한 메모리 오버플로 및 시간 소모 문제를 효율적으로 문제 해결하는 방법? Apr 01, 2025 am 07:54 AM

PHP 성능 튜닝 : 메모리 오버플로 및 시간 소모 문제를 효율적으로 문제 해결합니다. 프로덕션 환경에서 데이터를 구문 분석하기 위해 Excel 파일을 가져 오면 종종 메모리 오버 플로우 오류가 발생하더라도 ...

무료 시장 소프트웨어 웹 사이트는 무엇입니까? 무료 시장 소프트웨어 웹 사이트는 무엇입니까? Mar 31, 2025 pm 10:36 PM

6 개의 무료 시장보기 소프트웨어 웹 사이트가 있습니다. 1. Binance 플랫폼, 디지털 자산 투자자에게 적합합니다. 2. 풍부한 시장 데이터를 제공하는 OKX 플랫폼; 3. Gate.io에서 거래하는 사용자에게 적합한 참깨 오픈 도어 (Gate.io) 플랫폼; 4. 전문 차트 도구 제공, TradingView; 5. 광범위한 디지털 자산 데이터를 다루는 CoinmarketCap; 6. 프로젝트 기본 평가 제공 Coingecko. 플랫폼을 선택할 때는 투자 객체, 차트 기능 요구 사항, 데이터 포괄 성 및 사용자 경험을 고려해야합니다.

PHP 스크립트를 백그라운드에서 실행하고 Enter를 통해 프로세스를 종료하는 방법은 무엇입니까? PHP 스크립트를 백그라운드에서 실행하고 Enter를 통해 프로세스를 종료하는 방법은 무엇입니까? Apr 01, 2025 am 07:48 AM

PHP 스크립트에서 백그라운드 작업을 구현하는 방법 PHP 스크립트를 작성할 때는 종종 스크립트를 백그라운드에서 실행하여 터미널 세션을 차지하지 않도록해야합니다. 우리가 가지고 있다고 가정 해

See all articles