알파카에 이어 동물 이름을 딴 모델이 있는데 이번에는 고릴라입니다.
현재 LLM이 호황을 누리고 많은 발전을 이루고 있으며 다양한 작업에서의 성능도 놀랍지만 API 호출을 통해 도구를 효과적으로 사용할 수 있는 이러한 모델의 잠재력은 여전히 탐구되어야 합니다.
GPT-4와 같은 오늘날의 최첨단 LLM의 경우에도 API 호출은 어려운 작업입니다. 주로 정확한 입력 매개변수를 생성할 수 없고 LLM이 API 호출의 잘못된 사용을 환각하는 경향이 있기 때문입니다. .
아니요, 연구원들은 API 호출 작성에서 GPT-4를 능가하는 성능을 발휘하는 미세 조정된 LLaMA 기반 모델인 Gorilla를 개발했습니다.
문서 검색기와 결합하면 Gorilla는 강력한 성능을 발휘하여 사용자 업데이트나 버전 변경을 더욱 유연하게 만듭니다.
또한 Gorilla는 LLM이 자주 직면하는 환각 문제도 크게 완화합니다.
모델의 기능을 평가하기 위해 연구원들은 HuggingFace, TorchHub 및 TensorHub API로 구성된 포괄적인 데이터 세트인 API 벤치마크도 도입했습니다.
LLM의 강력한 기능은 더 이상 소개할 필요가 없습니다. . 자연스러운 대화능력, 수학적 추론능력, 프로그램 종합능력 등을 포함합니다.
그러나 강력한 성능에도 불구하고 LLM에는 여전히 몇 가지 제한 사항이 있습니다. 또한, LLM은 지식 기반과 추론 능력을 적시에 업데이트하기 위해 재교육을 받아야 합니다.
LLM에 사용할 수 있는 도구를 승인함으로써 연구원은 LLM이 거대하고 끊임없이 변화하는 지식 기반에 액세스하여 복잡한 컴퓨팅 작업을 완료하도록 허용할 수 있습니다.
검색 기술과 데이터베이스에 대한 액세스를 제공함으로써 연구자는 LLM의 기능을 향상시켜 더 크고 역동적인 지식 공간을 처리할 수 있습니다.
마찬가지로 LLM은 계산 도구를 사용하여 복잡한 계산 작업을 완료할 수도 있습니다.
따라서 거대 기술 기업에서는 LLM이 API를 통해 외부 도구를 호출할 수 있도록 다양한 플러그인을 통합하려고 시도하기 시작했습니다.
더 작은 수동 코딩 도구부터 크고 끊임없이 변화하는 클라우드 API 공간을 호출할 수 있는 기능까지 이러한 변환을 통해 LLM을 네트워크에 필요한 컴퓨팅 인프라 및 기본 인터페이스로 전환할 수 있습니다.
전체 휴가 예약부터 컨퍼런스 개최까지의 작업은 항공편, 자동차 렌트, 호텔, 식사 및 엔터테인먼트에 대한 웹 API에 액세스할 수 있는 LLM과 대화하는 것만큼 간단해질 수 있습니다.
그러나 도구를 LLM에 통합하는 많은 이전 작업에서는 프롬프트에 쉽게 삽입할 수 있는 잘 문서화된 작은 API 세트를 고려했습니다.
변화하는 수백만 개의 API로 구성된 웹 규모 컬렉션을 지원하려면 연구자가 도구를 통합하는 방법을 다시 생각해야 합니다.
더 이상 단일 환경에서 모든 API를 설명하는 것은 불가능합니다. 많은 API에는 미묘한 제한과 제약이 있는 중복되는 기능이 있습니다. 이 새로운 환경에서 단순히 LLM을 평가하려면 새로운 벤치마크가 필요합니다.
이 백서에서 연구자들은 LLM이 API 및 API 문서를 사용하여 표현된 대규모, 중복 및 변경 도구 세트 중에서 정확하게 선택할 수 있도록 자체 구조화된 미세 조정 및 검색을 사용하는 방법을 탐구합니다.
연구원들은 복잡하고 종종 중복되는 기능을 갖춘 대규모 API 코퍼스인 공개 모델 센터에서 ML API(모델)를 스크랩하여 API Bench를 구축합니다.
연구원들은 데이터 세트를 구축하기 위해 TorchHub, TensorHub 및 HuggingFace라는 세 가지 주요 모델 센터를 선택했습니다.
연구원들은 TorchHub(94개 API 호출) 및 TensorHub(696개 API 호출)의 모든 API 호출을 철저하게 포함했습니다.
HuggingFace의 경우 모델 수가 많기 때문에 연구진은 각 작업 카테고리에서 가장 많이 다운로드된 모델 20개(총 925개)를 선정했습니다.
연구원들은 또한 Self-Instruct를 사용하여 각 API에 대한 10개의 사용자 질문에 대한 프롬프트를 생성했습니다.
따라서 데이터 세트의 각 항목은 지침 참조 API 쌍이 됩니다. 연구원들은 생성된 API의 기능적 정확성을 평가하기 위해 일반적인 AST 하위 트리 일치 기술을 사용했습니다.
연구원은 먼저 생성된 코드를 AST 트리로 구문 분석한 다음, 루트 노드가 연구원이 관심 있는 API 호출인 하위 트리를 찾은 다음 이를 사용하여 연구원의 데이터 세트를 인덱싱합니다.
연구원들은 LLM의 기능적 정확성과 환각 문제를 확인하고 해당 정확성에 대한 피드백을 제공합니다. 그런 다음 연구원들은 LLaMA-7B 기반 모델인 Gorilla를 미세 조정하여 연구원의 데이터 세트를 사용하여 문서 검색을 수행했습니다.
연구원들은 Gorilla가 API 기능 정확도와 환상 오류 감소 측면에서 GPT-4보다 훨씬 뛰어난 성능을 발휘한다는 사실을 발견했습니다.
연구원들은 그림 1에 예를 보여줍니다.
또한 연구원들의 Gorilla 검색 인식 교육을 통해 모델이 API 문서의 변경 사항에 적응할 수 있었습니다.
마지막으로 연구원들은 제약 조건을 이해하고 추론하는 Gorilla의 능력도 입증했습니다.
그리고 고릴라는 환상 면에서도 좋은 활약을 펼쳤습니다.
다음 그림은 제로 샘플(즉, 리트리버 없음)과 BM25, GPT 및 Oracle의 리트리버를 사용하는 네 가지 경우의 정확도와 환각을 비교한 것입니다.
그중 BM25와 GPT는 일반적으로 사용되는 검색기인 반면, Oracle 검색기는 관련 문서를 100% 관련성으로 반환하여 상한을 나타냅니다.
사진의 정확도가 높고 환상이 적은 것이 효과가 더 좋습니다.
전체 데이터 세트에서 Gorilla는 환각을 줄이면서 정확도를 향상시킵니다.
데이터 세트를 수집하기 위해 연구원들은 HuggingFace의 The Model Hub, PyTorch Hub 및 TensorFlow Hub 모델의 모든 온라인 모델을 주의 깊게 기록했습니다.
HuggingFace 플랫폼은 총 203,681개의 모델을 호스팅하고 서비스하고 있습니다.
그러나 이러한 모델 중 다수에 대한 문서는 열악합니다.
저품질 모델을 필터링하기 위해 연구진은 최종적으로 각 도메인에서 상위 20개 모델을 선택했습니다.
연구원들은 다중 모드 데이터용 도메인 7개, CV용 도메인 8개, NLP용 도메인 12개, 오디오용 도메인 5개, 표 형식 데이터용 도메인 2개, 강화 학습용 도메인 2개를 고려했습니다.
필터링 후 연구원들은 HuggingFace에서 총 925개의 모델을 얻었습니다. TensorFlow Hub의 버전은 v1과 v2로 구분됩니다.
최신 버전(v2)에는 총 801개의 모델이 있으며, 연구진이 모든 모델을 처리했습니다. 정보가 거의 없는 모델을 필터링한 결과 626개의 모델이 남았습니다.
TensorFlow Hub와 유사하게 연구원들은 Torch Hub에서 95개의 모델을 얻었습니다.
자가 지시 패러다임의 지침에 따라 연구자들은 GPT-4를 채택하여 합성 지시 데이터를 생성합니다.
연구원들은 세 가지 상황별 예와 참조 API 문서를 제공하고 API 호출을 위한 실제 사용 사례를 생성하는 작업을 모델에 맡겼습니다.
연구원들은 지침을 작성할 때 API 이름이나 힌트를 사용하지 않도록 모델에 구체적으로 지시했습니다. 연구원들은 3개의 모델 허브 각각에 대해 6개의 예제(명령-API 쌍)를 구축했습니다.
이 18개 지점은 수동으로 생성되거나 수정된 유일한 데이터입니다.
그리고 Gorilla는 특히 API 호출에 사용되는 검색 인식 LLaMA-7B 모델입니다.
그림 3에서 볼 수 있듯이 연구원들은 자체 구성을 사용하여 {instruction, API} 쌍을 생성했습니다.
LLaMA를 미세 조정하기 위해 연구원들은 이를 사용자-에이전트 채팅 스타일 대화로 변환했습니다. 여기서 각 데이터 포인트는 대화이고 사용자와 에이전트가 교대로 대화합니다.
그런 다음 연구원들은 기본 LLaMA-7B 모델에 대해 표준 지침 미세 조정을 수행했습니다. 실험에서 연구자들은 리트리버 유무에 관계없이 고릴라를 훈련시켰습니다.
이 연구에서 연구원들은 특정 작업에 적합한 API를 정확하게 식별하는 LLM의 능력을 향상시키기 위해 설계된 기술에 중점을 두었습니다. 이는 중요하지만 종종 간과되는 기술 개발 측면입니다.
API는 서로 다른 시스템 간의 효과적인 통신을 가능하게 하는 범용 언어로 작동하므로 API를 적절하게 사용하면 LLM이 더 다양한 도구와 상호 작용하는 능력을 향상시킬 수 있습니다.
Gorilla는 연구원들이 수집한 세 가지 대규모 데이터 세트에서 최첨단 LLM(GPT-4)보다 성능이 뛰어났습니다. Gorilla는 환각 없이 신뢰할 수 있는 API 호출의 ML 모델을 생성하고 API 선택 시 제약 조건을 충족합니다.
연구원들은 까다로운 데이터 세트를 찾기 위해 유사한 기능 때문에 ML API를 선택했습니다. ML 중심 API의 잠재적인 단점은 편향된 데이터에 대해 학습할 경우 특정 하위 그룹에 불이익을 줄 수 있는 편향된 예측을 생성할 가능성이 있다는 것입니다.
이러한 우려를 완화하고 이러한 API에 대한 더 깊은 이해를 촉진하기 위해 연구원들은 11,000개 이상의 명령-API 쌍을 포함하는 보다 광범위한 데이터 세트를 출시하고 있습니다.
아래 예에서 연구원은 AST(추상 구문 트리) 하위 트리 일치를 사용하여 API 호출의 정확성을 평가합니다.
추상 구문 트리는 소스 코드 구조를 트리로 표현한 것으로, 코드를 더 잘 분석하고 이해하는 데 도움이 됩니다.
먼저 연구원들은 Gorilla(왼쪽)가 반환한 API 호출에서 관련 API 트리를 구축했습니다. 그런 다음 이를 데이터 세트와 비교하여 API 데이터 세트에 하위 트리 일치가 있는지 확인합니다.
위 예에서 일치하는 하위 트리는 갈색으로 강조 표시되어 API 호출이 실제로 정확함을 나타냅니다. 여기서 Pretrained=True는 선택적 매개변수입니다.
이 리소스는 기존 API를 연구하고 측정하기 위한 귀중한 도구로서 더 넓은 커뮤니티에 서비스를 제공하여 기계 학습의 보다 공평하고 최적화된 사용에 기여할 것입니다.
위 내용은 가장 강력한 API 호출 모델이 여기에 있습니다! LLaMA 미세 조정을 기반으로 GPT-4를 능가하는 성능의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!