작은 언어 모델이 AI 세계에서 차세대 대세인 이유는 무엇입니까?-일체 포함-php.cn

번역기 | Bugatti

리뷰어 | Chonglou

AI 분야에서 기술 거인들이 점점 더 많은 것을 구축하기 위해 경쟁하고 있습니다. 언어 모델, 지금 놀라운 새로운 트렌드가 있습니다. 작은은 큰 것입니다. 대규모 언어 모델의 진행 (LLM)이 침체 조짐 을 보이면서 연구원과 개발자 는 점점 더 작은 언어 모델 (SLM) 에 관심을 로 돌리고 있습니다. 이 종류의 작고 효율적이며 적응력이 뛰어난 AI 모델은 도전적이며 큰 것이 더 좋다" 개념이며, 우리가 AI 개발을 처리하는 방식을 바꿀 것으로 예상됩니다.

LLM이

작은 언어 모델이 AI 세계에서 차세대 대세인 이유는 무엇입니까? 정체되기 시작하나요? 최근 발표된

Vellum

및 HuggingFace 성과 비교 결과를 보면 LLM 간 성과 격차가 빠르게 줄어들고 있음을 알 수 있습니다. 이러한 추세 는 객관식 문제, 추론 및 수학 문제 와 같은 특정 작업 에서 특히 두드러집니다. 성능차이는 미미합니다. 예를 들어객관식 질문에서 Claude 3 Opus, GPT-4 및 Gemini Ultra의 정확도 는 모두 입니다. 83% 위, 추론 작업에서 Claude 3 Opus, GPT-4 및 Gemini 1.5 Pro의 정확도는 92%를 초과합니다. 은 심지어 더 작은 모델 (예: Mixtral 8x7B

및

Llama 2 - 70B )을 의미합니다. )in some Aspects도 보여줬어요 추론 및 객관식 질문과 같은 놀라운 결과 ; 이러한 측면에서 소형 모델 이 일부 큰 모델보다 뛰어났습니다. . 이는 모델 크기가 성능을 결정하는 유일한 요소가 아닐 수도 있지만 아키텍처, 훈련 데이터, 미세 조정 기술과 같은 다른 측면이 중요한 역할을 할 수 있음을 시사합니다. Uber AI의 전 수장이자 "Rebooting AI"Gary Marcus라는 책의 저자는 다음과 같이 말했습니다: “

한번 살펴보세요

다스 최근 기사, 일반적으로 GPT-4와 동일한 수준입니다. ""인공 지능 재부팅"에서 신뢰할 수 있는 AI을 구축하는 방법을 설명합니다. Marcus가 목요일에 IT 외신 "VentureBeat"과 인터뷰를 가졌습니다. "일부 는 GPT-4보다 약간 낫지만 큰 도약은 아닙니다. 모두가 GPT-4가 GPT-보다 낫다고 말할 것 같습니다. 3.5 큰 발전이네요

별거 없습니다 " 계속 성능 격차로 인해 더 많은 모델이 꽤 경쟁력 있는 결과를 보여주고 있어 LLM이 실제로

정체되기 시작했는지

라는 질문이 제기됩니다. 이러한 추세가 계속되면 언어 모델의 향후 개발 및 배포에 상당한 영향을 미칠 수 있으며 사람들의 초점 이 맹목적으로 모델 크기 늘리기 에서 보다 효과적으로 탐색 , 으로 바뀔 수 있습니다. 더욱 전문화된 게이트 건축 .

LLM 방법

의 단점 LLM 기능이 강력하다는 것은 부인할 수 없지만, 분명한 단점도 있습니다. 첫째, LLM 교육에는 수십억 또는 심지어 수조 개의 매개변수가 필요한 대량의 데이터가 필요합니다. 이로 인해 교육 프로세스 가 극도로 리소스 집약적이 되고, 교육 및 실행 LLM에 필요한 계산 전력 및 에너지 소비 도 엄청납니다. 이로 인해 비용이 높아져 소규모 조직이나 개인이 핵심 LLM 개발에 참여하기가 어려워졌습니다. 작년에 MIT 가 주최한 이벤트에서 OpenAI CEO Sam Altman은 교육 GPT-4 비용이 최소 1 소요될 것이라고 밝혔습니다. 10억 달러. LLM을 처리하는 데 필요한 도구와 기법의 복잡성

또한

개발자 앞에 가파른 학습 곡선 을 배치하여 접근성을 더욱 제한합니다. 모델 교육부터 빌드 및 배포까지 개발자 는 긴 주기에 직면하여 개발 및 실험을 지연시킵니다. 케임브리지 대학의 최근 논문에 따르면 기업 단일 기계 학습 모델 을 배포 혼자 하려면 90일 이상 의 시간이 걸릴 수 있습니다. . LLM의 또 다른 중요한 문제는 환각에 빠지는 경향이 있다는 것입니다.

합리적으로 보이지만 실제로는 현실이 아닌 결과를

생성합니다. 이는 LLM이 정보를 정보를 실제로 아는 것이 아니라 훈련 데이터의 패턴을 기반으로 다음으로 가장 가능성이 높은 단어를 예측하도록 훈련되는 방식에서 비롯됩니다. 따라서 LLM은 자신있게 거짓 진술을 하거나, 사실을 꾸며내거나, 관련 없는 개념을 우스꽝스러운 방식으로 결합할 수 있습니다. 이 환상현상을 감지하고 완화하는 것은 신뢰할 수 있는 언어 모델을 개발하는 데 있어 오랫동안 직면해 온 문제입니다. ㅋㅋㅋ , 잘못된 진료를 받다 정보 또는 사용 자동차 운전과 함께 제공되는 것은 여전히 문제입니다. 신뢰 구축에 중요합니다 . 훈련 데이터와 알고리즘의 편향은 불공평하고 부정확하며 심지어 유해한 결과를 초래할 수도 있습니다. Google Gemini에서 을 본 것처럼 LLM

" 보안 " 및 신뢰성을 높이는 동일한 기술도 효율성을 감소시킵니다. 또한 LLM의 집중된 nature으로 인해 소수의 대규모 기술 회사의 손에 권력과 통제권이 집중되는 것에 대한 우려가 제기됩니다. 소형 언어 모델(SLM) 등장

이번에는 소형 언어 모델이 등장합니다. SLM은 LLM의 간소화된 버전으로, 더 적은 매개변수와 더 단순한 디자인을 갖추고 있습니다. 그들에게 필요한 데이터 및 교육 시간 은 분 또는 시간으로 더 짧지만 LLM에는 며칠이 걸립니다. 이를 통해 로컬 또는 소형 장치 에 SLM 배포 를 더욱 효율적이고 간단하게 만들 수 있습니다.

SLM의 주요 장점 중 하나는 특정 애플리케이션 환경에 적합하다는 것입니다.

그들은 더 좁은 범위 에 초점을 맞추고 데이터가 덜 필요하기 때문에 대형 일반 모델보다 특정 도메인이나 작업에 맞게 미세 조정하기가 더 쉽습니다. 이러한 사용자 정의를 통해 기업은 감정 분석, 명명된 엔터티 인식 또는 도메인별 질문 응답과 같은 특정 요구 사항 에 매우 효과적인 SLM을 만들 수 있습니다. 범용 모델을 사용하는 것과 비교하여 SLM의 특화된 기능은 이러한 대상 응용 프로그램 환경에서 성능과 효율성을 향상시킬 수 있습니다.

SLM의 또 다른 이점은 개인정보 보호 및 보안 강화에 대한 약속 입니다. 더 작은 코드 기반과 더 단순한 아키텍처를 갖춘 SLM은 감사하기 쉽고 예상치 못한 취약점이 발생할 가능성이 적습니다. 따라서 데이터 유출이 심각한 결과를 초래할 수 있는 의료 또는 금융 분야와 같이 민감한 데이터를 처리하는 환경 에 애플리케이션이 매력적입니다. 또한 SLM은 컴퓨팅 요구 사항을 줄여 클라우드 인프라에 의존하기보다는 로컬 장치나 로컬 서버에서 실행하는 데 더 적합합니다. 이러한 로컬 처리는 데이터 보안을 더욱 향상시켜 및 전송 중에 데이터가 노출될 위험 을 줄일 수 있습니다. LLM

에 비해 SLM은 특정 영역에서 감지되지 않은 환각이 발생할 가능성이 적습니다. SLM은 일반적으로

의도한 도메인이나 애플리케이션 환경에 고유한 더 좁고 더 많은 대상 데이터 세트를 사용하여 훈련됩니다. 이는 모델이 작업 및 정보와 가장 관련성이 높은 패턴, 어휘를 학습하는 데 도움이 됩니다. 이렇게 하면 관련이 없거나 예상치 못하거나 일관성이 없는 결과가 생성될 가능성 이 줄어듭니다. SLM은 더 적은 수의 매개변수와 더 간결한 아키텍처를 사용하기 때문에 노이즈 또는 학습 데이터의 오류를 포착하고 증폭할 가능성이 적습니다. 초기 AI 스타트업 HuggingFace의 CEO인 Clem Delangue는 SLM을 활용하면 최대 99%의 Use Case를 해결할 수 있다고 말하며 2024년은 SLM의 해가 될 것이라고 예측했습니다. HuggingFace의 플랫폼을 통해 개발자는 머신러닝 모델을 구축, 훈련 및 배포할 수 있으며 회사는 올해 초 Google과의 전략적 파트너십을 발표했습니다. 이후 두 회사는 HuggingFace를 Google의 Vertex AI에 통합하여 개발자가 Google의 Vertex Model Garden을 통해 수천 개의 모델을 빠르게 배포할 수 있게 되었습니다.

Google Gemma가 견인력을 얻고 있습니다 처음에 LLM의 이점을 OpenAI에 양보한 후 Google이 적극적으로 점유하고 있습니다.

SLM 기회. 지난 2월,

Google에서는 효율성과 사용자 친화성을 향상시키도록 설계된 새로운 소규모 언어 모델 제품군인 Gemma를 출시했습니다. 다른 SLM과 마찬가지로 Gemma 모델은 특별한 하드웨어나

포괄적인

최적화 없이도 스마트폰, 태블릿, 노트북 등 다양한 일반적인장치에서 실행할 수 있습니다. Gemma 출시 이후 훈련된 모델이 지난달 HuggingFace에서 400,000회 이상 다운로드되었으며 여러 명령이 등장했습니다 Ex 프로젝트를 인용합니다. 예를 들어, Cerule은 Gemma 2B와 Google의 SigLIP을 결합한

기능강력한 이미지 및 언어 모델로, 광범위한 이미지 및 텍스트 데이터 세트를 사용하여 훈련되었습니다. Cerule은 효율적인 데이터 선택 기술을 활용하여 대량의 데이터나 계산 없이도 고성능을 달성합니다. 이는 Cerule이 새로운 엣지 컴퓨팅 사용 사례에 적합할 수 있음을 의미합니다. 또 다른 예는 코딩프로그래밍과 수학적 추론에 초점을 맞춘 Gemma의 특수 버전인 CodeGemma입니다. CodeGemma는 다양한 프로그래밍 관련 활동을 위한 세 가지 모델을 제공하여 고급 프로그래밍 도구에 대한 접근성을 높이고 그 이상 효율적으로 만듭니다. AI 커뮤니티가 소규모 언어 모델의 잠재력, 더 빠른 개발주기, 더 큰 효율성 및 능력을 계속 탐색함에 따라 장점 (특정 요구 사항에 따른 모델 맞춤 설정 등)이 점점 더 분명해지고 있습니다. SLM

은 비용 효율적인 , 대상 솔루션을 을 통해 제공하고 AI 액세스를 대중화 하고 산업 혁신을 주도할 것으로 예상됩니다. 엣지에 SLM을 배포하면 금융, 엔터테인먼트, 자동차 시스템, 교육, 전자상거래, 의료 등 산업 에서 실시간, 개인화되고 안전한 애플리케이션

시스템에 대한 새로운 가능성이 제공됩니다.

로컬에서 데이터를 처리하고 클라우드 인프라에 대한 의존도를 줄임으로써 엣지 컴퓨팅과 SLM을 결합하면 응답 시간을 개선하고 데이터 개인 정보 보호를 향상하고 사용자 경험을 개선할 수 있습니다. 이 분산형 AI 접근 방식 은 기업과 소비자가 기술 으로 상호 작용하는 방식 을 변화시켜 현실 세계에서 더 많은 더 을 창출할 것을 약속합니다. LLM은 컴퓨팅 리소스와 관련된 문제에 직면하고 성능 병목 현상에 직면할 수 있으므로 LLM의 상승으로 인해 AI 생태계 가 놀라운 속도로 계속 발전 할 수 있을 것으로 예상됩니다. 원제: