올해 OpenAi의 O1과 같은 소형 언어 모델 (CLMS)은 상당한 관심을 끌었으며 인상적인 자연어 처리 기능을 보여줍니다. 그러나 많은 응용 프로그램에는 대형 모델의 엄청난 리소스가 필요하지 않습니다. 소형 언어 모델 (SLM)을 입력하십시오-예산 의식 응용 프로그램 및 제한된 계산 환경에 이상적인 효율적이고 간소화 된 솔루션.
SLM 균형 성능 및 효율성. 최적화 된 아키텍처와 크기는 에지 장치, 자원 제약 시스템 및 빠른 추론이 필요한 응용 프로그램에 적합합니다. 모바일 앱 전원에서 오프라인 NLP 기능 제공에 이르기까지 이러한 모델은 고급 언어 기술을 민주화하고 있습니다.
이 블로그는 13 개의 최고 성능 SLM을 탐색합니다. 경량 솔루션을 찾는 개발자이든 효율적인 NLP를 조사하는 연구원이든,이 목록은 더 작은 것이 더 좋을 수 있음을 보여줍니다. 이러한 소형 모델이 어떻게 큰 영향을 미치는지 살펴 보겠습니다.
SLM에 대한 더 깊은 다이빙은 다음을 참조하십시오 : SLM (Small Language Models)은 무엇입니까? 이제이 13 개의 주요 SLM을 살펴 보겠습니다.
Google Research의 T5 (Text-to-Text Transfer Transformer)는 다양한 NLP 작업 (Translation, Summarization, Q & A)에 통합 된 텍스트-텍스트 프레임 워크를 사용하는 다양한 모델입니다.
T5는 T5-Small (6 천만 파라미터)에서 T5-11B (110 억 파라미터)까지 다양한 크기를 제공하며 다양한 리소스 요구를 충족시킵니다.
T5의 Transformer Architecture는 인코더 및 디코더 구성 요소를 사용하여 모든 작업을 텍스트-텍스트 문제로 프레임하여 유연성을 강조합니다. 대규모 데이터 세트에서 사전 훈련하면 이해가 향상됩니다.
T5는 Open-Source (Apache 2.0 라이센스)이며 Tensorflow 및 Hugging Face를 통해 액세스 할 수 있습니다.
QWEN-2는 다양한 응용 프로그램에 적합한 텍스트 생성, 분류 및 요약에서 효율적인 CLM입니다. 모듈 식 디자인은 제한된 하드웨어에 이상적입니다.
QWEN-2는 30 억, 70 억 및 130 억 파라미터 버전으로 제공되며 다양한 응용 분야의 확장 성을 제공합니다.
QWEN-2의 고급 변압기 아키텍처는 속도와 안정성을 위해 로터리 위치 임베딩 및 적응 사전 정규화와 같은 기술을 사용합니다. 모듈성은 적응성을 보장합니다.
QWEN-2는 오픈 소스이며 구독을 통해 사용할 수있는 일부 고급 기능이 있습니다.
LLAMA 3.2는 자원 효율성으로 고성능을 우선시하여 계산 오버 헤드가 낮은 응용 프로그램에 적합합니다.
LLAMA 3.2는 13 억에서 130 억 파라미터 범위의 버전을 제공하므로 사용자가 요구에 따라 선택할 수 있습니다.
LLAMA 3.2는 그룹화 된 쿼리주의, 로터리 위치 임베딩 (ROPE) 및 SWIGLU 활성화를 사용하여 효율성과 성능을 사용합니다.
Llama 3.2는 오픈 소스이며, 무료 계층 및 확장 된 기능 및 지원을위한 유료 옵션이 있습니다.
Mistral Nemo는 고품질 언어 이해와 세대를 위해 설계된 작고 효율적인 CLM으로 성능과 통합 용이성을 강조합니다.
Mistral Nemo는 13 억, 70 억 및 130 억 파라미터 버전으로 제공됩니다.
Mistral Nemo의 변압기 기반 아키텍처는 효율적인 메모리 사용 및 처리량을 위해 최적화 된주의 메커니즘과 강화 된 토큰 임베딩을 사용합니다.
Mistral Nemo는 오픈 소스입니다.
Mistral Small 3은 하드웨어 요구 사항이 적은 생성 AI 작업의 약 80%를 처리합니다.
Mistral Small 3에는 240 억 개의 매개 변수가있어 훨씬 더 큰 모델과 비교할 수 있습니다. 단일 고급 GPU 또는 강력한 노트북에 배포 할 수 있습니다.
Mistral Small 3은 경쟁력이 낮은 성능을 위해 경쟁 모델보다 적은 레이어를 사용합니다. 사전 훈련 및 명령 조정 버전으로 제공됩니다.
Mistral Small 3은 오픈 소스 (Apache 2.0 라이센스)이며, Hugging Face, Ollama 및 Kaggle에서 사용할 수 있습니다.
O3-Mini는 매개 변수 수가 감소 함에도 불구하고 고성능을 달성하는 소형 모델로서 자원 제약 장치에 적합합니다.
O3-MINI의 매개 변수 카운트가 크게 감소하면 리소스가 제한된 장치에서 효율적으로 작동 할 수 있습니다.
OpenAI의 추론 모델 시리즈의 일환으로 O3-MINI는 텍스트 입력/출력 및 조정 가능한 추론 수준을 지원합니다.
O3-MINI는 ChatGpt, OpenAI API, Microsoft Azure OpenAi 서비스 및 Open 라우터를 통해 액세스 할 수 있습니다.
Microsoft의 PHI-4 (140 억 파라미터)는 계산 효율성을 유지하면서 추론 작업에 뛰어납니다.
PHI-4의 140 억 파라미터는 추론 효율성과 계산 요구를 줄이는 데 최적화되었습니다.
합성 데이터 생성 및 정제 기술을 포함한 PHI-4의 아키텍처 및 교육 프로세스는 추론 능력을 향상시킵니다.
PHI-4는 현재 독점적입니다.
Distilgpt-2는 더 작고 효율적인 GPT-2 버전으로 대부분의 기능을 유지하면서 크기를 크게 줄입니다.
DistilGpt-2는 일반적으로 약 8,800 만 파라미터를 가지며, 이는 GPT-2에서 크게 감소합니다.
DistilGPT-2는 GPT-2와 유사한 변압기 아키텍처를 사용하지만 지식 증류를 통해 달성 된 층이 적습니다.
Distilgpt-2는 오픈 소스 (포옹 얼굴)입니다.
SMOLLM은 계산 공간이 줄어든 효율적인 NLP를 위해 설계된 경량 모델입니다.
Smollm은 천만에서 3 억 개의 매개 변수의 다양한 크기를 제공합니다.
SMOLLM은 가지 치기, 양자화 및 적응 형 계산 방법과 함께 변압기 기반 설계를 사용하여 효율성을 사용합니다.
Smollm은 오픈 소스이며 무료 계층 및 유료 옵션이 있습니다.
Microsoft의 Minilm은 지식 증류 기술을 사용하는 작고 효율적인 모델입니다.
Minilm은 2,200 만에서 3 억 8 천만 개의 매개 변수를 제공합니다.
Minilm은 지식 증류를 통합하여 더 큰 모델에서 성능을 전달하는 깊은 자체 정보 메커니즘을 사용합니다.
Minilm은 오픈 소스 (포옹, Github)입니다.
MobileBert는 자원으로 제한된 장치 용으로 설계된 Bert의 가벼운 적응입니다.
MobileBert에는 약 2,500 만 개의 매개 변수가 있습니다.
MobileBert는 병목 현상 구조, 역 병목 현상 레이어 및 효율성을 위해 4 배의 피드 포워드 네트워크를 사용합니다.
MobileBert는 오픈 소스입니다.
Microsoft Phi 3.5 미니는 제한된 자원으로 강력한 자연어 이해를위한 효율성과 성능을 균형을 유지합니다.
PHI 3.5 MINI는 13 억 및 30 억 파라미터 버전으로 제공됩니다.
PHI 3.5 MINI의 변압기 아키텍처는 효율성을 위해 최적화 된주의 메커니즘을 사용합니다.
Microsoft Phi 3.5 Mini는 독점적이며 Microsoft Azure AI 서비스 (무료 및 유료 계층)에 통합되었습니다.
Gemma 2는 효율적인 NLU 및 생성 작업, 정확도 및 속도의 균형을 맞추기 위해 설계되었습니다.
Gemma 2는 1 억 2 천만, 3 억 5 천만 및 12 억 파라미터의 버전을 제공합니다.
Gemma 2는 역동적 인주의 헤드 및 층 정규화 향상과 함께 간소화 된 변압기 아키텍처를 사용합니다.
Gemma 2는 무료 및 프리미엄 옵션을 갖춘 오픈 소스 (허용 라이센스)입니다.
Tinybert는 증류 된 버전의 Bert로 계산 복잡성과 메모리 발자국을 줄입니다.
Tinybert의 가장 작은 버전에는 약 1,400 만 개의 매개 변수가 있으며 더 큰 버전은 약 6 천 6 백만입니다.
Tinybert는 비슷한 변압기 아키텍처를 사용하여 Bert가 있지만 층은 적고 치수가 줄어 듭니다.
Tinybert는 오픈 소스 (Apache License 2.0)이며 포옹 페이스 트랜스포머를 통해 액세스 할 수 있습니다.
Distilbert는 Bert의 대부분을 유지하는 Bert의 작고 빠르며 가벼운 버전입니다.
Distilbert에는 약 6,600 만 개의 매개 변수가 있습니다.
Distilbert는 층의 수를 줄이고 지식 증류를 사용하여 Bert의 아키텍처를 단순화합니다.
Distilbert는 오픈 소스 (포옹 얼굴 변압기)입니다.
SLM은 성능, 효율성 및 접근성의 균형을 제공하여 NLP에 혁명을 일으키고 있습니다. 자원으로 제한된 환경에 대한 적합성은 다양한 응용 프로그램에 이상적입니다. 오픈 소스 및 독점 모델은 모두 혁신을 주도하고 고급 언어 기술에 대한 액세스를 확대하고 있습니다. AI 채택이 증가함에 따라 SLM은 NLP를 효율적이고 포괄적으로 스케일링하는 데 중요합니다.
Q1. 소규모 언어 모델을 오프라인으로 사용할 수 있습니까? A. 예, 가벼운 특성을 통해 다양한 장치에서 오프라인 배포가 가능합니다.
Q2. 작은 언어 모델은 어떻게 미세 조정됩니까? A. 미세 조정은 더 작은 데이터 세트를 사용하여 미리 훈련 된 모델을 특정 작업에 적용합니다.
Q3. 소규모 언어 모델은 안전하고 비공개입니까? A. 로컬 배치는 보안 및 개인 정보를 향상시킬 수 있지만 구현 세부 정보는 중요합니다.
위 내용은 2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!