> 기술 주변기기 > 일체 포함 > 2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

Joseph Gordon-Levitt
풀어 주다: 2025-03-15 09:53:07
원래의
469명이 탐색했습니다.

올해 OpenAi의 O1과 같은 소형 언어 모델 (CLMS)은 상당한 관심을 끌었으며 인상적인 자연어 처리 기능을 보여줍니다. 그러나 많은 응용 프로그램에는 대형 모델의 엄청난 리소스가 필요하지 않습니다. 소형 언어 모델 (SLM)을 입력하십시오-예산 의식 응용 프로그램 및 제한된 계산 환경에 이상적인 효율적이고 간소화 된 솔루션.

SLM 균형 성능 및 효율성. 최적화 된 아키텍처와 크기는 에지 장치, 자원 제약 시스템 및 빠른 추론이 필요한 응용 프로그램에 적합합니다. 모바일 앱 전원에서 오프라인 NLP 기능 제공에 이르기까지 이러한 모델은 고급 언어 기술을 민주화하고 있습니다.

이 블로그는 13 개의 최고 성능 SLM을 탐색합니다. 경량 솔루션을 찾는 개발자이든 효율적인 NLP를 조사하는 연구원이든,이 목록은 더 작은 것이 더 좋을 수 있음을 보여줍니다. 이러한 소형 모델이 어떻게 큰 영향을 미치는지 살펴 보겠습니다.

목차

  • 다목적 멀티 태스킹 성능 (번역, 요약, Q & A)
    • T5
    • Qwen-2
    • 라마 3.2
    • 미스트랄 니모
    • 미스 트랄 작은 3
  • 추론 중심의 작업
    • O3-Mini
    • PHI-4
  • 텍스트 생성
    • distilgpt-2
    • smollm
  • 일반 NLU (텍스트 분류, 감정 분석, 명명 된 엔티티 인식)
    • 미닐름
    • MobileBert
    • Microsoft Phi 3.5 미니
    • 젬마 2
    • Tinybert
    • Distilbert
  • 자주 묻는 질문

SLM에 대한 더 깊은 다이빙은 다음을 참조하십시오 : SLM (Small Language Models)은 무엇입니까? 이제이 13 개의 주요 SLM을 살펴 보겠습니다.

다목적 멀티 태스킹 성능 (번역, 요약, Q & A)

T5

Google Research의 T5 (Text-to-Text Transfer Transformer)는 다양한 NLP 작업 (Translation, Summarization, Q & A)에 통합 된 텍스트-텍스트 프레임 워크를 사용하는 다양한 모델입니다.

매개 변수 크기

T5는 T5-Small (6 천만 파라미터)에서 T5-11B (110 억 파라미터)까지 다양한 크기를 제공하며 다양한 리소스 요구를 충족시킵니다.

건축학

T5의 Transformer Architecture는 인코더 및 디코더 구성 요소를 사용하여 모든 작업을 텍스트-텍스트 문제로 프레임하여 유연성을 강조합니다. 대규모 데이터 세트에서 사전 훈련하면 이해가 향상됩니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

T5는 Open-Source (Apache 2.0 라이센스)이며 Tensorflow 및 Hugging Face를 통해 액세스 할 수 있습니다.

Qwen-2

QWEN-2는 다양한 응용 프로그램에 적합한 텍스트 생성, 분류 및 요약에서 효율적인 CLM입니다. 모듈 식 디자인은 제한된 하드웨어에 이상적입니다.

매개 변수 크기

QWEN-2는 30 억, 70 억 및 130 억 파라미터 버전으로 제공되며 다양한 응용 분야의 확장 성을 제공합니다.

건축학

QWEN-2의 고급 변압기 아키텍처는 속도와 안정성을 위해 로터리 위치 임베딩 및 적응 사전 정규화와 같은 기술을 사용합니다. 모듈성은 적응성을 보장합니다.

유효성

QWEN-2는 오픈 소스이며 구독을 통해 사용할 수있는 일부 고급 기능이 있습니다.

라마 3.2

LLAMA 3.2는 자원 효율성으로 고성능을 우선시하여 계산 오버 헤드가 낮은 응용 프로그램에 적합합니다.

매개 변수 크기

LLAMA 3.2는 13 억에서 130 억 파라미터 범위의 버전을 제공하므로 사용자가 요구에 따라 선택할 수 있습니다.

건축학

LLAMA 3.2는 그룹화 된 쿼리주의, 로터리 위치 임베딩 (ROPE) 및 SWIGLU 활성화를 사용하여 효율성과 성능을 사용합니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Llama 3.2는 오픈 소스이며, 무료 계층 및 확장 된 기능 및 지원을위한 유료 옵션이 있습니다.

미스트랄 니모

Mistral Nemo는 고품질 언어 이해와 세대를 위해 설계된 작고 효율적인 CLM으로 성능과 통합 용이성을 강조합니다.

매개 변수 크기

Mistral Nemo는 13 억, 70 억 및 130 억 파라미터 버전으로 제공됩니다.

건축학

Mistral Nemo의 변압기 기반 아키텍처는 효율적인 메모리 사용 및 처리량을 위해 최적화 된주의 메커니즘과 강화 된 토큰 임베딩을 사용합니다.

유효성

Mistral Nemo는 오픈 소스입니다.

미스 트랄 작은 3

Mistral Small 3은 하드웨어 요구 사항이 적은 생성 AI 작업의 약 80%를 처리합니다.

매개 변수 크기

Mistral Small 3에는 240 억 개의 매개 변수가있어 훨씬 더 큰 모델과 비교할 수 있습니다. 단일 고급 GPU 또는 강력한 노트북에 배포 할 수 있습니다.

건축학

Mistral Small 3은 경쟁력이 낮은 성능을 위해 경쟁 모델보다 적은 레이어를 사용합니다. 사전 훈련 및 명령 조정 버전으로 제공됩니다.

유효성

Mistral Small 3은 오픈 소스 (Apache 2.0 라이센스)이며, Hugging Face, Ollama 및 Kaggle에서 사용할 수 있습니다.

추론 중심의 작업

O3-Mini

O3-Mini는 매개 변수 수가 감소 함에도 불구하고 고성능을 달성하는 소형 모델로서 자원 제약 장치에 적합합니다.

매개 변수 크기

O3-MINI의 매개 변수 카운트가 크게 감소하면 리소스가 제한된 장치에서 효율적으로 작동 할 수 있습니다.

건축학

OpenAI의 추론 모델 시리즈의 일환으로 O3-MINI는 텍스트 입력/출력 및 조정 가능한 추론 수준을 지원합니다.

유효성

O3-MINI는 ChatGpt, OpenAI API, Microsoft Azure OpenAi 서비스 및 Open 라우터를 통해 액세스 할 수 있습니다.

PHI-4

Microsoft의 PHI-4 (140 억 파라미터)는 계산 효율성을 유지하면서 추론 작업에 뛰어납니다.

매개 변수 크기

PHI-4의 140 억 파라미터는 추론 효율성과 계산 요구를 줄이는 데 최적화되었습니다.

건축 및 훈련

합성 데이터 생성 및 정제 기술을 포함한 PHI-4의 아키텍처 및 교육 프로세스는 추론 능력을 향상시킵니다.

유효성

PHI-4는 현재 독점적입니다.

텍스트 생성

distilgpt-2

Distilgpt-2는 더 작고 효율적인 GPT-2 버전으로 대부분의 기능을 유지하면서 크기를 크게 줄입니다.

매개 변수 크기

DistilGpt-2는 일반적으로 약 8,800 만 파라미터를 가지며, 이는 GPT-2에서 크게 감소합니다.

건축학

DistilGPT-2는 GPT-2와 유사한 변압기 아키텍처를 사용하지만 지식 증류를 통해 달성 된 층이 적습니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Distilgpt-2는 오픈 소스 (포옹 얼굴)입니다.

smollm

SMOLLM은 계산 공간이 줄어든 효율적인 NLP를 위해 설계된 경량 모델입니다.

매개 변수 크기

Smollm은 천만에서 3 억 개의 매개 변수의 다양한 크기를 제공합니다.

건축학

SMOLLM은 가지 치기, 양자화 및 적응 형 계산 방법과 함께 변압기 기반 설계를 사용하여 효율성을 사용합니다.

유효성

Smollm은 오픈 소스이며 무료 계층 및 유료 옵션이 있습니다.

일반 NLU (텍스트 분류, 감정 분석, 명명 된 엔티티 인식)

미닐름

Microsoft의 Minilm은 지식 증류 기술을 사용하는 작고 효율적인 모델입니다.

매개 변수 크기

Minilm은 2,200 만에서 3 억 8 천만 개의 매개 변수를 제공합니다.

건축학

Minilm은 지식 증류를 통합하여 더 큰 모델에서 성능을 전달하는 깊은 자체 정보 메커니즘을 사용합니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Minilm은 오픈 소스 (포옹, Github)입니다.

MobileBert

MobileBert는 자원으로 제한된 장치 용으로 설계된 Bert의 가벼운 적응입니다.

매개 변수 크기

MobileBert에는 약 2,500 만 개의 매개 변수가 있습니다.

건축학

MobileBert는 병목 현상 구조, 역 병목 현상 레이어 및 효율성을 위해 4 배의 피드 포워드 네트워크를 사용합니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

MobileBert는 오픈 소스입니다.

Microsoft Phi 3.5 미니

Microsoft Phi 3.5 미니는 제한된 자원으로 강력한 자연어 이해를위한 효율성과 성능을 균형을 유지합니다.

매개 변수 크기

PHI 3.5 MINI는 13 억 및 30 억 파라미터 버전으로 제공됩니다.

건축학

PHI 3.5 MINI의 변압기 아키텍처는 효율성을 위해 최적화 된주의 메커니즘을 사용합니다.

유효성

Microsoft Phi 3.5 Mini는 독점적이며 Microsoft Azure AI 서비스 (무료 및 유료 계층)에 통합되었습니다.

젬마 2

Gemma 2는 효율적인 NLU 및 생성 작업, 정확도 및 속도의 균형을 맞추기 위해 설계되었습니다.

매개 변수 크기

Gemma 2는 1 억 2 천만, 3 억 5 천만 및 12 억 파라미터의 버전을 제공합니다.

건축학

Gemma 2는 역동적 인주의 헤드 및 층 정규화 향상과 함께 간소화 된 변압기 아키텍처를 사용합니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Gemma 2는 무료 및 프리미엄 옵션을 갖춘 오픈 소스 (허용 라이센스)입니다.

Tinybert

Tinybert는 증류 된 버전의 Bert로 계산 복잡성과 메모리 발자국을 줄입니다.

매개 변수 크기

Tinybert의 가장 작은 버전에는 약 1,400 만 개의 매개 변수가 있으며 더 큰 버전은 약 6 천 6 백만입니다.

건축학

Tinybert는 비슷한 변압기 아키텍처를 사용하여 Bert가 있지만 층은 적고 치수가 줄어 듭니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Tinybert는 오픈 소스 (Apache License 2.0)이며 포옹 페이스 트랜스포머를 통해 액세스 할 수 있습니다.

Distilbert

Distilbert는 Bert의 대부분을 유지하는 Bert의 작고 빠르며 가벼운 버전입니다.

매개 변수 크기

Distilbert에는 약 6,600 만 개의 매개 변수가 있습니다.

건축학

Distilbert는 층의 수를 줄이고 지식 증류를 사용하여 Bert의 아키텍처를 단순화합니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Distilbert는 오픈 소스 (포옹 얼굴 변압기)입니다.

결론

SLM은 성능, 효율성 및 접근성의 균형을 제공하여 NLP에 혁명을 일으키고 있습니다. 자원으로 제한된 환경에 대한 적합성은 다양한 응용 프로그램에 이상적입니다. 오픈 소스 및 독점 모델은 모두 혁신을 주도하고 고급 언어 기술에 대한 액세스를 확대하고 있습니다. AI 채택이 증가함에 따라 SLM은 NLP를 효율적이고 포괄적으로 스케일링하는 데 중요합니다.

자주 묻는 질문

Q1. 소규모 언어 모델을 오프라인으로 사용할 수 있습니까? A. 예, 가벼운 특성을 통해 다양한 장치에서 오프라인 배포가 가능합니다.

Q2. 작은 언어 모델은 어떻게 미세 조정됩니까? A. 미세 조정은 더 작은 데이터 세트를 사용하여 미리 훈련 된 모델을 특정 작업에 적용합니다.

Q3. 소규모 언어 모델은 안전하고 비공개입니까? A. 로컬 배치는 보안 및 개인 정보를 향상시킬 수 있지만 구현 세부 정보는 중요합니다.

위 내용은 2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿