전직 Google 엔지니어는 Jeff Dean의 신성한 요약을 모방하여 모든 개발자가 알아야 할 'LLM 개발 비밀'을 공유했습니다!-일체 포함-php.cn

Prompt

Price

훈련 및 미세 조정

GPU 메모리

집

기술 주변기기

일체 포함

전직 Google 엔지니어는 Jeff Dean의 신성한 요약을 모방하여 모든 개발자가 알아야 할 'LLM 개발 비밀'을 공유했습니다!

王林

May 25, 2023 pm 10:25 PM

ai 개발하다

최근 한 네티즌은 'LLM 개발자가 꼭 알아야 할 숫자' 목록을 정리하고 이 숫자가 왜 중요한지, 어떻게 사용해야 하는지 설명했습니다.

그가 구글에 있을 때, 전설적인 엔지니어 Jeff Dean이 편집한 "Numbers Every Engineer Should Know"라는 문서가 있었습니다.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

Jeff Dean: "모든 엔지니어가 알아야 할 숫자"

LLM(Large Language Model) 개발자에게는 비슷한 대략적인 추정치가 있습니다. 숫자도 매우 유용합니다.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

Prompt

40-90%: 프롬프트에 "concise and concise"를 추가한 후 비용 절감

출력 중 LLM에서 사용하는 토큰을 기반으로 한다는 것을 알아야 합니다. 유급의.

이는 모델을 간결하게 함으로써 많은 비용을 절약할 수 있다는 의미입니다.

동시에 이 개념은 더 많은 곳으로 확장될 수 있습니다.

예를 들어 원래 GPT-4를 사용하여 10개의 대안을 생성하려고 했지만 이제는 먼저 5개를 제공하도록 요청한 다음 나머지 절반을 유지할 수 있습니다.

1.3: 단어당 평균 토큰 수

LLM은 토큰 단위로 운영됩니다.

그리고 토큰은 단어 또는 단어의 하위 부분입니다. 예를 들어 "eating"은 "eat"와 "ing"이라는 두 개의 토큰으로 분해될 수 있습니다.

일반적으로 750개의 영어 단어가 약 1000개의 토큰을 생성합니다.

영어 이외의 언어의 경우 LLM 임베딩 코퍼스의 공통성에 따라 단어당 토큰 수가 늘어납니다.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

Price

LLM을 사용하는 데 드는 비용이 매우 높다는 점을 고려하면 가격과 관련된 숫자가 특히 중요해집니다.

~50: GPT-4 대 GPT-3.5 터보의 비용 비율

GPT-3.5-Turbo를 사용하는 것은 GPT-4보다 약 50배 저렴합니다. GPT-4는 프롬프트와 생성에 따라 요금이 다르게 청구되기 때문에 "대략"이라고 말합니다.

그래서 실제 적용에서는 GPT-3.5-Turbo가 귀하의 요구 사항을 충족하기에 충분한지 확인하는 것이 가장 좋습니다.

예를 들어 요약과 같은 작업의 경우 GPT-3.5-Turbo로 충분합니다.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

5 LLM 생성을 사용하는 것이 훨씬 저렴합니다.

구체적으로 신경 정보 검색 시스템에서 검색하는 비용은 GPT-3.5-Turbo에 문의하는 것보다 약 5배 저렴합니다. GPT-4와 비교하면 비용 차이가 250배나 됩니다!

10: OpenAI 임베딩과 자체 호스팅 임베딩의 비용 비율

참고: 이 숫자는 임베딩의 로드 및 배치 크기에 매우 민감하므로 대략적인 것으로 간주하십시오.

g4dn.4xlarge(주문형 가격: $1.20/시간)를 사용하면 HuggingFace(OpenAI의 임베딩과 유사)가 포함된 SentenceTransformers를 활용하여 초당 최대 9000개의 토큰을 삽입할 수 있습니다.

이 속도와 노드 유형에서 몇 가지 기본 계산을 수행하면 자체 호스팅 임베드가 10배 더 저렴할 수 있음을 알 수 있습니다.

6: OpenAI 기본 모델과 미세 조정 모델 간의 쿼리 비용 비율

OpenAI에서 미세 조정 모델의 비용은 기본 모델의 6배입니다.

이는 커스텀 모델을 미세 조정하는 것보다 기본 모델의 팁을 조정하는 것이 비용 효율적이라는 의미이기도 합니다.

1: 자체 호스팅 기본 모델과 미세 조정 모델 쿼리의 비용 비율

모델을 직접 호스팅하는 경우 미세 조정 모델과 기본 모델의 비용은 거의 동일합니다. 매개변수 수는 두 모델 모두 동일합니다.

훈련 및 미세 조정

~100만 달러: 1.4조 토큰

논문 주소: https://arxiv.org/pdf/2302.13971. pdf

LLaMa 논문에서는 LLaMa 모델을 훈련하는 데 21일이 걸렸으며 2048 A100 80GB GPU를 사용했다고 언급했습니다.

Red Pajama 훈련 세트에서 모델을 훈련시키고 모든 것이 충돌 없이 잘 작동하고 처음 성공한다고 가정하면 위의 숫자를 얻게 됩니다.

또한 이 프로세스에는 2048 GPU 간의 조정도 포함됩니다.

대부분의 회사에서는 이를 수행할 수 있는 조건이 없습니다.

그러나 가장 중요한 메시지는 자체 LLM을 교육하는 것이 가능하지만 프로세스가 저렴하지 않다는 것입니다.

그리고 실행할 때마다 며칠이 걸립니다.

이에 비해 사전 훈련된 모델을 사용하는 것이 훨씬 저렴합니다.

< 0.001: 미세 조정 비용과 처음부터 훈련하는 비용

이 수치는 전반적으로 미세 조정 비용은 미미합니다.

예를 들어 6B 매개변수 모델을 약 $7에 미세 조정할 수 있습니다.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

가장 비싼 미세 조정 모델인 Davinci의 OpenAI 요율을 적용해도 토큰 1,000개당 3센트에 불과합니다.

즉, 셰익스피어의 전체 작품(약 100만 단어)을 미세 조정하려면 40~50달러만 지출하면 됩니다.

그러나 미세 조정과 처음부터 훈련하는 것은 별개입니다...

GPU 메모리

모델을 자체 호스팅하는 경우 GPU 메모리를 이해하는 것이 매우 중요합니다. 왜냐하면 LLM은 GPU의 메모리를 한계까지 밀어붙입니다.

다음 통계는 특별히 추론을 위한 것입니다. 훈련이나 미세 조정을 하려면 꽤 많은 비디오 메모리가 필요합니다.

V100: 16GB, A10G: 24GB, A100: 40/80GB: GPU 메모리 용량

다양한 유형의 GPU에 대한 비디오 메모리 양을 이해하는 것이 중요합니다. 매개변수 수량을 가질 수 있습니다.

일반적으로 우리는 A10G를 사용하는 것을 선호합니다. AWS의 온디맨드 가격은 GPU 메모리 24G 기준 시간당 1.5~2달러이고 A100당 시간당 약 5달러이기 때문입니다.

2x 매개변수 수: LLM의 일반적인 GPU 메모리 요구 사항

예를 들어 70억 개의 매개변수 모델이 있는 경우 약 14GB의 GPU 메모리가 필요합니다.

이는 대부분의 경우 각 매개변수에 16비트 부동 소수점(또는 2바이트)이 필요하기 때문입니다.

일반적으로 16비트 이상의 정밀도는 필요하지 않지만 대부분의 경우 정밀도가 8비트에 도달하면 해상도가 감소하기 시작합니다(어떤 경우에는 이것도 허용 가능함).

물론 이러한 상황을 개선한 프로젝트도 있습니다. 예를 들어 llama.cpp는 6GB GPU에서 4비트(8비트도 허용됨)로 양자화하여 130억 개의 매개변수 모델을 실행했지만 이는 일반적이지 않습니다.

~1GB: 임베딩 모델을 위한 일반적인 GPU 메모리 요구 사항

문을 임베드할 때마다(클러스터링, 의미 검색 및 분류 작업을 위해 자주 수행하는 작업) 문 변환기와 같은 것이 필요합니다. 모델. OpenAI에는 자체 상용 임베딩 모델도 있습니다.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

일반적으로 GPU에서 얼마나 많은 비디오 메모리 임베딩이 차지하는지 걱정할 필요가 없습니다. 비디오 메모리 임베딩은 매우 작으며 동일한 GPU에 LLM을 임베드할 수도 있습니다.

>10배: LLM 요청을 일괄 처리하여 처리량 향상

GPU를 통한 LLM 쿼리 실행 지연 시간은 매우 높습니다. 초당 0.2 쿼리 처리량에서는 지연 시간이 5초가 걸릴 수 있습니다.

흥미롭게도 두 가지 작업을 실행하는 경우 지연 시간은 5.2초에 불과할 수 있습니다.

즉, 25개의 쿼리를 함께 묶을 수 있으면 약 10초의 지연 시간이 필요한 반면 처리량은 초당 2.5개의 쿼리로 증가했습니다.

그러나 아래 내용을 계속 읽어주세요.

~1MB: 130억 개의 매개변수 모델이 1개의 토큰을 출력하는 데 필요한 GPU 메모리

필요한 비디오 메모리는 생성하려는 최대 토큰 수에 정비례합니다.

예를 들어 최대 512개 토큰(약 380단어)의 출력을 생성하려면 512MB의 비디오 메모리가 필요합니다.

별거 아니라고 생각할 수도 있습니다. 비디오 메모리가 24GB인데 512MB가 얼마죠? 그러나 더 큰 배치를 실행하려는 경우 이 숫자가 합산되기 시작합니다.

예를 들어 16개의 배치를 수행하려는 경우 비디오 메모리가 8GB로 직접 증가됩니다.

위 내용은 전직 Google 엔지니어는 Jeff Dean의 신성한 요약을 모방하여 모든 개발자가 알아야 할 'LLM 개발 비밀'을 공유했습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7555

Cakephp 튜토리얼

1383

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Centos에서 Gitlab의 백업 방법은 무엇입니까? Apr 14, 2025 pm 05:33 PM

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos HDFS 구성을 확인하는 방법 Apr 14, 2025 pm 07:21 PM

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Apr 14, 2025 pm 06:48 PM

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Centos 설치 MySQL Apr 14, 2025 pm 08:09 PM

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Docker 원리에 대한 자세한 설명 Apr 14, 2025 pm 11:57 PM

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

CentOS8은 ssh를 다시 시작합니다 Apr 14, 2025 pm 09:00 PM

SSH 서비스를 다시 시작하라는 명령은 SystemCTL SSHD를 다시 시작합니다. 자세한 단계 : 1. 터미널에 액세스하고 서버에 연결; 2. 명령을 입력하십시오 : SystemCTL SSHD 재시작; 3. 서비스 상태를 확인하십시오 : SystemCTL 상태 SSHD.

Centos에서 Pytorch의 분산 교육을 운영하는 방법 Apr 14, 2025 pm 06:36 PM

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소

See all articles

전직 Google 엔지니어는 Jeff Dean의 신성한 요약을 모방하여 모든 개발자가 알아야 할 'LLM 개발 비밀'을 공유했습니다!

Prompt

Price

훈련 및 미세 조정

GPU 메모리

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제