Nvidia는 최근 Nvidia GPU에서 대규모 언어 모델 최적화 기능을 확장하고 배포 후 인공 지능 추론 성능의 한계를 뛰어넘는 TensorRT-LLM이라는 새로운 오픈 소스 소프트웨어 제품군의 출시를 발표했습니다.
생성 AI 대형 언어 모델은 인상적인 기능으로 인해 인기를 얻었습니다. 인공지능의 가능성을 확장하며 다양한 산업 분야에서 널리 활용되고 있습니다. 사용자는 챗봇과 대화하여 정보를 얻고, 대용량 문서를 요약하고, 소프트웨어 코드를 작성하고, 정보를 이해하는 새로운 방법을 발견할 수 있습니다.
Nvidia의 하이퍼스케일 및 고성능 컴퓨팅 담당 부사장인 Ian Buck은 다음과 같이 말했습니다. 모델이 점점 더 복잡해지고, 더 똑똑해지고, 더 커지는 것은 당연한 일이지만, 모델이 단일 GPU 이상으로 확장되고 여러 GPU에서 실행되어야 하는 경우 "
인공지능에서 추론은 다음과 같은 프로세스입니다. 모델은 요약, 코드 생성, 제안 제공, 질문 답변 등 이전에 볼 수 없었던 새로운 데이터를 처리하는 대규모 언어 모델입니다.
모델 생태계의 급속한 확장과 함께 모델은 점점 더 커지고 기능이 풍부해지고 있습니다. 이는 또한 모델이 너무 커서 단일 GPU에서 동시에 실행할 수 없고 분할되어야 함을 의미합니다. 개발자와 엔지니어는 실시간 응답을 얻기 위해 워크로드를 수동으로 분산하고 조정해야 합니다. TensorRT-LLM은 "텐서 병렬성"을 구현하여 여러 GPU에서 대규모의 효율적인 추론을 가능하게 함으로써 이 문제를 해결합니다.
이 외에도 오늘날 시장에 나와 있는 다양한 대규모 언어 모델로 인해 Nvidia는 현재의 주류 대규모 언어 모델. 소프트웨어 제품군에는 Meta Platform의 Llama 2, OpenAI의 GPT-2 및 GPT-3, Falcon, mosaicMPT 및 BLOOM을 포함하여 완전히 최적화되고 즉시 실행 가능한 대규모 언어 모델 버전이 포함되어 있습니다.
대형 언어 모델 자체의 특성으로 인해 모델의 작업 부하가 매우 동적일 수 있으며 작업 부하 요구 사항 및 작업 사용량도 시간이 지남에 따라 변경될 수 있습니다. 단일 모델은 질문하고 질문하는 챗봇으로 동시에 사용할 수 있으며, 짧은 문서뿐만 아니라 큰 문서를 요약하는 데에도 사용할 수 있습니다. 따라서 출력 크기는 완전히 다른 크기가 될 수 있습니다.
이러한 다양한 작업 부하에 대처하기 위해 TensorRT-LLM은 텍스트 생성 프로세스를 여러 부분으로 나누어 다른 작업으로 이동할 수 있도록 최적화된 예약 프로세스인 "즉시 일괄 처리"라는 메커니즘을 도입합니다. GPU가 출력되므로 새 배치를 시작하기 전에 전체 워크로드 배치를 완료할 필요가 없습니다.
이전에는 매우 큰 문서를 요약하는 등 대규모 요청이 있는 경우 대기열이 앞으로 이동하기 전에 뒤에 있는 모든 작업이 프로세스가 완료될 때까지 기다려야 했습니다.
Nvidia는 TensorRT-LLM을 최적화하기 위해 Meta, Cohere, Grammarly, Databricks 및 Tabnine을 포함한 많은 공급업체와 협력해 왔습니다. 이들의 도움으로 Nvidia는 대규모 언어 모델을 사용자 정의하기 위한 새로운 아키텍처를 정의하고 최적화하기 위한 오픈 소스 Python 애플리케이션 사용자 인터페이스를 포함하여 소프트웨어 제품군 내의 기능과 도구 세트를 계속해서 간소화하고 있습니다.
예를 들어, mosaicML은 TensorRT-LLM을 기존 소프트웨어 스택과 통합했을 때 TensorRT-LLM 위에 추가 기능을 추가했습니다. Databricks의 엔지니어링 부사장인 Naveen Rao는 프로세스가 매우 간단하다고 말했습니다.
"TensorRT-LLM은 사용하기 쉽고 토큰 스트리밍, 동적 일괄 처리, 페이징 주의, 양자화 등을 포함한 기능이 풍부합니다. 매우 효율적이며 NVIDIA GPU 사용을 위한 최상의 솔루션을 제공합니다. 대규모 언어 모델 서비스는 최고의 성능을 제공하고 고객에게 비용 절감 효과를 돌려줄 수 있습니다. "
Nvidia는 TensorRT-LLM과 이것이 제공하는 이점을 말했습니다. , 일괄 처리 기능을 포함하여 Nvidia에서 사용할 수 있습니다. 기사 요약 추출을 위한 H100의 추론 성능이 1배 이상 향상되었습니다. GPT-J-6B 모델을 사용하여 CNN/Daily Mail 기사 요약에서 A100 테스트를 수행할 때 H100만 사용하는 것이 A100보다 4배 빨랐으며 TensorRT-LLM 최적화를 활성화하면 속도가 8배 증가했습니다
TensorRT-LLM 개발자와 엔지니어에게 딥 러닝 컴파일러, 최적화된 대규모 언어 모델 커널, 사전 및 사후 처리, 다중 GPU/다중 노드 통신 기능, 간단한 오픈 소스 API를 제공하여 대규모 언어 모델을 신속하게 최적화하고 실행할 수 있습니다. 생산 추론. 대규모 언어 모델이 계속해서 데이터 센터를 재구성함에 따라 더 높은 성능에 대한 기업의 요구는 개발자에게 더 높은 성능의 결과를 제공할 수 있는 기능과 액세스를 제공하는 도구가 그 어느 때보다 필요하다는 것을 의미합니다.
TensorRT-LLM 소프트웨어 제품군은 이제 Nvidia 개발자 프로그램의 개발자들이 조기에 액세스할 수 있으며 다음 달 프로덕션 AI 엔드투엔드 소프트웨어 플랫폼 Nvidia AI Enterprise를 위한 NeMo 프레임워크에 통합될 예정입니다. TensorRT-LLM 소프트웨어 제품군은 Nvidia 개발자 프로그램의 개발자가 조기에 액세스할 수 있도록 출시되었으며 프로덕션 AI 엔드투엔드 소프트웨어 플랫폼을 위해 다음 달 Nvidia AI Enterprise의 NeMo 프레임워크에 통합될 예정입니다
위 내용은 Nvidia, 고급 GPU 칩에서 AI 모델 성능을 향상시키는 TensorRT-LLM 오픈 소스 소프트웨어 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!