Heim > Technologie-Peripheriegeräte > KI > NVIDIA stellt neue Version von TensorRT-LLM vor: Die Inferenzfähigkeit wurde um das Fünffache erhöht, eignet sich für den lokalen Betrieb auf Grafikkarten über 8 GB und unterstützt die Chat-API von OpenAI

NVIDIA stellt neue Version von TensorRT-LLM vor: Die Inferenzfähigkeit wurde um das Fünffache erhöht, eignet sich für den lokalen Betrieb auf Grafikkarten über 8 GB und unterstützt die Chat-API von OpenAI

王林
Freigeben: 2023-11-17 15:06:45
nach vorne
1183 Leute haben es durchsucht

Nachrichten vom 16. November, die Microsoft Ignite 2023-Konferenz hat heute begonnen. Führungskräfte von NVIDIA nahmen an der Konferenz teil und kündigten ein Update für TensorRT-LLM an, hinzugefügte Unterstützung für die OpenAI-Chat-API.

NVIDIA hat im Oktober dieses Jahres die Open-Source-Bibliothek Tensor RT-LLM veröffentlicht, mit dem Ziel, Unterstützung für Rechenzentren und Windows-PCs bereitzustellen. Das größte Merkmal dieser Open-Source-Bibliothek besteht darin, dass TensorRT-LLM die Laufgeschwindigkeit von LLM auf Windows-PCs um das Vierfache erhöhen kann, wenn ein Windows-PC mit der GeForce RTX-GPU ausgestattet ist. NVIDIA gab heute auf der Ignite 2023-Konferenz das Update TensorRT-LLM bekannt , fügen Sie die Chat-API-Unterstützung von OpenAI hinzu und verbessern Sie DirectML-Funktionen, um die Leistung von KI-Modellen wie Llama 2 und Stable Diffusion zu verbessern.

英伟达揭示新版 TensorRT-LLM:推理能力增长 5 倍,适用于 8GB 以上显卡本地运行,并支持 OpenAI 的 Chat API

TensorRT-LLM kann lokal mit der AI Workbench von NVIDIA durchgeführt werden. Entwickler können dieses einheitliche und benutzerfreundliche Toolkit nutzen, um vorab trainierte generative KI-Modelle und LLMs schnell auf einem PC oder einer Workstation zu erstellen, zu testen und anzupassen. NVIDIA hat hierfür auch eine Early-Access-Registrierungsseite gestartet

NVIDIA wird später in diesem Monat das Versionsupdate TensorRT-LLM 0.6.0 veröffentlichen, das die Inferenzleistung um das Fünffache erhöht und andere Mainstream-LLMs wie Mistral 7B und Nemotron unterstützt. 3 8B . 英伟达揭示新版 TensorRT-LLM:推理能力增长 5 倍,适用于 8GB 以上显卡本地运行,并支持 OpenAI 的 Chat API

Benutzer können auf GPUs der GeForce RTX 30-Serie und 40-Serie mit 8 GB Videospeicher und mehr laufen, und auf einigen tragbaren Windows-Geräten ist auch eine schnelle, genaue native LLM-Funktionalität verfügbar

Das obige ist der detaillierte Inhalt vonNVIDIA stellt neue Version von TensorRT-LLM vor: Die Inferenzfähigkeit wurde um das Fünffache erhöht, eignet sich für den lokalen Betrieb auf Grafikkarten über 8 GB und unterstützt die Chat-API von OpenAI. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage