Nachrichten vom 16. November, die Microsoft Ignite 2023-Konferenz hat heute begonnen. Führungskräfte von NVIDIA nahmen an der Konferenz teil und kündigten ein Update für TensorRT-LLM an, hinzugefügte Unterstützung für die OpenAI-Chat-API.
NVIDIA hat im Oktober dieses Jahres die Open-Source-Bibliothek Tensor RT-LLM veröffentlicht, mit dem Ziel, Unterstützung für Rechenzentren und Windows-PCs bereitzustellen. Das größte Merkmal dieser Open-Source-Bibliothek besteht darin, dass TensorRT-LLM die Laufgeschwindigkeit von LLM auf Windows-PCs um das Vierfache erhöhen kann, wenn ein Windows-PC mit der GeForce RTX-GPU ausgestattet ist. NVIDIA gab heute auf der Ignite 2023-Konferenz das Update TensorRT-LLM bekannt , fügen Sie die Chat-API-Unterstützung von OpenAI hinzu und verbessern Sie DirectML-Funktionen, um die Leistung von KI-Modellen wie Llama 2 und Stable Diffusion zu verbessern.
TensorRT-LLM kann lokal mit der AI Workbench von NVIDIA durchgeführt werden. Entwickler können dieses einheitliche und benutzerfreundliche Toolkit nutzen, um vorab trainierte generative KI-Modelle und LLMs schnell auf einem PC oder einer Workstation zu erstellen, zu testen und anzupassen. NVIDIA hat hierfür auch eine Early-Access-Registrierungsseite gestartet
NVIDIA wird später in diesem Monat das Versionsupdate TensorRT-LLM 0.6.0 veröffentlichen, das die Inferenzleistung um das Fünffache erhöht und andere Mainstream-LLMs wie Mistral 7B und Nemotron unterstützt. 3 8B .
Benutzer können auf GPUs der GeForce RTX 30-Serie und 40-Serie mit 8 GB Videospeicher und mehr laufen, und auf einigen tragbaren Windows-Geräten ist auch eine schnelle, genaue native LLM-Funktionalität verfügbarDas obige ist der detaillierte Inhalt vonNVIDIA stellt neue Version von TensorRT-LLM vor: Die Inferenzfähigkeit wurde um das Fünffache erhöht, eignet sich für den lokalen Betrieb auf Grafikkarten über 8 GB und unterstützt die Chat-API von OpenAI. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!