


58 Zeilen Code skalieren Llama 3 bis 1 Million Kontexte, jede fein abgestimmte Version ist anwendbar
Llama 3, der majestätische König von Open Source, ursprüngliches Kontextfenster hat eigentlich nur... 8k, was mich die Worte „es riecht so gut“ herunterschlucken ließ.
Ab 32.000 sind heute 100.000 üblich. Ist dies beabsichtigt, um Platz für Beiträge zur Open-Source-Community zu schaffen?
Die Open-Source-Community hat sich diese Gelegenheit sicherlich nicht entgehen lassen:
Jetzt kann jede fein abgestimmte Version von Llama 3 70b mit nur 58 Codezeilen automatisch auf 1048k (eine Million) Kontext skaliert werden.
Dahinter verbirgt sich ein LoRA, extrahiert aus einer fein abgestimmten Version von Llama 3 70B Instruct, das einen guten Kontext erweitert. Die Datei ist nur 800 MB groß.
Als nächstes können Sie Mergekit verwenden, um es zusammen mit anderen Modellen derselben Architektur auszuführen oder es direkt mit dem Modell zusammenzuführen.
Die fein abgestimmte Version des verwendeten 1048k-Kontexts hat im beliebten Nadel-im-Heuhaufen-Test gerade eine durchweg grüne Punktzahl (100 % Genauigkeit) erreicht.
Ich muss sagen, dass die Geschwindigkeit des Fortschritts von Open Source exponentiell ist.
Wie 1048k kontextuelles LoRA erstellt wurde
Erstens stammt die 1048k kontextuelle Version des fein abgestimmten Llama 3-Modells von Gradient AI, einem Startup für KI-Lösungen für Unternehmen.
Das entsprechende LoRA stammt vom Entwickler Eric Hartford Durch den Vergleich der Unterschiede zwischen dem fein abgestimmten Modell und der Originalversion werden die Parameteränderungen extrahiert.
Er erstellte zunächst eine kontextbezogene 524-KB-Version und aktualisierte dann die 1048-KB-Version.
Zunächst setzte das Gradient-Team das Training auf Basis des ursprünglichen Llama 3 70B Instruct fort und erlangte Llama-3-70B-Instruct-Gradient-1048k.
Die spezifische Methode lautet wie folgt:
- Positionskodierung anpassen: Verwenden Sie NTK-fähige Interpolation, um die optimale Planung von RoPE-Theta zu initialisieren und zu optimieren, um den Verlust von Hochfrequenzinformationen nach der Erweiterung zu verhindern Länge
- Progressives Training: Verwenden Sie die vom UC Berkeley Pieter Abbeel-Team vorgeschlagene Blockwise RingAttention-Methode, um die Kontextlänge des Modells zu erweitern
Es ist erwähnenswert, dass das Team die Parallelisierung auf Ring Attention geschichtet hat Durch eine benutzerdefinierte Netzwerktopologie werden große GPU-Cluster besser genutzt, um Netzwerkengpässe zu bewältigen, die durch die Übertragung vieler KV-Blöcke zwischen Geräten verursacht werden.
Letztendlich wird die Modelltrainingsgeschwindigkeit um das 33-fache erhöht.
Bei der Leistungsbewertung des Langtextabrufs treten nur in der schwierigsten Version Fehler auf, wenn die „Nadel“ in der Mitte des Textes versteckt ist.
Nachdem Sie das fein abgestimmte Modell mit erweitertem Kontext haben, verwenden Sie das Open-Source-Tool Mergekit, um das fein abgestimmte Modell und das Basismodell zu vergleichen und den Unterschied in den Parametern zu extrahieren, um LoRA zu werden.
Mit Mergekit können Sie die extrahierte LoRA auch in andere Modelle mit derselben Architektur zusammenführen.
Der Merge-Code ist ebenfalls Open Source auf GitHub von Eric Hartford und ist nur 58 Zeilen lang.
Es ist unklar, ob diese LoRA-Zusammenführung mit Llama 3 funktioniert, das auf Chinesisch abgestimmt ist.
Es ist jedoch zu erkennen, dass die chinesische Entwicklergemeinschaft dieser Entwicklung Aufmerksamkeit geschenkt hat.
524k-Version LoRA: https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter
1048k-Version LoRA: https://huggingface.co/ kognitive Berechnungen/Llama-3-70B-Gradient-1048k-adapter
Merge-Code: https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac
Das obige ist der detaillierte Inhalt von58 Zeilen Code skalieren Llama 3 bis 1 Million Kontexte, jede fein abgestimmte Version ist anwendbar. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

An der Spitze der Softwaretechnologie kündigte die Gruppe von UIUC Zhang Lingming zusammen mit Forschern der BigCode-Organisation kürzlich das StarCoder2-15B-Instruct-Großcodemodell an. Diese innovative Errungenschaft erzielte einen bedeutenden Durchbruch bei Codegenerierungsaufgaben, übertraf erfolgreich CodeLlama-70B-Instruct und erreichte die Spitze der Codegenerierungsleistungsliste. Die Einzigartigkeit von StarCoder2-15B-Instruct liegt in seiner reinen Selbstausrichtungsstrategie. Der gesamte Trainingsprozess ist offen, transparent und völlig autonom und kontrollierbar. Das Modell generiert über StarCoder2-15B Tausende von Anweisungen als Reaktion auf die Feinabstimmung des StarCoder-15B-Basismodells, ohne auf teure manuelle Annotationen angewiesen zu sein.

Es gibt viele Möglichkeiten, Deepseek zu installieren, einschließlich: kompilieren Sie von Quelle (für erfahrene Entwickler) mit vorberechtigten Paketen (für Windows -Benutzer) mit Docker -Containern (für bequem am besten, um die Kompatibilität nicht zu sorgen), unabhängig von der Methode, die Sie auswählen, bitte lesen Die offiziellen Dokumente vorbereiten sie sorgfältig und bereiten sie voll und ganz vor, um unnötige Schwierigkeiten zu vermeiden.

Beim Modell 70B können 1000 Token in Sekunden generiert werden, was fast 4000 Zeichen entspricht! Die Forscher haben Llama3 verfeinert und einen Beschleunigungsalgorithmus eingeführt. Im Vergleich zur nativen Version ist die Geschwindigkeit 13-mal höher! Es ist nicht nur schnell, seine Leistung bei Code-Rewriting-Aufgaben übertrifft sogar GPT-4o. Diese Errungenschaft stammt von anysphere, dem Team hinter dem beliebten KI-Programmierartefakt Cursor, und auch OpenAI beteiligte sich an der Investition. Sie müssen wissen, dass bei Groq, einem bekannten Framework zur schnellen Inferenzbeschleunigung, die Inferenzgeschwindigkeit von 70BLlama3 nur mehr als 300 Token pro Sekunde beträgt. Aufgrund der Geschwindigkeit von Cursor kann man sagen, dass eine nahezu sofortige vollständige Bearbeitung der Codedatei möglich ist. Manche Leute nennen es einen guten Kerl, wenn man Curs sagt

Deepseekai Tool User Guide und FAQ Deepseek ist ein leistungsstarkes KI -Intelligent -Tool. FAQ: Der Unterschied zwischen verschiedenen Zugriffsmethoden: Es gibt keinen Unterschied in der Funktion zwischen Webversion, App -Version und API -Aufrufen, und App ist nur ein Wrapper für die Webversion. Die lokale Bereitstellung verwendet ein Destillationsmodell, das der Vollversion von Deepseek-R1 geringfügig unteren ist, das 32-Bit-Modell theoretisch 90% Vollversionsfunktion. Was ist eine Taverne? SillyTervern ist eine Front-End-Oberfläche, die das KI-Modell über API oder Ollama anruft. Was ist Breaking Limit

Um sich bei der LBank zu registrieren, besuchen Sie die offizielle Website und klicken Sie auf „Registrieren“. Geben Sie Ihre E-Mail-Adresse und Ihr Passwort ein und bestätigen Sie Ihre E-Mail-Adresse. Laden Sie die LBank-App für iOS herunter: Suchen Sie im AppStore nach „LBank“. Laden Sie die Anwendung „LBank-DigitalAssetExchange“ herunter und installieren Sie sie. Android: Suchen Sie im Google Play Store nach „LBank“. Laden Sie die Anwendung „LBank-DigitalAssetExchange“ herunter und installieren Sie sie.

Im Februar dieses Jahres brachte Google das multimodale Großmodell Gemini 1.5 auf den Markt, das durch technische und Infrastrukturoptimierung, MoE-Architektur und andere Strategien die Leistung und Geschwindigkeit erheblich verbesserte. Mit längerem Kontext, stärkeren Argumentationsfähigkeiten und besserem Umgang mit modalübergreifenden Inhalten. Diesen Freitag hat Google DeepMind offiziell den technischen Bericht zu Gemini 1.5 veröffentlicht, der die Flash-Version und andere aktuelle Upgrades behandelt. Das Dokument ist 153 Seiten lang. Link zum technischen Bericht: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf In diesem Bericht stellt Google Gemini1 vor

Zu den KI-Tools gehören: Doubao, ChatGPT, Gemini, BlenderBot usw.

Laut Nachrichten vom 26. Juni hielt Yang Jie, Vorsitzender von China Mobile, bei der Eröffnungszeremonie der World Mobile Communications Conference Shanghai (MWC Shanghai) 2024 eine Rede. Er sagte, dass die menschliche Gesellschaft derzeit in die vierte industrielle Revolution eintritt, die von Informationen dominiert und tief in Informationen und Energie integriert ist, d. h. die „Revolution der digitalen Intelligenz“, und dass sich die Bildung neuer Produktivkräfte beschleunigt. Yang Jie glaubt, dass jede Runde der industriellen Revolution darauf basiert, von der „Mechanisierungsrevolution“, angetrieben durch Dampfmaschinen, über die „Elektrifizierungsrevolution“, angetrieben durch Elektrizität und Verbrennungsmotoren, bis hin zur „Informationsrevolution“, angetrieben durch Computer und das Internet „Information und „Energie“ ist die Hauptlinie, die Produktivitätsentwicklung bringt
