Heim Technologie-Peripheriegeräte KI Huawei GTS LocMoE+: MoE-Architektur mit hoher Skalierbarkeit und Affinität, geringer Overhead für aktives Routing

Huawei GTS LocMoE+: MoE-Architektur mit hoher Skalierbarkeit und Affinität, geringer Overhead für aktives Routing

Jul 19, 2024 pm 05:31 PM
华为 工程 LocMoE

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail zur Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Die Co-Autoren dieses Artikels sind Dr. Li Jing, Sun Zhijie und Dr. Lin Dachao. Die Hauptmitglieder sind vom GTS AI Computing Lab. Zu den Hauptforschungs- und Umsetzungsfeldern gehören LLM-Ausbildung und -Beschleunigung, KI-Ausbildungssicherung und Graph Computing.

MoE hat in den letzten zwei Jahren im Bereich großer Sprachmodelle aufgrund seiner geringen Kosten und hohen Effizienz im Schulungs- und Beförderungsprozess glänzt. Da es die Seele des MoE ist, gibt es endlose diesbezügliche Forschungen und Diskussionen darüber, wie Experten ihr Lernpotenzial maximieren können. Zuvor hatte das Forschungsteam des Huawei GTS AI Computing Lab LocMoE vorgeschlagen, einschließlich einer neuartigen Routing-Netzwerkstruktur, lokalem Verlust zur Reduzierung des Kommunikationsaufwands usw., was große Aufmerksamkeit erregte.

Das obige Design von LocMoE lindert effektiv die Engpässe einiger klassischer MoE-Strukturen im Training, wie zum Beispiel: Experten-Routing-Algorithmen sind möglicherweise nicht in der Lage, Token effektiv zu unterscheiden, und die Effizienz der Kommunikationssynchronisation wird durch den Unterschied in der Übertragungsbandbreite innerhalb dieser begrenzt und zwischen Knoten usw. . Darüber hinaus beweist und löst LocMoE die Untergrenze der Expertenkapazität, die diskriminierende Token erfolgreich verarbeiten kann. Diese Untergrenze wird auf der Grundlage der Wahrscheinlichkeitsverteilung diskriminierender Token in Token-Batches in einem Szenario abgeleitet, in dem Token passiv an Experten verteilt werden. Wenn Experten dann auch die Möglichkeit haben, optimale Token auszuwählen, erhöht sich die Wahrscheinlichkeit, dass diskriminierende Token verarbeitet werden, erheblich und die Untergrenze der Expertenkapazität wird weiter komprimiert.

Basierend auf den oben genannten Ideen schlug das Team außerdem eine MoE-Architektur vor, die auf aktivem Routing mit geringem Overhead basiert, und nannte sie LocMoE+. LocMoE+ erbt die Vorteile der hochdiskriminierenden Experten und der lokalen Kommunikation von LocMoE, transformiert die Routing-Strategie weiter, definiert den Affinitätsindex zwischen Token und Experten und beginnt mit diesem Index, um die Token-Verteilung effizienter abzuschließen und dadurch die Trainingseffizienz zu verbessern.

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

  • Papierlink: https://arxiv.org/pdf/2406.00023

Einführung in das Papier

Die Kernidee des Papiers ist zu kombinieren Traditionelles passives Routing mit Experten. Aktives Routing verbessert die Wahrscheinlichkeit, diskriminierende Token unter einer bestimmten Kapazität zu verarbeiten, wodurch das Probenrauschen reduziert und die Trainingseffizienz verbessert wird. Dieses Papier geht von der Beziehung zwischen einem Token und seinen zugewiesenen Experten aus und quantifiziert und definiert die Affinität zwischen Experten und Token in einem Schema mit geringem Rechenaufwand. Dementsprechend implementiert dieses Papier eine globale adaptive Routing-Strategie und ordnet Token in der Expertendimension basierend auf Affinitätswerten neu und wählt sie aus. Gleichzeitig verringert sich nachweislich die Untergrenze der Expertenkapazität allmählich, wenn sich die Token-Feature-Verteilung stabilisiert, und der Trainingsaufwand kann reduziert werden.

Dieses Papier ist das erste, das zwei Routing-Mechanismen kombiniert. Basierend auf der Entdeckung, dass Token dazu neigen, an Experten mit kleineren Winkeln in der Lern-Routing-Strategie weitergeleitet zu werden, wird das Hindernis überwunden, das sich auf bestehende aktive Routing-Lösungen auswirkt Trainingseffizienz. Und bleiben Sie im Einklang mit der Art des passiven Routings.

Es ist erwähnenswert, dass der Autor eine völlig andere Hardwareumgebung (Servermodell, NPU-Kartenmodell, Cluster-Netzwerkschema), Trainingsframework und Backbone-Modell von LocMoE ausgewählt hat, um die hohe Effizienz dieser Arbeitsreihe zu beweisen und einfache Tragbarkeit.

Adaptiver bidirektionaler Routenverteilungsmechanismus

Hintergrundeinführung

Traditionelles MoE verfügt über zwei Routenverteilungsmechanismen:

( 1) Harter Router, direkter Einsatz des gesamten Tokens Funktionen werden zugewiesen;
(2) Soft-Router, der eine gewichtete Kombination von Token-Funktionen zuweist.

In diesem Artikel wird weiterhin (1) berücksichtigt, da der Rechenaufwand geringer ist. Für das Hard-Router-Szenario kann es unterteilt werden in 1) Token Choice Router (TCR), der es jedem Token ermöglicht, Top-K-Experten auszuwählen, 2) Expert Choice Router (ECR), der es jedem Experten ermöglicht, Top-C-Experten auszuwählen Zeichen. Aufgrund von Kapazitätsbeschränkungen hat die Anzahl der von jedem Experten empfangenen Token eine Obergrenze C, daher werden in Szenario 1) die von jedem Experten empfangenen Token gekürzt:

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

Des travaux antérieurs ont souligné que la formation du MoE est divisée en deux étapes : Phase 1. La formation au routage garantit que le routage peut raisonnablement attribuer des jetons, c'est-à-dire que les jetons dans différents domaines ou avec de grandes différences peuvent être distingués et attribués à différents experts. Grâce au routage des jetons Le rôle de chaque expert est de recevoir des jetons dans le même domaine ou avec des propriétés similaires. Chaque expert peut acquérir des connaissances dans des domaines et propriétés connexes après avoir suivi certaines formations. En résumé, la clé du « succès » de chaque étape de la formation du MoE réside dans l’exactitude et la rationalité de la distribution des jetons.

Contributions de cet article

(1) Grâce à la déduction de la fonction d'activation softmax, la similarité cosinus entre les experts et les jetons peut mesurer plus précisément l'affinité :

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

(2) Du point de vue de modélisation théorique, le taux de réussite de la formation unique du TCR et de l'ECR est analysé dans deux scénarios courants :
华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由
Sur la base de la théorie, l'auteur a souligné que

  • Au début de la formation du modèle, lorsque le la capacité du jeton de routage est insuffisante. Chaque fois que TCR est formé, il a une probabilité de réussite de la formation plus élevée que l'ECR et nécessite une plus grande capacité d'experts pour garantir que le jeton approprié est sélectionné.
  • Dans la phase ultérieure de la formation du modèle, lorsque le routeur a une certaine capacité à allouer correctement les jetons, chaque fois qu'ECR est formé, il a une probabilité de réussite plus élevée que TCR. À ce stade, seule une capacité plus petite est. nécessaire pour sélectionner le jeton approprié.

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

Cette théorie est également très intuitive. Lorsque le routeur n'a pas de capacité de répartition, il est préférable de laisser le jeton sélectionner les experts au hasard. Lorsque le routeur a une certaine capacité de répartition, c'est-à-dire lorsque l'expert peut sélectionner le. jeton approprié, il est plus approprié d’utiliser ECR . Par conséquent, l’auteur recommande la transition du TCR vers l’ECR et propose une stratégie de commutation de routage adaptative au niveau mondial. Dans le même temps, sur la base de l’estimation de la demande de capacité d’expert, une capacité d’expert plus petite est utilisée dans les étapes ultérieures de la formation.

Résultats expérimentaux

Les expériences de cet article ont été menées sur le cluster auto-construit de NPU Ascend 910B3, grâce au système informatique haute performance (HCCS) exclusif de Huawei. la communication de données entre appareils est réalisée dans des scénarios multi-cartes, et la bibliothèque de communication collective Huawei (HCCL) conçue spécifiquement pour les processeurs Ascend permet une formation distribuée hautes performances sur des liaisons à haut débit telles que HCCS. L'expérience utilise le framework PyTorch pour Ascend compatible avec Ascend NPU et la bibliothèque d'accélération AscendSpeed ​​​​et le framework de formation ModelLink spécialement personnalisé pour les appareils Ascend, en se concentrant sur la stratégie parallèle LLM et l'optimisation du masquage des communications.

Efficacité de la formation

Les résultats expérimentaux montrent que sans affecter la convergence ou l'efficacité de la formation du modèle, le nombre de jetons que chaque expert doit traiter peut être réduit de plus de 60 % par rapport à la ligne de base. Combinée à l'optimisation de la communication, l'efficacité de la formation est améliorée en moyenne de 5,4 % à 46,6 % pour des tailles de cluster de 32 cartes, 64 cartes et 256 cartes.

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

Utilisation de la mémoire vidéo

LocMoE+ présente également un certain gain dans l'utilisation de la mémoire vidéo, en particulier dans les scénarios où la taille du cluster est petite et le calcul est intensif. En utilisant l'outil Ascend Insight pour analyser les échantillons de surveillance de la mémoire, on peut constater que l'utilisation de la mémoire LocMoE+ a chuté de 4,57 % à 16,27 % par rapport à la ligne de base, et de 2,86 % à 10,5 % par rapport à LocMoE. À mesure que la taille du cluster augmente, l’écart d’utilisation de la mémoire diminue.

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

Effektivitätsbewertung

Die Open-Source-Bewertungssets C-Eval und TeleQnA sowie das unabhängig erstellte IKT-Domänenbewertungsset GDAD wurden verwendet, um die Fähigkeiten von LocMoE+ im Bereich Allgemeinwissen und Domänenwissen zu bewerten. Darunter umfasst GDAD insgesamt 47 Unterpunkte, darunter 18.060 Stichproben, um die Leistung des Modells in den drei Hauptbewertungssystemen Domänenaufgaben, Domänenkompetenzzertifizierungsprüfungen und allgemeine Fähigkeiten zu untersuchen.

Nach ausreichender SFT verbesserte sich LocMoE+ im Durchschnitt um etwa 20,1 % im Vergleich zum Ausgangswert in 16 Unterfähigkeiten der Domänenaufgabenfähigkeiten und um etwa 3,5 % im Vergleich zu LocMoE. Die Zahl der Zertifizierungsprüfungen für Domänenkompetenzen stieg um 16 % bzw. 4,8 %. Unter den 18 Unterfunktionen der allgemeinen Funktionen verbesserte sich LocMoE+ um etwa 13,9 % bzw. 4,8 %. Insgesamt zeigt LocMoE+ Leistungsverbesserungen von 9,7 % bis 14,1 % bei GDAD, C-Eval und TeleQnA. 华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

Das obige ist der detaillierte Inhalt vonHuawei GTS LocMoE+: MoE-Architektur mit hoher Skalierbarkeit und Affinität, geringer Overhead für aktives Routing. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1667
14
PHP-Tutorial
1273
29
C#-Tutorial
1255
24
Yu Chengdong gab bekannt, dass Huaweis Mobiltelefon mit dreifach faltbarem Bildschirm im September vorgestellt wird: Der Preis wird voraussichtlich nicht günstig sein Yu Chengdong gab bekannt, dass Huaweis Mobiltelefon mit dreifach faltbarem Bildschirm im September vorgestellt wird: Der Preis wird voraussichtlich nicht günstig sein Aug 20, 2024 am 06:36 AM

Am 19. August veranstaltete Hongmeng in Shanghai eine Übergabezeremonie für die ersten Xiangjie S9-Besitzer. Huawei-Manager Yu Chengdong war persönlich anwesend und übergab die Fahrzeuge an die Besitzer. Vor Ort fragte ein Autobesitzer, der bereits Wenjie M5, M7 und M9 besaß, Yu Chengdong, wann er das Mobiltelefon mit dreifachem Bildschirm von Huawei kaufen könne, und antwortete, dass es nächsten Monat erhältlich sein würde. Fenyefenye Zuvor waren im Internet echte Aufnahmen von Huaweis Telefon mit dreifachem Display durchgesickert, was weit verbreitete Besorgnis erregte. Auf dem Bild zeigt das neue Telefon von Yu Chengdong eine außergewöhnliche visuelle Wirkung. Sein Bildschirm ist viel größer als der herkömmlicher Mobiltelefone mit Klappbildschirm. Es hat ein einzigartiges Design und ist kein Tablet, aber besser als ein Tablet. Oben auf der linken Seite befindet sich eine zentrale Lochkamera sowie ein undeutlich sichtbares Doppelfaltdesign. Es wird vermutet, dass die Seite des Telefons mit einem Stift ausgestattet ist. Diese Hinweise deuten alle darauf hin

Der beste Zeitpunkt, um die Huawei Mate 60-Serie, die neue KI-Eliminierung + Image-Upgrade zu kaufen und Herbstaktionen zu genießen Der beste Zeitpunkt, um die Huawei Mate 60-Serie, die neue KI-Eliminierung + Image-Upgrade zu kaufen und Herbstaktionen zu genießen Aug 29, 2024 pm 03:33 PM

Seitdem die Huawei Mate60-Serie letztes Jahr in den Handel kam, nutze ich persönlich das Mate60Pro als mein Haupttelefon. In fast einem Jahr wurde das Huawei Mate60Pro mehreren OTA-Upgrades unterzogen und das Gesamterlebnis wurde erheblich verbessert, sodass die Menschen das Gefühl haben, immer neu zu sein. So hat beispielsweise die Huawei Mate60-Serie kürzlich noch einmal ein deutliches Upgrade der Bildgebungsfunktionen erhalten. Erstens die neue KI-Eliminierungsfunktion, die Passanten und Schmutz auf intelligente Weise eliminieren und leere Bereiche automatisch ausfüllen kann. Zweitens wurden die Farbgenauigkeit und die Teleschärfe der Hauptkamera erheblich verbessert. Angesichts der Schulanfangssaison hat die Huawei Mate60-Serie auch eine Herbstaktion gestartet: Beim Kauf des Telefons erhalten Sie einen Rabatt von bis zu 800 Yuan, der Startpreis liegt bei nur 4.999 Yuan. Häufig verwendete und oft neue Produkte mit großem Wert

Nvidia spielt mit Beschneidung und Destillation: Halbierung der Llama 3.1 8B-Parameter, um bei gleicher Größe eine bessere Leistung zu erzielen Nvidia spielt mit Beschneidung und Destillation: Halbierung der Llama 3.1 8B-Parameter, um bei gleicher Größe eine bessere Leistung zu erzielen Aug 16, 2024 pm 04:42 PM

Der Aufstieg kleiner Modelle. Letzten Monat veröffentlichte Meta die Modellreihe Llama3.1, zu der das bisher größte Modell von Meta, das 405B-Modell, und zwei kleinere Modelle mit Parameterbeträgen von 70 Milliarden bzw. 8 Milliarden gehören. Llama3.1 gilt als der Beginn einer neuen Ära von Open Source. Obwohl die Modelle der neuen Generation leistungsstark sind, erfordern sie bei der Bereitstellung immer noch große Mengen an Rechenressourcen. Daher hat sich in der Branche ein weiterer Trend herausgebildet, der darin besteht, kleine Sprachmodelle (SLM) zu entwickeln, die bei vielen Sprachaufgaben eine ausreichende Leistung erbringen und zudem sehr kostengünstig in der Bereitstellung sind. Kürzlich haben Untersuchungen von NVIDIA gezeigt, dass durch strukturierte Gewichtsbereinigung in Kombination mit Wissensdestillation nach und nach kleinere Sprachmodelle aus einem zunächst größeren Modell gewonnen werden können. Turing-Preisträger, Meta Chief A

Huawei wird das Xuanji-Sensorsystem im Bereich Smart Wearables auf den Markt bringen, das den emotionalen Zustand des Benutzers anhand der Herzfrequenz beurteilen kann Huawei wird das Xuanji-Sensorsystem im Bereich Smart Wearables auf den Markt bringen, das den emotionalen Zustand des Benutzers anhand der Herzfrequenz beurteilen kann Aug 29, 2024 pm 03:30 PM

Kürzlich gab Huawei bekannt, dass es im September ein neues intelligentes tragbares Produkt mit dem Xuanji-Sensorsystem auf den Markt bringen wird, bei dem es sich voraussichtlich um die neueste Smartwatch von Huawei handeln wird. Dieses neue Produkt wird fortschrittliche Funktionen zur Überwachung der emotionalen Gesundheit integrieren. Das Xuanji Perception System bietet Benutzern eine umfassende Gesundheitsbewertung mit seinen sechs Merkmalen – Genauigkeit, Vollständigkeit, Geschwindigkeit, Flexibilität, Offenheit und Skalierbarkeit. Das System nutzt ein Super-Sensing-Modul und optimiert die Mehrkanal-Optikpfad-Architekturtechnologie, wodurch die Überwachungsgenauigkeit grundlegender Indikatoren wie Herzfrequenz, Blutsauerstoff und Atemfrequenz erheblich verbessert wird. Darüber hinaus hat das Xuanji Sensing System auch die Erforschung emotionaler Zustände auf Basis von Herzfrequenzdaten erweitert. Es beschränkt sich nicht nur auf physiologische Indikatoren, sondern kann auch den emotionalen Zustand und das Stressniveau des Benutzers bewerten. Es unterstützt die Überwachung von mehr als 60 Sportarten Gesundheitsindikatoren, die kardiovaskuläre, respiratorische, neurologische, endokrine,

Apple und Huawei wollten beide ein tastenloses Telefon entwickeln, aber Xiaomi hat es zuerst gemacht? Apple und Huawei wollten beide ein tastenloses Telefon entwickeln, aber Xiaomi hat es zuerst gemacht? Aug 29, 2024 pm 03:33 PM

Berichten von Smartprix zufolge entwickelt Xiaomi ein tastenloses Mobiltelefon mit dem Codenamen „Suzaku“. Dieser Nachricht zufolge wird dieses Mobiltelefon mit dem Codenamen Zhuque mit einem integrierten Konzept entwickelt, eine Kamera unter dem Bildschirm verwenden und mit einem Qualcomm Snapdragon 8gen4-Prozessor ausgestattet sein. Wenn sich der Plan nicht ändert, wird es wahrscheinlich im Jahr 2025 auf den Markt kommen . Als ich diese Nachricht sah, dachte ich, ich wäre im Jahr 2019 – damals brachte Xiaomi das Mi MIX Alpha-Konzepttelefon heraus und das tastenlose Surround-Screen-Design war ziemlich erstaunlich. Dies ist das erste Mal, dass ich den Charme eines tastenlosen Mobiltelefons sehe. Wenn Sie ein Stück „magisches Glas“ wollen, müssen Sie zuerst die Tasten töten. In „Die Biografie von Steve Jobs“ äußerte Jobs einmal seine Hoffnung, dass das Mobiltelefon wie ein Stück „magisches Glas“ sein könnte.

Zum ersten Mal seit Jahrzehnten wurden Fortschritte erzielt, die Lehrlinge Tao Zhexuan und Zhao Yufei lösten kombinatorische Mathematikprobleme Zum ersten Mal seit Jahrzehnten wurden Fortschritte erzielt, die Lehrlinge Tao Zhexuan und Zhao Yufei lösten kombinatorische Mathematikprobleme Aug 15, 2024 pm 05:04 PM

Kürzlich wurden erstmals Fortschritte bei einem seit Jahrzehnten ungelösten mathematischen Rätsel erzielt. Treiber dieses Fortschritts sind James Leng, ein Doktorand an der UCLA, Ashwin Sah, ein Doktorand in Mathematik am MIT, und Mehtaab Sawhney, ein Assistenzprofessor an der Columbia University. Unter ihnen studierte James Leng bei dem berühmten Mathematiker Terence Tao und Ashwin Sah bei dem Meister der diskreten Mathematik Zhao Yufei. Papieradresse: https://arxiv.org/pdf/2402.17995 Um den Durchbruch zu verstehen, der in dieser Forschung erzielt wurde, müssen wir mit arithmetischen Progressionen beginnen. Die Summe der ersten n Terme einer arithmetischen Folge wird als arithmetische Reihe, auch Rechenreihe genannt, bezeichnet. Im Jahr 1936 gründete der Mathematiker Paul Erdő

Neue Arbeit vom Autor von Mamba: Distilling Llama3 in ein hybrides lineares RNN Neue Arbeit vom Autor von Mamba: Distilling Llama3 in ein hybrides lineares RNN Sep 02, 2024 pm 01:41 PM

Der Schlüssel zum großen Erfolg von Transformer im Bereich Deep Learning ist der Aufmerksamkeitsmechanismus. Der Aufmerksamkeitsmechanismus ermöglicht es dem Transformer-basierten Modell, sich auf die Teile zu konzentrieren, die mit der Eingabesequenz zusammenhängen, und so ein besseres Kontextverständnis zu erreichen. Der Nachteil des Aufmerksamkeitsmechanismus besteht jedoch darin, dass der Rechenaufwand hoch ist, der quadratisch mit der Eingabegröße zunimmt, was es für den Transformer schwierig macht, sehr lange Texte zu verarbeiten. Vor einiger Zeit hat das Aufkommen von Mamba diese Situation durchbrochen und kann mit zunehmender Kontextlänge eine lineare Erweiterung erreichen. Mit der Veröffentlichung von Mamba können diese Zustandsraummodelle (SSM) Transformer in kleinen und mittleren Maßstäben erreichen oder sogar übertreffen und dabei die Ordnung aufrechterhalten.

Der Preis des Mate 60 wird um 800 Yuan reduziert, und der Preis des Pura 70 wird um 1.000 Yuan reduziert: Warten Sie einfach, bis Huawei Mate 70 herausbringt! Der Preis des Mate 60 wird um 800 Yuan reduziert, und der Preis des Pura 70 wird um 1.000 Yuan reduziert: Warten Sie einfach, bis Huawei Mate 70 herausbringt! Aug 16, 2024 pm 03:45 PM

Laut Nachrichten vom 16. August wird für aktuelle Huawei-Handys bereits intensiv daran gearbeitet, den Weg für die Einführung neuer Modelle freizumachen, sodass jeder gesehen hat, wie die Preise für die Mate60-Serie und die Pura70-Serie nacheinander gesenkt wurden. Nachdem Huawei am 15. August offiziell Preissenkungen für die Mate60-Serie ankündigte, haben die neuesten Modelle der beiden Flaggschiff-Serien von Huawei die Preisanpassungen abgeschlossen. Im Juli dieses Jahres gab Huawei offiziell bekannt, dass die Huawei Pura70-Serie zum Verkauf angeboten wird, wobei die Preise um bis zu 1.000 Yuan gesenkt werden sollen. Unter anderem hat Huawei Pura70 einen direkten Rabatt von 500 Yuan, mit einem Startpreis von 4999 Yuan; Huawei Pura70 Beidou Satellite News Edition hat einen direkten Rabatt von 500 Yuan, mit einem Startpreis von 5099 Yuan; 800 Yuan, mit einem Startpreis von 5699 Yuan;

See all articles