Die Disziplin der künstlichen Intelligenz entstand im Jahr 1956 und machte im nächsten halben Jahrhundert kaum Fortschritte. Die Entwicklung von Rechenleistung und Daten blieb weit hinter den Algorithmen zurück. Mit dem Aufkommen des Internetzeitalters im Jahr 2000 wurden jedoch die Grenzen der Rechenleistung durchbrochen, künstliche Intelligenz drang nach und nach in alle Lebensbereiche vor und leitete die Ära der Großmodelle ein. Allerdings scheinen qualitativ hochwertige Daten zum letzten „Flaschenhals“ in der Entwicklung der künstlichen Intelligenz geworden zu sein
Huawei OceanStor Pacific gewann den „Best Innovation Award for AI Storage Base“ auf der kürzlich abgehaltenen National High Performance Computing Academic Annual Conference (CCF HPC China 2 muss umgeschrieben werden als: 023)
Die Entstehung des Konzepts der KI-Aufbewahrung spiegelt tatsächlich die kontinuierliche Verbesserung des Werts von Daten für KI wider
Der Inhalt, der neu geschrieben werden muss, ist: 01
Daten bestimmen den Intelligenzgrad der künstlichen Intelligenz
Die Entwicklung künstlicher Intelligenz ist ein Prozess der kontinuierlichen Datenerfassung und -analyse. Daten als Informationsträger sind die Grundlage für künstliche Intelligenz, um die Welt zu lernen und zu verstehen. Allgemeine Intelligenz ist das ultimative Ziel der Entwicklung künstlicher Intelligenz. Sie kann selbstständig lernen, verstehen, argumentieren und Probleme lösen, und Daten sind die größte treibende Kraft für ihre Entwicklung
Je mehr Daten, desto intelligenter wird die KI? Kann KI die Rolle von Experten übertreffen, solange es große Datenmengen gibt?Nehmen Sie als Beispiel künstliche Intelligenzsysteme im medizinischen Bereich. Für viele Diagnosefälle gibt es tatsächlich keine einzige richtige Antwort. In der medizinischen Diagnose hat jede Gruppe von Symptomen eine Reihe möglicher Ursachen mit unterschiedlichen Wahrscheinlichkeiten, sodass KI-gestützte Entscheidungsfindung Ärzten dabei helfen kann, die möglichen Ursachen einzugrenzen, bis eine Lösung gefunden ist. In diesem Fall ist die medizinische künstliche Intelligenz nicht auf große Datenmengen angewiesen, sondern auf genaue und qualitativ hochwertige Daten. Nur so kann sichergestellt werden, dass beim „Screening“ die wirklich möglichen Ursachen nicht übersehen werden
Die Bedeutung der Datenqualität für die KI-Intelligenz spiegelt sich in dieser typischen Demonstration wider
In der Branche der künstlichen Intelligenz herrschte schon immer der Konsens „Müll rein, Müll raus“. Das bedeutet, dass ohne qualitativ hochwertige Dateneingabe, egal wie fortgeschritten der Algorithmus oder wie leistungsfähig die Rechenleistung ist, er nicht in der Lage sein wird, qualitativ hochwertige Ergebnisse zu liefern
Heutzutage stehen wir an der Schwelle zu großen Vorbildern. Große Modelle künstlicher Intelligenz schießen wie Pilze nach dem Regen aus dem Boden. Eine Reihe großer Modelle in China, wie Pangu von Huawei, Spark von iFlytek und Taichu von Zidong, entwickeln sich rasant und engagieren sich für den Aufbau einer branchenübergreifenden, universellen Plattform für künstliche Intelligenz, um die digitale Transformation aller Lebensbereiche voranzutreiben
Laut dem „China Artificial Intelligence Large Model Map Research Report“, der Ende Mai vom New Generation Artificial Intelligence Development Research Center des chinesischen Ministeriums für Wissenschaft und Technologie veröffentlicht wurde, gibt es 79 große Modelle mit einem Maßstab von mehr als einer Milliarde Parameter wurden in China veröffentlicht. Obwohl sich das Muster „Battle of 100 Models“ herausgebildet hat, hat es auch tiefgreifende Überlegungen zur Entwicklung großer Modelle angestoßen
Die Ausdrucksmöglichkeiten von Modellen, die auf kleinen Datenmengen basieren, sind durch die Datengröße begrenzt. Sie können nur grobkörnige Simulationen und Vorhersagen durchführen und sind in Situationen mit relativ hohen Genauigkeitsanforderungen nicht mehr anwendbar. Wenn Sie die Genauigkeit des Modells weiter verbessern möchten, müssen Sie umfangreiche Daten verwenden, um relevante Modelle zu generieren
Der umgeschriebene Inhalt lautet: Das bedeutet, dass die Datenmenge den Grad der KI-Intelligenz bestimmt. Unabhängig von der Qualität der Daten ist die Datenmenge ein Schwerpunkt, der beim Aufbau von „KI-Speicherkapazität“ konzentriert werden muss
Was neu geschrieben werden muss, ist: 02Im Zeitalter von Big Data stehen Daten vor großen Herausforderungen
Da sich künstliche Intelligenz hin zu großen Modellen und Multimodalität entwickelt, stehen Unternehmen bei der Entwicklung oder Implementierung großer Modellanwendungen vor vielen Herausforderungen
Erstens ist der Datenvorverarbeitungszyklus sehr lang. Da die Daten auf verschiedene Rechenzentren, unterschiedliche Anwendungen und unterschiedliche Systeme verteilt sind, gibt es Probleme wie eine langsame Erfassungsgeschwindigkeit. Daher dauert die Vorverarbeitung von 100 TB Daten. Die Systemauslastung muss verbessert werden Anfang.
Zweitens muss das Problem der geringen Ladeeffizienz des Trainingssatzes gelöst werden. Heutzutage wird der Umfang groß angelegter Modelle immer größer und die Parameterwerte erreichen Hunderte von Milliarden oder sogar Billionen. Der Trainingsprozess erfordert eine große Menge an Rechenressourcen und Speicherplatz. Beispielsweise verwenden multimodale Modelle im großen Maßstab umfangreiche Texte und Bilder als Trainingssätze, aber die aktuelle Ladegeschwindigkeit großer kleiner Dateien ist langsam, was zu einem ineffizienten Laden von Trainingssätzen führt
Darüber hinaus stehen wir auch vor den Herausforderungen der häufigen Abstimmung großer Modellparameter und instabiler Trainingsplattformen, wobei es im Durchschnitt alle zwei Tage zu Trainingsunterbrechungen kommt. Um das Training wieder aufzunehmen, muss ein Checkpoint-Mechanismus verwendet werden, und die Zeit zur Wiederherstellung nach einem Fehler beträgt mehr als einen Tag, was viele Herausforderungen für die Geschäftskontinuität mit sich bringt
Um im Zeitalter der großen KI-Modelle erfolgreich zu sein, müssen wir sowohl auf die Qualität als auch auf die Quantität der Daten achten und eine leistungsstarke Speicherinfrastruktur mit großer Kapazität aufbauen. Dies ist zu einem Schlüsselelement für den Sieg geworden
Der Inhalt, der neu geschrieben werden muss, ist: 03
Der Schlüssel zur KI-Ära ist die Stromspeicherbasis
Durch die Kombination von Big Data, künstlicher Intelligenz und anderen Technologien mit Hochleistungsrechnen ist die Hochleistungsdatenanalyse (HPDA) zu einer neuen Form der Wertschöpfung von Daten geworden. Durch die Nutzung von mehr historischen Daten, mehreren heterogenen Rechenleistungen und Analysemethoden kann HPDA die Analysegenauigkeit verbessern. Dies markiert eine neue Stufe der intelligenten Forschung in der wissenschaftlichen Forschung, und die Technologie der künstlichen Intelligenz wird die Anwendung innovativer Ergebnisse beschleunigen
Heute entsteht im Bereich der wissenschaftlichen Forschung ein neues Paradigma, das auf „datenintensiver Wissenschaft“ basiert. Dieses Paradigma konzentriert sich mehr auf die Kombination von Big Data Knowledge Mining und Trainings- und Argumentationstechnologie für künstliche Intelligenz, um durch Berechnung und Analyse neues Wissen und Entdeckungen zu gewinnen. Dies bedeutet auch, dass sich die Anforderungen an die zugrunde liegende Dateninfrastruktur grundlegend ändern werden. Ob es um Hochleistungsrechnen oder die zukünftige Entwicklung künstlicher Intelligenz geht, es muss eine fortschrittliche Speicherinfrastruktur eingerichtet werden, um die Datenherausforderungen zu bewältigen
Um Datenherausforderungen zu lösen, müssen wir mit Innovationen bei der Datenspeicherung beginnen. Wie das Sprichwort sagt: Die Person, die die Glocke geöffnet hat, muss die Glocke binden
Die KI-Speicherbasis wurde auf Basis des verteilten Speichers von OceanStor Pacific entwickelt und folgt dem AI-Native-Designkonzept, um den Speicherbedarf aller Aspekte der KI zu erfüllen. KI-Systeme stellen umfassende Herausforderungen an die Speicherung, einschließlich der Beschleunigung der Datenverarbeitung, der Datenspeicherverwaltung und der effizienten Zirkulation zwischen Datenspeicherung und Datenverarbeitung. Durch den Einsatz einer Kombination aus „Speicher mit großer Kapazität + Hochleistungsspeicher“ können wir die Planung und Koordination von Speicherressourcen sicherstellen, sodass jede Verbindung effizient arbeiten kann, wodurch der Wert des KI-Systems voll ausgeschöpft wird
Wie demonstriert der verteilte Speicher von OceanStor Pacific seine Kernkompetenzen?
Erstens ist die technische Architektur einzigartig in der Branche. Dieses Speichersystem unterstützt eine unbegrenzte horizontale Erweiterung und kann gemischte Lasten verarbeiten. Es kann die IOPS kleiner Dateien und die Bandbreite des Hochgeschwindigkeitslesens und -schreibens großer Dateien effizient verarbeiten. Es verfügt über intelligente hierarchische Datenflussfunktionen auf der Leistungs- und Kapazitätsebene und kann ein vollständiges KI-Datenmanagement wie Sammlung, Vorverarbeitung, Training und Schlussfolgerung großer Datenmengen realisieren. Darüber hinaus verfügt es über die gleichen Datenanalysefunktionen wie HPC und Big Data
Der umgeschriebene Inhalt lautet: Zweitens ist der beste Weg, die Effizienz in der Branche zu verbessern, Speicherinnovationen. Das erste ist das Datenweben, d. h. der Zugriff auf in verschiedenen Regionen verstreute Rohdaten über das globale GFS-Dateisystem, um eine globale, einheitliche Datenansicht und -planung über Systeme, Regionen und mehrere Clouds hinweg zu erreichen und so den Datenerfassungsprozess zu vereinfachen. Das zweite ist Near-Memory-Computing, das die Vorverarbeitung von Near-Data durch die Speicherung eingebetteter Rechenleistung realisiert, ungültige Datenübertragungen reduziert und die Wartezeit des Vorverarbeitungsservers verkürzt, wodurch die Vorverarbeitungseffizienz erheblich verbessert wird
Tatsächlich ist der „Kampf der Hunderter Modelle“ kein „Zeichen“ für die Entwicklung großer KI-Modelle. In Zukunft werden alle Lebensbereiche die Fähigkeiten großer KI-Modelle nutzen, um die tiefgreifende Entwicklung der digitalen Transformation voranzutreiben, und auch der Aufbau der Dateninfrastruktur wird beschleunigt. Die Innovation der verteilten Speichertechnologie von OceanStor Pacific und ihre hohe Effizienz haben sich als erste Wahl der Branche erwiesen
Wir verstehen, dass Daten neben Land, Arbeit, Kapital und Technologie zu einem neuen Produktionsfaktor geworden sind. Viele traditionelle Definitionen und Betriebsmodelle im digitalen Markt der Vergangenheit werden neu geschrieben. Nur mit bereits vorhandenen Fähigkeiten können wir den stetigen Fortschritt im Zeitalter datengesteuerter Großmodelle mit künstlicher Intelligenz sicherstellen
Das obige ist der detaillierte Inhalt vonDie Entwicklung der KI-Großmodellära erfordert fortschrittliche Speichertechnologie, um stabile Fortschritte zu erzielen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!