Das Bild oben zeigt den ersten Workshop zu künstlicher Intelligenz, der 1956 am Dartmouth College in den Vereinigten Staaten stattfand der Beginn der künstlichen Intelligenz sein, und die Teilnehmer sind hauptsächlich die Pioniere der symbolischen Logik (mit Ausnahme des Neurobiologen Peter Milner in der Mitte der ersten Reihe).
Diese symbolische Logiktheorie konnte jedoch lange Zeit nicht verwirklicht werden, und sogar die erste KI-Winterperiode kam in den 1980er und 1990er Jahren. Erst mit der kürzlich erfolgten Implementierung großer Sprachmodelle entdeckten wir, dass neuronale Netze dieses logische Denken tatsächlich in sich tragen. Die Arbeit des Neurobiologen Peter Milner inspirierte die spätere Entwicklung künstlicher neuronaler Netze, und aus diesem Grund wurde er zur Teilnahme eingeladen in diesem akademischen Seminar.
Im Jahr 2012 veröffentlichte Andrew, der Direktor für autonomes Fahren bei Tesla, das obige Bild auf seinem Blog und zeigte den damaligen US-Präsidenten Obama beim Scherzen mit seinen Untergebenen. Damit künstliche Intelligenz dieses Bild verstehen kann, ist es nicht nur eine visuelle Wahrnehmungsaufgabe, denn neben der Identifizierung von Objekten muss sie auch die Beziehung zwischen ihnen verstehen. Nur wenn wir die physikalischen Prinzipien der Skala kennen, können wir die beschriebene Geschichte kennen Das Bild: Obama tritt auf Der Mann auf der Waage nahm zu, was dazu führte, dass er diesen seltsamen Gesichtsausdruck machte, während andere lachten. Ein solches logisches Denken geht offensichtlich über den Rahmen der reinen visuellen Wahrnehmung hinaus. Daher müssen visuelle Wahrnehmung und logisches Denken kombiniert werden, um die Peinlichkeit der „künstlichen geistigen Behinderung“ zu beseitigen. Hier spiegeln sich auch die Bedeutung und die Schwierigkeit multimodaler großer Modelle wider es ist.
Das obige Bild ist ein anatomisches Strukturdiagramm des menschlichen Gehirns. Der Sprachlogikbereich im Bild entspricht dem großen Sprachmodell, während andere Bereiche verschiedenen Sinnen entsprechen, einschließlich Sehen, Hören, Berühren und Bewegung, Gedächtnis usw. Obwohl das künstliche neuronale Netzwerk kein neuronales Netzwerk im eigentlichen Sinne ist, können wir uns dennoch von ihm inspirieren lassen, das heißt, beim Aufbau eines großen Modells können verschiedene Funktionen miteinander kombiniert werden Multimodaler Modellbau.
Multimodale große Modelle können uns viel helfen, z. B. das Videoverständnis. Große Modelle können uns dabei helfen, die Zusammenfassung und die wichtigsten Informationen des Videos zusammenzufassen, wodurch wir beim Ansehen großer Modelle Zeit sparen kann uns auch dabei helfen, Nachanalysen von Videos durchzuführen, z. B. Programmklassifizierung, Programmbewertungsstatistiken usw. Darüber hinaus sind vinzentinische Diagramme auch ein wichtiges Anwendungsgebiet multimodaler großer Modelle.
Wenn das große Modell mit der Bewegung von Menschen oder Robotern kombiniert wird, wird eine verkörperte Intelligenz erzeugt. Genau wie bei Menschen wird die Methode zur Planung des besten Pfads basierend auf Erfahrungen aus der Vergangenheit auf neue angewendet. Lösen Sie das Szenario Einige Probleme, die bisher noch nicht aufgetreten sind, und gleichzeitig Risiken zu vermeiden, können Sie den ursprünglichen Plan während des Ausführungsprozesses sogar ändern, bis Sie schließlich Erfolg haben. Auch hier handelt es sich um ein Anwendungsszenario mit breiten Perspektiven.
Das Bild oben zeigt einige wichtige Knoten im Entwicklungsprozess eines multimodalen großen Modells:
Das obige Bild ist ein allgemeines Architekturdiagramm eines großen multimodalen Modells, einschließlich eines Sprachmodells und eines visuellen Modells, durch ein festes Sprachmodell und ein Das Ausrichten eines festen visuellen Modells besteht darin, den Vektorraum des visuellen Modells und den Vektorraum des Sprachmodells zu kombinieren und dann das Verständnis der internen logischen Beziehung zwischen beiden in einem einheitlichen Vektorraum zu vervollständigen.
4、LMB – Großer Modellbauer
Die Abstimmung großer Modelle wurde ebenfalls optimiert, einschließlich allgemeiner Weiterbildung, Überwachungsoptimierung und menschlichem Feedback beim Verstärkungslernen. Darüber hinaus wurden viele Optimierungen für Chinesisch vorgenommen, beispielsweise die automatische Erweiterung des chinesischen Wortschatzes. Da viele chinesische Wörter nicht in großen Open-Source-Modellen enthalten sind, werden diese Wörter möglicherweise in mehrere Token aufgeteilt. Durch die automatische Erweiterung dieser Wörter kann das Modell diese Wörter besser verwenden. 5. LMS – Large Model Serving Reduziert die Berechnungszeit erheblich und beschleunigt den Transformator durch schichtweise Wissensdestillation, um seinen Berechnungsaufwand zu reduzieren. Gleichzeitig wurde viel Beschneidungsarbeit geleistet (einschließlich strukturierter Beschneidung, spärlicher Beschneidung usw.), was die Inferenzgeschwindigkeit großer Modelle erheblich verbessert hat.
Zu den Hauptfunktionen gehören: KI-Modellverwaltung, Szenenverwaltung, Verwaltung von Prompt-Word-Vorlagen, Prompt-Word-Entwicklung und Prompt-Word-Anwendung usw.
Die Plattform bietet häufig verwendete Tools zur Verwaltung von Aufforderungswörtern, um eine Versionskontrolle zu erreichen, und stellt häufig verwendete Vorlagen bereit, um die Implementierung von Aufforderungswörtern zu beschleunigen.
1. Multimodales großes Modell – mit Speicher
Nach der Einführung der Plattformfunktionen werde ich als nächstes das multimodale Modell teilen Große Modellentwicklungspraktiken.
Darüber hinaus wird das multimodale große Modell, ähnlich wie die meisten Modelle, auch das große Sprachmodell und die feste Datenkodierung festlegen und ein separates modulares Training für die Ausrichtungsfunktion durchführen, sodass alle unterschiedlichen Datenmodalitäten ausgerichtet werden der Text Der logische Teil; im Argumentationsprozess wird die Sprache zuerst übersetzt, dann zusammengeführt und schließlich wird die Argumentationsarbeit durchgeführt.
2. ETL-Pipeline für unstrukturierte Daten
Da unsere multimodale Vektordatenbank DingoDB multimodale und ETL-Funktionen kombiniert, kann sie gute Funktionen zur Verwaltung unstrukturierter Daten bieten. Die Plattform bietet Pipeline-ETL-Funktionen und hat zahlreiche Optimierungen vorgenommen, darunter Operatorkompilierung, Parallelverarbeitung und Cache-Optimierung.
Darüber hinaus stellt die Plattform einen Hub bereit, der Pipelines wiederverwenden kann, um ein möglichst effizientes Entwicklungserlebnis zu erzielen. Gleichzeitig unterstützt es viele Encoder auf Huggingface, wodurch eine optimale Kodierung verschiedener Modaldaten erreicht werden kann. 3. Multimodale große Modellkonstruktionsmethode Daten Schulung durchführen.
Der Aufbau eines großen multimodalen Modells ist grob in drei Phasen unterteilt:
Die Speicherarchitektur im großen Modell kann uns dabei helfen, den Aufbau einer multimodalen Wissensdatenbank zu realisieren, bei der es sich tatsächlich um eine Modellanwendung handelt. Zhihu ist ein typisches multimodales Wissensdatenbank-Anwendungsmodul, dessen Fachwissen nachverfolgt werden kann.
Um die Gewissheit und Sicherheit des Wissens zu gewährleisten, ist es oft notwendig, die Quelle des Fachwissens zu ermitteln. Die Wissensdatenbank kann uns dabei helfen, diese Funktion zu realisieren Es besteht keine Notwendigkeit, die Modellparameter zu ändern und Wissen kann direkt zur Datenbank hinzugefügt werden.
Konkret wird Fachwissen genutzt, um über den Encoder unterschiedliche Codierungsentscheidungen zu treffen. Gleichzeitig wird eine einheitliche Bewertung auf der Grundlage verschiedener Bewertungsmethoden durchgeführt und die Auswahl des Encoders durch Ein-Klick-Bewertung realisiert. Schließlich wird die Encoder-Vektorisierung angewendet und in der multimodalen Vektordatenbank DingoDB gespeichert. Anschließend werden relevante Informationen über das multimodale Modul des großen Modells extrahiert und die Argumentation wird über das Sprachmodell durchgeführt.
Der letzte Teil des Modells erfordert häufig eine Feinabstimmung der Anweisungen. Da die Bedürfnisse verschiedener Benutzer unterschiedlich sind, muss das gesamte multimodale große Modell feinabgestimmt werden. Aufgrund der besonderen Vorteile der multimodalen Wissensdatenbank bei der Organisation von Informationen verfügt das Modell über die Fähigkeit, das Abrufen zu erlernen. Dies ist auch eine Innovation, die wir im Prozess der Textparagraphierung vorgenommen haben.
Allgemeine Wissensbasis besteht darin, das Dokument in Absätze zu unterteilen und dann jeden Absatz einzeln zu entsperren. Diese Methode wird leicht durch Rauschen beeinträchtigt, und bei vielen großen Dokumenten ist es schwierig, die Kriterien für die Absatzunterteilung zu bestimmen.
In unserem Modell führt das Abrufmodul das Lernen durch und das Modell findet automatisch eine geeignete strukturierte Informationsorganisation. Beginnen Sie für ein bestimmtes Produkt mit dem Produkthandbuch, suchen Sie zuerst den großen Katalogabsatz und dann den spezifischen Absatz. Da es sich um eine multimodale Informationsintegration handelt, enthält sie neben Text häufig auch Bilder, Tabellen usw., die auch vektorisiert und mit Metainformationen kombiniert werden können, um einen gemeinsamen Abruf zu erreichen und so die Abrufeffizienz zu verbessern .
Es ist erwähnenswert, dass das Abrufmodul einen Speicheraufmerksamkeitsmechanismus verwendet, der die Rückrufrate im Vergleich zu ähnlichen Algorithmen um 10 % erhöhen kann. Gleichzeitig kann der Speicheraufmerksamkeitsmechanismus für die multimodale Dokumentenverarbeitung verwendet werden , was auch ein sehr vorteilhafter Aspekt ist. 4. Gedanken und Ausblicke für die Zukunft Nur Daten 15 % sind strukturierte Daten. In den letzten 20 Jahren drehte sich die künstliche Intelligenz hauptsächlich um strukturierte Daten. Unstrukturierte Daten sind sehr schwierig zu nutzen und erfordern viel Energie und Kosten, um sie in strukturierte Daten umzuwandeln. Mit Hilfe multimodaler Großmodelle und multimodaler Wissensbasen sowie durch das neue Paradigma der künstlichen Intelligenz kann die Nutzung unstrukturierter Daten im internen Management von Unternehmen erheblich verbessert werden, was zu einer Verzehnfachung führen kann Wert in der Zukunft.
2. Wissensdatenbank --> Agent
Nehmen Sie den Vertriebsmitarbeiter als Beispiel. Eine gemeinsame Architektur umfasst zwei gleichzeitig existierende Agenten, von denen einer für die Entscheidungsfindung und der andere für die Analyse der Verkaufsphase verantwortlich ist. Beide Module können über multimodale Wissensdatenbanken nach relevanten Informationen suchen, darunter Produktinformationen, historische Verkaufsstatistiken, Kundenporträts, vergangene Verkaufserfahrungen usw. Diese Informationen werden integriert, um diesen beiden Agenten dabei zu helfen, die beste und korrekteste Arbeit bei diesen Entscheidungen zu leisten wiederum helfen Benutzern, die besten Verkaufsinformationen zu erhalten, die dann in einer multimodalen Datenbank aufgezeichnet werden. Dieser Zyklus verbessert weiterhin die Verkaufsleistung.
Wir glauben, dass die wertvollsten Unternehmen der Zukunft diejenigen sein werden, die Intelligenz in die Praxis umsetzen. Ich hoffe, dass Jiuzhang Yunji DataCanvas Sie den ganzen Weg begleiten und sich gegenseitig helfen kann.
Das obige ist der detaillierte Inhalt vonÜben und denken Sie an die multimodale große Modellplattform DataCanvas von Jiuzhang Yunji. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!