Zu vollständig! Ein Rückblick auf multimodales Deep Learning!
1. Einführung
Unsere Erfahrung der Welt ist multimodal – wir sehen Objekte, hören Geräusche, fühlen Texturen, riechen und schmecken. Modalität bezieht sich auf die Art und Weise, wie ein bestimmter Zustand auftritt oder erlebt wird. Wenn eine Forschungsfrage mehrere Modalitäten enthält, wird sie als multimodal bezeichnet. Damit die KI Fortschritte beim Verständnis der Welt um uns herum machen kann, muss sie in der Lage sein, diese multimodalen Signale gleichzeitig zu interpretieren.
Zum Beispiel werden Bilder oft mit Tags und Texterklärungen verknüpft, und Text enthält Bilder, um die zentrale Idee des Artikels klarer auszudrücken. Verschiedene Modalitäten haben sehr unterschiedliche statistische Eigenschaften. Diese Daten werden als multimodale Big Data bezeichnet und enthalten umfangreiche multimodale und modalübergreifende Informationen, was herkömmliche Datenfusionsmethoden vor große Herausforderungen stellt.
In dieser Rezension stellen wir einige bahnbrechende Deep-Learning-Modelle vor, um diese multimodalen Big Data zusammenzuführen. Da multimodale Big Data zunehmend erforscht werden, gibt es noch einige Herausforderungen, die angegangen werden müssen. Daher bietet dieser Artikel einen Überblick über Deep Learning für die Fusion multimodaler Daten mit dem Ziel, den Lesern (unabhängig von ihrer ursprünglichen Community) die Grundprinzipien multimodaler Deep-Learning-Fusion-Methoden zu vermitteln und neue Arten multimodaler Daten für die Deep-Learning-Fusion-Technologie zu inspirieren.
Das Problem bei diesem Ansatz besteht darin, dass er allen Subnetzwerken/Mustern die gleiche Bedeutung beimisst, was in realen Situationen sehr unwahrscheinlich ist. Hier muss eine gewichtete Kombination von Teilnetzwerken verwendet werden, damit jede Eingabemodalität einen Lernbeitrag (Theta) zur Ausgabevorhersage leisten kann.
2. Repräsentative Deep-Learning-Architektur
In diesem Abschnitt stellen wir die repräsentative Deep-Learning-Architektur des multimodalen Datenfusions-Deep-Learning-Modells vor. Insbesondere werden die Definition von tiefer Architektur, Feedforward-Berechnung und Backpropagation-Berechnung sowie typische Variationen gegeben. Repräsentative Modelle werden zusammengefasst.
Tabelle 1: Zusammenfassung repräsentativer Deep-Learning-Modelle.
2.1 Deep Belief Network (DBN)
Restricted Boltzmann Machine (RBM) ist der Grundblock des Deep Belief Network (Zhang, Ding, Zhang, & RBM ist eine spezielle Variante der Boltzmann-Maschine (siehe Abbildung 1), die aus einer sichtbaren Schicht und einer verborgenen Schicht besteht. Es besteht eine vollständige Verbindung zwischen der sichtbaren Schicht und der verborgenen Schicht, es gibt jedoch keine Verbindung zwischen Einheiten in derselben Schicht. RBM ist auch ein generatives Modell, das eine Energiefunktion verwendet, um die Wahrscheinlichkeitsverteilung zwischen sichtbaren und verborgenen Einheiten zu erfassen. Mithilfe der Ableitung der Energiefunktion kann die Wahrscheinlichkeitsverteilung der Einheiten zwischen sichtbaren und verborgenen Einheiten berechnet werden. RBM kann die Wahrscheinlichkeitsverteilung zwischen einzelnen Elementen und verborgenen Einheiten erfassen. In RBM gibt es keine Verbindungen zwischen Zellen, außer dass es keine Verbindungen zwischen Zellen innerhalb derselben Schicht gibt und alle Zellen über vollständige Verbindungen verbunden sind. RBM verwendet die Energiefunktion auch, um die Wahrscheinlichkeitsverteilung zwischen sichtbaren und verborgenen Einheiten zu berechnen. Mithilfe der Wahrscheinlichkeitsfunktion von RBM kann die Wahrscheinlichkeitsverteilung zwischen Einheiten erfasst werden.
Kürzlich wurden einige fortschrittliche RBMs vorgeschlagen, um die Leistung zu verbessern. Um beispielsweise eine Netzwerküberanpassung zu vermeiden, haben Chen, Zhang, Yeung und Chen (2017) eine spärliche Boltzmann-Maschine entworfen, die die Netzwerkstruktur auf der Grundlage hierarchischer latenter Bäume lernt. Ning, Pittman und Shen (2018) führten den schnellen kontrastiven Divergenzalgorithmus in RBM ein, bei dem grenzenbasierte Filterung und Delta-Produkt verwendet werden, um redundante Skalarproduktberechnungen in der Berechnung zu reduzieren. Um die interne Struktur mehrdimensionaler Daten zu schützen, schlugen Ju et al. (2019) Tensor-RBM vor, um in mehrdimensionalen Daten verborgene Verteilungen auf hoher Ebene zu lernen, wobei Tensorzerlegung verwendet wird, um den Fluch der Dimensionalität zu vermeiden.
DBM ist eine typische tiefe Architektur, die aus mehreren RBMs gestapelt ist (Hinton & Salakhutdinov, 2006). Es handelt sich um ein generatives Modell, das auf Trainingsstrategien vor dem Training und der Feinabstimmung basiert und Energie nutzen kann, um die Verteilung von Verbindungen zwischen sichtbaren Objekten und entsprechenden Beschriftungen zu erfassen. Im Vortraining wird jede verborgene Schicht gierig als RBM modelliert, das in einer unbeaufsichtigten Richtlinie trainiert wird. Anschließend wird jede verborgene Schicht durch die diskriminierenden Informationen der Trainingsetiketten in der überwachten Strategie weiter trainiert. DBNs wurden zur Lösung von Problemen in vielen Bereichen verwendet, beispielsweise zur Reduzierung der Datendimensionalität, zum Repräsentationslernen und zum semantischen Hashing. Ein repräsentatives DBM ist in Abbildung 1 dargestellt.
Abbildung 1:
2.2 Stapeled AutoCoder (SAE)
stacked AutoCoder (SAE) ist ein typisches Deep-Learning-Modell für die Architektur der Encoder-Decoderin (Michael, Olivier und Mario, 2018; Weng; Weng; , Lu, Tan und Zhou, 2016). Es kann die prägnanten Merkmale der Eingabe erfassen, indem es die ursprüngliche Eingabe auf unüberwachte und überwachte Weise in eine Zwischendarstellung umwandelt. SAE ist in vielen Bereichen weit verbreitet, darunter Dimensionsreduktion (Wang, Yao & Zhao, 2016), Bilderkennung (Jia, Shao, Li, Zhao & Fu, 2018) und Textklassifizierung (Chen & Zaki, 2017). Abbildung 2 zeigt ein repräsentatives SAE.
Abbildung 2:
2.3 Convolutional Neural Network (CNN)
DBN und SAE sind vollständig verbundene neuronale Netze. In beiden Netzwerken ist jedes Neuron in der verborgenen Schicht mit jedem Neuron in der vorherigen Schicht verbunden, und diese Topologie erzeugt eine große Anzahl von Verbindungen. Um die Gewichte dieser Verbindungen zu trainieren, benötigen vollständig verbundene neuronale Netze eine große Anzahl von Trainingsobjekten, um eine rechenintensive Über- und Unteranpassung zu vermeiden. Darüber hinaus berücksichtigt die vollständig verbundene Topologie nicht die Positionsinformationen von Merkmalen, die zwischen Neuronen enthalten sind. Daher können vollständig verbundene tiefe neuronale Netze (DBN, SAE und ihre Varianten) keine hochdimensionalen Daten verarbeiten, insbesondere keine großen Bilder und großen Audiodaten.
Faltungsneuronales Netzwerk ist ein spezielles tiefes Netzwerk, das die lokale Topologie der Daten berücksichtigt (Li, Xia, Du, Lin & Samat, 2017; Sze, Chen, Yang & Emer, 2017). Faltungs-Neuronale Netze umfassen vollständig verbundene Netze und eingeschränkte Netze, die Faltungsschichten und Pooling-Schichten enthalten. Eingeschränkte Netzwerke verwenden Faltungs- und Pooling-Operationen, um lokale Empfangsfelder und eine Parameterreduzierung zu erreichen. Faltungs-Neuronale Netze werden wie DBN und SAE über den stochastischen Gradientenabstiegsalgorithmus trainiert. Es hat große Fortschritte bei der medizinischen Bilderkennung (Magiori, Tarabalka, Charpiat & Alliez, 2017) und der semantischen Analyse (Hu, Lu, Li & Chen, 2014) gemacht. Ein repräsentatives CNN ist in Abbildung 3 dargestellt. Abbildung 3:
2.4 Recurrent Neural Network (RNN) 2011). Im Gegensatz zu Deep-Forward-Architekturen (d. h. DBN, SAE und CNN) ordnet es nicht nur Eingabemuster den Ausgabeergebnissen zu, sondern überträgt auch verborgene Zustände auf die Ausgabe, indem es Verbindungen zwischen verborgenen Einheiten nutzt (Graves & Schmidhuber, 2008). Mithilfe dieser verborgenen Verbindungen modellieren RNNs zeitliche Abhängigkeiten und teilen so Parameter zwischen Objekten in der zeitlichen Dimension. Es wurde in verschiedenen Bereichen wie der Sprachanalyse (Mulder, Bethard & Moens, 2015), der Bildunterschrift (Xu et al., 2015) und der Sprachübersetzung (Graves & Jaitly, 2014) angewendet und erzielte hervorragende Leistungen. Ähnlich wie bei der Deep-Forward-Architektur umfasst ihre Berechnung auch Vorwärtspass- und Backpropagation-Stufen. Bei der Vorwärtsdurchlaufberechnung erhält das RNN gleichzeitig den Eingabe- und den verborgenen Zustand. Bei der Backpropagation-Berechnung wird der zeitliche Backpropagation-Algorithmus verwendet, um den Verlust für den Zeitschritt zurückzupropagieren. Abbildung 4 zeigt ein repräsentatives RNN.
Abbildung 4:
3. Deep Learning für multimodale Datenfusion
In diesem Abschnitt überprüfen wir die neuesten Forschungsergebnisse aus der Perspektive von Modellaufgaben, Modellrahmen und Bewertungsdatensätzen Multimodales Deep-Learning-Modell zur Datenfusion. Sie sind basierend auf der verwendeten Deep-Learning-Architektur in vier Kategorien unterteilt. Tabelle 2 fasst repräsentative multimodale Deep-Learning-Modelle zusammen.
Tabelle 2:
Zusammenfassung repräsentativer multimodaler Deep-Learning-Modelle.
3.1 Netzwerkbasierte Deep-Believe-Multimodal-Datenfusion Das Generierungsmodell lernt multimodale Darstellungen, indem es die gemeinsame Verteilung multimodaler Daten über verschiedene Modalitäten (wie Bilder, Text und Audio) anpasst.Jedes Modul des vorgeschlagenen multimodalen DBN wird unüberwacht Schicht für Schicht initialisiert, und für das Modelltraining wird eine MCMC-basierte Näherungsmethode verwendet.
Um die erlernte multimodale Darstellung zu bewerten, wird eine große Anzahl von Aufgaben ausgeführt, z. B. das Generieren fehlender modaler Aufgaben, das Ableiten gemeinsamer Darstellungsaufgaben und diskriminierende Aufgaben. Experimente überprüfen, ob die erlernte multimodale Darstellung die erforderlichen Eigenschaften erfüllt.
3.1.2 Beispiel 2
Um die Alzheimer-Krankheit effektiv in einem frühen Stadium zu diagnostizieren, haben Suk, Lee, Shen und die Alzheimer’s Disease Neuroimaging Initiative (2014) ein multimodales Glas-Erzmann-Modell vorgeschlagen, das komplementäres Wissen zusammenführen kann in multimodalen Daten. Um insbesondere die durch Methoden zum Lernen flacher Merkmale verursachten Einschränkungen zu beseitigen, wird DBN verwendet, um tiefe Darstellungen jeder Modalität zu lernen, indem domänenspezifische Darstellungen in hierarchische abstrakte Darstellungen übertragen werden. Anschließend wird ein einschichtiges RBM auf verketteten Vektoren erstellt, bei denen es sich um lineare Kombinationen hierarchischer abstrakter Darstellungen jeder Modalität handelt. Es wird verwendet, um multimodale Darstellungen zu lernen, indem eine gemeinsame Verteilung verschiedener multimodaler Merkmale erstellt wird. Abschließend wird das vorgeschlagene Modell umfassend anhand des ADNI-Datensatzes auf der Grundlage von drei typischen Diagnosen evaluiert, wodurch eine Diagnosegenauigkeit auf dem neuesten Stand der Technik erreicht wird. 3.1.3 Beispiel 3 Lernen Sie multimodale Darstellungen aus gemischten Typen, Darstellungswerten und deformierten Modalitäten. Im Multi-Source-Tiefenmodell der menschlichen Pose werden drei weit verbreitete Modalitäten aus Bildstrukturmodellen extrahiert, die Körperteile basierend auf der bedingten Zufallsfeldtheorie kombinieren. Um multimodale Daten zu erhalten, wird das grafische Strukturmodell über eine lineare Support-Vektor-Maschine trainiert. Jedes der drei Merkmale wird dann in ein zweischichtiges eingeschränktes Boltzmann-Modell eingespeist, um aus einer merkmalsspezifischen Darstellung eine abstrakte Darstellung des Posenraums höherer Ordnung zu erfassen. Durch unbeaufsichtigte Initialisierung erfasst jedes modalitätsspezifische eingeschränkte Boltzmann-Modell eine intrinsische Darstellung des globalen Raums. Anschließend wird RBM verwendet, um die Darstellung menschlicher Posen basierend auf verketteten Vektoren von Mischtypen auf hoher Ebene, Darstellungswerten und Verformungsdarstellungen weiter zu erlernen. Um das vorgeschlagene Multi-Source-Deep-Learning-Modell zu trainieren, wird eine aufgabenspezifische Zielfunktion entworfen, die sowohl die Körperposition als auch die Erkennung von Menschen berücksichtigt. Das vorgeschlagene Modell ist auf LSP, PARSE und UIUC validiert und führt zu Verbesserungen von bis zu 8,6 %.
Kürzlich wurden einige neue DBN-basierte multimodale Feature-Lernmodelle vorgeschlagen. Beispielsweise schlugen Amer, Shields, Siddiquie und Tamrakar (2018) einen Hybridansatz für die sequentielle Ereigniserkennung vor, bei dem bedingtes RBM eingesetzt wurde, um modale und modalübergreifende Merkmale mit zusätzlichen diskriminierenden Label-Informationen zu extrahieren. Al-Waisy, Qahwaji, Ipson und Al-Fahdawi (2018) führten einen multimodalen Ansatz zur Gesichtserkennung ein. Bei diesem Ansatz wird ein DBN-basiertes Modell verwendet, um die multimodale Verteilung lokaler handgefertigter Features zu modellieren, die durch Curvelet-Transformation erfasst werden, wodurch die Vorteile lokaler Features und tiefer Features kombiniert werden können (Al-Waisy et al., 2018).
3.1.4 Zusammenfassung
Diese DBN-basierten multimodalen Modelle verwenden probabilistische Graphnetzwerke, um modalitätsspezifische Darstellungen in semantischen Merkmalen in einem gemeinsamen Raum umzuwandeln. Anschließend wird die gemeinsame Verteilung über die Modalitäten basierend auf den Eigenschaften des gemeinsam genutzten Raums modelliert. Diese DBN-basierten multimodalen Modelle sind flexibler und robuster bei unbeaufsichtigten, halbüberwachten und überwachten Lernstrategien. Sie eignen sich ideal zur Erfassung informativer Merkmale von Eingabedaten. Sie ignorieren jedoch die räumliche und zeitliche Topologie multimodaler Daten.
3.2 Multimodale Datenfusion basierend auf gestapelten Autoencodern
3.2.1 Beispiel 4
Ngiam et al. (2011) schlugen multimodales Deep Learning basierend auf gestapelten Autoencodern (SAE) vor. Das repräsentativste Deep Learning Modell zur multimodalen Datenfusion. Dieses Deep-Learning-Modell zielt darauf ab, zwei Datenfusionsprobleme zu lösen: modalübergreifendes und gemeinsam genutztes modales Repräsentationslernen. Ersteres zielt darauf ab, Wissen aus anderen Modalitäten zu nutzen, um bessere Einzelmodaldarstellungen zu erfassen, während letzteres komplexe Korrelationen zwischen Modalitäten auf mittlerer Ebene erlernt. Um diese Ziele zu erreichen, werden drei Lernszenarien – multimodales, modalübergreifendes und gemeinsam genutztes modales Lernen – entworfen, wie in Tabelle 3 und Abbildung 6 dargestellt.
Abbildung 6:
Architektur für multimodales, modalübergreifendes und gemeinsames modales Lernen.
Tabelle 3: Einstellungen für multimodales Lernen.
In multimodalen Lernszenarien werden Audiospektrogramme und Videobilder linear zu Vektoren verbunden. Die verketteten Vektoren werden in eine Sparse Restricted Boltzmann Machine (SRBM) eingespeist, um die Korrelation zwischen Audio und Video zu lernen. Dieses Modell kann nur Schattengelenkdarstellungen mehrerer Modalitäten lernen, da die Korrelationen in der hochdimensionalen Darstellung der ursprünglichen Ebene implizit sind und einschichtiges SRBM sie nicht modellieren kann. Davon inspiriert werden verkettete Vektoren von Darstellungen mittlerer Ebene in SRBM eingegeben, um die Korrelation mehrerer Modalitäten zu modellieren und so eine bessere Leistung zu erzielen.
Im modalübergreifenden Lernszenario wird ein tief gestapelter multimodaler Autoencoder vorgeschlagen, um die Korrelation zwischen Modalitäten explizit zu lernen. Insbesondere werden sowohl Audio als auch Video als Eingaben beim Feature-Learning präsentiert, und nur eine davon wird beim überwachten Training und Testen in das Modell eingegeben. Das Modell wird auf multimodale Lernweise initialisiert und kann modalübergreifende Beziehungen gut simulieren.
In der geteilten Modaldarstellung, motiviert durch Entrauschen von Autoencodern, werden modalitätsspezifische, tief gestapelte multimodale Autoencoder eingeführt, um gemeinsame Darstellungen zwischen Modalitäten zu untersuchen, insbesondere wenn ein Modal fehlt. Der durch Ersetzen einer der Modalitäten durch Null vergrößerte Trainingsdatensatz wird zum Feature-Learning in das Modell eingespeist.
Abschließend werden detaillierte Experimente mit CUAVE- und AVLetters-Datensätzen durchgeführt, um die Leistung von multimodalem Deep Learning beim aufgabenspezifischen Feature-Learning zu bewerten.
3.2.2 Beispiel 5
Um aus einer Reihe von Bildern (insbesondere Videos) visuell und semantisch wirksame menschliche Skelette zu generieren, schlugen Hong, Yu, Wan, Tao und Wang (2015) einen multimodalen tiefen Autoencoder vor Erfassen Sie die Fusionsbeziehung zwischen Bildern und Posen. Insbesondere wird der vorgeschlagene multimodale Deep-Autoencoder durch eine dreistufige Strategie trainiert, um eine nichtlineare Zuordnung zwischen 2D-Bildern und 3D-Posen zu erstellen. In der Feature-Fusion-Phase wird die Multi-View-Hypergraph-Low-Rank-Darstellung genutzt, um auf der Grundlage vielfältigen Lernens eine interne 2D-Darstellung aus einer Reihe von Bildmerkmalen (z. B. orientierten Gradientenhistogrammen und Formkontext) zu erstellen. In der zweiten Stufe wird ein einschichtiger Autoencoder darauf trainiert, eine abstrakte Darstellung zu lernen, die zur Wiederherstellung der 3D-Pose durch Rekonstruktion von 2D-Zwischenbildmerkmalen verwendet wird. In der Zwischenzeit wird ein einschichtiger Autoencoder auf ähnliche Weise trainiert, um abstrakte Darstellungen von 3D-Posen zu lernen. Nachdem die abstrakte Darstellung jeder einzelnen Modalität erhalten wurde, wird ein neuronales Netzwerk verwendet, um die multimodale Korrelation zwischen 2D-Bildern und 3D-Posen zu lernen, indem der quadrierte euklidische Abstand zwischen den beiden modalen gegenseitigen Darstellungen minimiert wird. Das Lernen des vorgeschlagenen multimodalen Deep-Autoencoders besteht aus Initialisierungs- und Feinabstimmungsphasen. Bei der Initialisierung werden die Parameter jedes Unterteils des multimodalen tiefen Autoencoders vom entsprechenden Autoencoder und neuronalen Netzwerk kopiert. Anschließend werden die Parameter des gesamten Modells durch einen stochastischen Gradientenabstiegsalgorithmus weiter verfeinert, um aus dem entsprechenden zweidimensionalen Bild eine dreidimensionale Pose zu erstellen.
3.2.3 Zusammenfassung
Das auf SAE basierende multimodale Modell verwendet eine Encoder-Decoder-Architektur, um intrinsische modale Merkmale und modalübergreifende Merkmale durch Rekonstruktionsmethoden auf unbeaufsichtigte Weise zu extrahieren. Da sie auf SAE basieren, einem vollständig vernetzten Modell, müssen viele Parameter trainiert werden. Darüber hinaus ignorieren sie die räumliche und zeitliche Topologie in multimodalen Daten.
3.3 Multimodale Datenfusion basierend auf einem Faltungs-Neuronalen Netzwerk
3.3.1 Beispiel 6
Um die semantische Zuordnungsverteilung zwischen Bildern und Sätzen zu simulieren, haben Ma, Lu, Shang und Li (2015) schlug ein multimodales Faltungs-Neuronales Netzwerk vor. Um die semantische Relevanz vollständig zu erfassen, wird in der End-to-End-Architektur eine dreistufige Fusionsstrategie – Wortebene, Bühnenebene und Satzebene – entworfen. Die Architektur besteht aus einem Imaging-Subnetz, einem passenden Subnetz und einem multimodalen Subnetz. Das Bildsubnetz ist ein repräsentatives tiefes Faltungs-Neuronales Netzwerk wie Alexnet und Inception, das Bildeingaben effizient in prägnante Darstellungen kodiert. Das passende Teilnetzwerk modelliert gemeinsame Darstellungen, die Bildinhalte mit Wortfragmenten von Sätzen im semantischen Raum in Beziehung setzen.
3.3.2 Beispiel 7
Um das visuelle Erkennungssystem auf eine unbegrenzte Anzahl diskreter Kategorien zu erweitern, schlugen Frome et al. (2013) ein multimodales Faltungs-Neuronales Netzwerk vor, indem sie die semantischen Informationen in Textdaten ausnutzten . Netzwerk. Das Netzwerk besteht aus einem Sprachuntermodell und einem visuellen Untermodell. Das Sprachuntermodell basiert auf dem Skip-Gram-Modell, das Textinformationen in eine dichte Darstellung des semantischen Raums übertragen kann. Das visuelle Untermodell ist ein repräsentatives Faltungs-Neuronales Netzwerk wie Alexnet, das auf dem ImageNet-Datensatz der 1000er-Klasse vorab trainiert wurde, um visuelle Merkmale zu erfassen. Um die semantische Beziehung zwischen Bildern und Text zu modellieren, werden Sprache und visuelle Teilmodelle durch lineare Projektionsebenen kombiniert. Jedes Untermodell wird mit Parametern für jede Modalität initialisiert. Um dieses visuell-semantische multimodale Modell zu trainieren, wird anschließend eine neue Verlustfunktion vorgeschlagen, die hohe Ähnlichkeitswerte für korrekte Bild- und Etikettenpaare liefern kann, indem sie Skalarproduktähnlichkeit und Scharnierrangverlust kombiniert. Das Modell bietet eine hochmoderne Leistung für den ImageNet-Datensatz und vermeidet semantisch unplausible Ergebnisse.
3.3.3 Zusammenfassung
Auf CNN basierende multimodale Modelle können lokale multimodale Merkmale zwischen Modalitäten durch lokale Felder und Pooling-Operationen lernen. Sie modellieren explizit die räumliche Topologie multimodaler Daten. Und es handelt sich nicht um vollständig verbundene Modelle mit einer stark reduzierten Anzahl von Parametern.
3.4 Multimodale Datenfusion basierend auf einem wiederkehrenden neuronalen Netzwerk
3.4.1 Beispiel 8
Um Bildunterschriften zu generieren, schlugen Mao et al. (2014) eine multimodale wiederkehrende neuronale Architektur vor. Dieses multimodale rekurrente neuronale Netzwerk kann probabilistische Korrelationen zwischen Bildern und Sätzen überbrücken. Es behebt die Einschränkung früherer Arbeiten, die keine neuen Bildunterschriften generieren können, da sie entsprechende Bildunterschriften in einer Satzdatenbank auf der Grundlage erlernter Bild-Text-Zuordnungen abrufen. Im Gegensatz zu früheren Arbeiten lernen multimodale rekurrente neuronale Modelle (MRNN) gemeinsame Verteilungen über den semantischen Raum anhand von Wörtern und Bildern. Wenn ein Bild präsentiert wird, generiert es wörtlich Sätze basierend auf der erfassten gemeinsamen Verteilung. Insbesondere besteht das multimodale rekurrente neuronale Netzwerk aus einem Sprachsubnetz, einem visuellen Subnetz und einem multimodalen Subnetz, wie in Abbildung 7 dargestellt. Das Sprachsubnetzwerk besteht aus einem zweischichtigen Worteinbettungsteil, der effiziente aufgabenspezifische Darstellungen erfasst, und einem einschichtigen wiederkehrenden neuronalen Teil, der die zeitliche Abhängigkeit von Sätzen modelliert. Das Vision-Subnetz ist im Wesentlichen ein tiefes Faltungs-Neuronales Netzwerk wie Alexnet, Resnet oder Inception, das hochdimensionale Bilder in kompakte Darstellungen kodiert. Schließlich ist das multimodale Subnetzwerk ein verstecktes Netzwerk, das die gemeinsame semantische Verteilung gelernter Sprache und visueller Darstellungen modelliert.
Abbildung 7:
3.4.2 Beispiel 9
Um die Einschränkung aktueller visueller Erkennungssysteme zu lösen, die keine umfassenden Beschreibungen von Bildern auf einen Blick generieren können, haben wir ein Modell von vorgeschlagen Um das Modell zwischen visuellen und textuellen Daten zu überbrücken, wird ein multimodales Ausrichtungsmodell vorgeschlagen (Karpathy & Li, 2017). Um dies zu erreichen, wurde ein duales System vorgeschlagen. Zunächst wird ein visuelles semantisches Einbettungsmodell entwickelt, um multimodale Trainingsdatensätze zu generieren. Anhand dieses Datensatzes wird dann ein multimodales RNN trainiert, um ausführliche Bildbeschreibungen zu generieren.
Im visuellen semantischen Einbettungsmodell werden regionale Faltungs-Neuronale Netze verwendet, um reichhaltige Bilddarstellungen zu erhalten, die ausreichend Informationen für den den Sätzen entsprechenden Inhalt enthalten. Anschließend wird ein bidirektionales RNN verwendet, um jeden Satz in einen dichten Vektor mit den gleichen Abmessungen wie die Bilddarstellung zu kodieren. Darüber hinaus wird eine multimodale Bewertungsfunktion vorgestellt, um die semantische Ähnlichkeit zwischen Bildern und Sätzen zu messen. Schließlich wird die Markov-Zufallsfeldmethode zur Generierung multimodaler Datensätze verwendet.
Im multimodalen RNN wird ein effektiveres erweitertes Modell vorgeschlagen, das auf Textinhalten und Bildeingaben basiert. Das multimodale Modell besteht aus einem Faltungs-Neuronalen Netzwerk, das Bildeingaben kodiert, und einem RNN, das Bildmerkmale und Sätze kodiert. Das Modell wird auch über den stochastischen Gradientenabstiegsalgorithmus trainiert. Beide multimodalen Modelle werden umfassend anhand der Flickr- und Mscoco-Datensätze evaluiert und erreichen eine Leistung auf dem neuesten Stand der Technik.
3.4.3 Zusammenfassung
Das auf RNN basierende multimodale Modell kann die in multimodalen Daten verborgene Zeitabhängigkeit mithilfe der expliziten Zustandsübertragung in der Berechnung versteckter Einheiten analysieren. Sie verwenden einen zeitlichen Backpropagation-Algorithmus, um die Parameter zu trainieren. Da die Berechnung in versteckten Zustandsübertragungen erfolgt, ist eine Parallelisierung auf Hochleistungsgeräten schwierig.
4. Zusammenfassung und Ausblick
Wir fassen das Modell in vier Gruppen multimodaler Daten-Deep-Learning-Modelle basierend auf DBN, SAE, CNN und RNN zusammen. Diese bahnbrechenden Modelle haben bereits zu einigen Fortschritten geführt. Allerdings befinden sich diese Modelle noch im Anfangsstadium, sodass weiterhin Herausforderungen bestehen.
Erstens gibt es im multimodalen Datenfusions-Deep-Learning-Modell eine große Anzahl freier Gewichte, insbesondere redundante Parameter, die kaum Einfluss auf die Zielaufgabe haben. Um diese Parameter zu trainieren, die die charakteristische Struktur der Daten erfassen, wird eine große Datenmenge in ein multimodales Deep-Learning-Modell zur Datenfusion eingegeben, das auf dem Backpropagation-Algorithmus basiert, was rechenintensiv und zeitaufwändig ist. Daher ist auch die Gestaltung neuer multimodaler Deep-Learning-Komprimierungsmethoden in Kombination mit bestehenden Komprimierungsstrategien eine mögliche Forschungsrichtung.
Zweitens enthalten multimodale Daten nicht nur modalübergreifende Informationen, sondern auch umfangreiche modalübergreifende Informationen. Daher könnte die Kombination von Deep-Learning- und semantischen Fusionsstrategien eine Möglichkeit sein, die Herausforderungen zu bewältigen, die sich aus der Erforschung multimodaler Daten ergeben. Drittens werden multimodale Daten aus dynamischen Umgebungen gesammelt, was zeigt, dass die Daten unsicher sind. Daher muss mit dem explosionsartigen Wachstum dynamischer multimodaler Daten das Designproblem von Online- und inkrementellen multimodalen Deep-Learning-Modellen für die Datenfusion gelöst werden.
Das obige ist der detaillierte Inhalt vonZu vollständig! Ein Rückblick auf multimodales Deep Learning!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Diese Seite berichtete am 27. Juni, dass Jianying eine von FaceMeng Technology, einer Tochtergesellschaft von ByteDance, entwickelte Videobearbeitungssoftware ist, die auf der Douyin-Plattform basiert und grundsätzlich kurze Videoinhalte für Benutzer der Plattform produziert Windows, MacOS und andere Betriebssysteme. Jianying kündigte offiziell die Aktualisierung seines Mitgliedschaftssystems an und führte ein neues SVIP ein, das eine Vielzahl von KI-Schwarztechnologien umfasst, wie z. B. intelligente Übersetzung, intelligente Hervorhebung, intelligente Verpackung, digitale menschliche Synthese usw. Preislich beträgt die monatliche Gebühr für das Clipping von SVIP 79 Yuan, die Jahresgebühr 599 Yuan (Hinweis auf dieser Website: entspricht 49,9 Yuan pro Monat), das fortlaufende Monatsabonnement beträgt 59 Yuan pro Monat und das fortlaufende Jahresabonnement beträgt 499 Yuan pro Jahr (entspricht 41,6 Yuan pro Monat). Darüber hinaus erklärte der Cut-Beamte auch, dass diejenigen, die den ursprünglichen VIP abonniert haben, das Benutzererlebnis verbessern sollen

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Herausgeber | Rettichhaut Seit der Veröffentlichung des leistungsstarken AlphaFold2 im Jahr 2021 verwenden Wissenschaftler Modelle zur Proteinstrukturvorhersage, um verschiedene Proteinstrukturen innerhalb von Zellen zu kartieren, Medikamente zu entdecken und eine „kosmische Karte“ jeder bekannten Proteininteraktion zu zeichnen. Gerade hat Google DeepMind das AlphaFold3-Modell veröffentlicht, das gemeinsame Strukturvorhersagen für Komplexe wie Proteine, Nukleinsäuren, kleine Moleküle, Ionen und modifizierte Reste durchführen kann. Die Genauigkeit von AlphaFold3 wurde im Vergleich zu vielen dedizierten Tools in der Vergangenheit (Protein-Ligand-Interaktion, Protein-Nukleinsäure-Interaktion, Antikörper-Antigen-Vorhersage) deutlich verbessert. Dies zeigt, dass dies innerhalb eines einzigen einheitlichen Deep-Learning-Frameworks möglich ist

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

Laut Nachrichten dieser Website vom 1. August hat SK Hynix heute (1. August) einen Blogbeitrag veröffentlicht, in dem es ankündigt, dass es am Global Semiconductor Memory Summit FMS2024 teilnehmen wird, der vom 6. bis 8. August in Santa Clara, Kalifornien, USA, stattfindet viele neue Technologien Generation Produkt. Einführung des Future Memory and Storage Summit (FutureMemoryandStorage), früher Flash Memory Summit (FlashMemorySummit), hauptsächlich für NAND-Anbieter, im Zusammenhang mit der zunehmenden Aufmerksamkeit für die Technologie der künstlichen Intelligenz wurde dieses Jahr in Future Memory and Storage Summit (FutureMemoryandStorage) umbenannt Laden Sie DRAM- und Speicheranbieter und viele weitere Akteure ein. Neues Produkt SK Hynix wurde letztes Jahr auf den Markt gebracht

Laut Nachrichten dieser Website vom 5. Juli veröffentlichte GlobalFoundries am 1. Juli dieses Jahres eine Pressemitteilung, in der die Übernahme der Power-Galliumnitrid (GaN)-Technologie und des Portfolios an geistigem Eigentum von Tagore Technology angekündigt wurde, in der Hoffnung, seinen Marktanteil in den Bereichen Automobile und Internet auszubauen Anwendungsbereiche für Rechenzentren mit künstlicher Intelligenz, um höhere Effizienz und bessere Leistung zu erforschen. Da sich Technologien wie generative künstliche Intelligenz (GenerativeAI) in der digitalen Welt weiterentwickeln, ist Galliumnitrid (GaN) zu einer Schlüssellösung für nachhaltiges und effizientes Energiemanagement, insbesondere in Rechenzentren, geworden. Auf dieser Website wurde die offizielle Ankündigung zitiert, dass sich das Ingenieurteam von Tagore Technology im Rahmen dieser Übernahme mit GF zusammenschließen wird, um die Galliumnitrid-Technologie weiterzuentwickeln. G

Diese Website berichtete am 18. Juni, dass heute Morgen im High-Tech-Park der Schule das Forum für künstliche Intelligenz und humanoide Roboter der Universität für Wissenschaft und Technologie Chinas stattfand. Die School of Artificial Intelligence and Data Science und das Humanoid Robot Research Institute der University of Science and Technology of China wurden nacheinander zum Direktor der Wissenschafts- und Technologieakademie ernannt Technologieausschuss des Humanoid Robot Research Institute und kündigte die Gründung der Yangtze River Delta Humanoid Robot Alliance an. Das Forschungsinstitut für humanoide Roboter des USTC hat sich zum Ziel gesetzt, die multidisziplinären Vorteile des USTC zu nutzen und nach technologischen Durchbrüchen in den Bereichen Materialerkennung, strukturelle Betätigung, Bewegungssteuerung und verkörperte Intelligenz zu streben, um die Entwicklung des USTC im Bereich der Intelligenz voranzutreiben Roboter. Das Institut wird den Einsatz humanoider Roboter in den Bereichen Dienstleistung, Medizin, Bildung und anderen Bereichen auf der Grundlage technologischer Innovationen aktiv fördern und mit ihnen zusammenarbeiten

Konzentration ist zu jeder Zeit eine Tugend. Autor |. Herausgeber Tang Yitao |. Jing Yu Das Wiederaufleben der künstlichen Intelligenz hat zu einer neuen Welle von Hardware-Innovationen geführt. Der beliebteste AIPin hat beispiellose negative Bewertungen erhalten. Marques Brownlee (MKBHD) bezeichnete es als das schlechteste Produkt, das er jemals rezensiert habe; David Pierce, Herausgeber von The Verge, sagte, er würde niemandem empfehlen, dieses Gerät zu kaufen. Sein Konkurrent, der RabbitR1, ist nicht viel besser. Der größte Zweifel an diesem KI-Gerät besteht darin, dass es sich offensichtlich nur um eine App handelt, Rabbit jedoch eine 200-Dollar-Hardware gebaut hat. Viele Menschen sehen KI-Hardware-Innovationen als Chance, das Smartphone-Zeitalter zu untergraben und sich ihm zu widmen.
