Übersetzer |. Zhu Xianzhong
Rezensent |.Traditionelles sphärisches CNN kann nicht auf hochauflösende Klassifizierungsaufgaben erweitert werden. In diesem Artikel stellen wir sphärische Streuschichten vor, eine neue Art von sphärischen Schichten, die die Dimensionalität von Eingabedaten reduzieren und gleichzeitig relevante Informationen beibehalten und Rotationsäquivarianzeigenschaften aufweisen können.
Streunetzwerke funktionieren, indem sie vordefinierte Faltungsfilter aus der Wavelet-Analyse verwenden, anstatt Faltungsfilter von Grund auf zu lernen. Da die Gewichte der Streuschicht spezifisch entworfen und nicht erlernt werden, kann die Streuschicht als einmaliger Vorverarbeitungsschritt verwendet werden, wodurch die Auflösung der Eingabedaten verringert wird. Unsere bisherigen Erfahrungen zeigen, dass sphärische CNNs, die mit einer anfänglichen Streuschicht ausgestattet sind, auf Auflösungen von mehreren zehn Millionen Pixeln skaliert werden können, eine Leistung, die mit herkömmlichen sphärischen CNN-Schichten bisher nicht möglich war.
Traditionelle sphärische Deep-Learning-Methoden erfordern Berechnungen
Spherical CNN (Dokument 1, 2, 3) ist sehr nützlich für die Lösung vieler verschiedener Arten von Problemen beim maschinellen Lernen, da die Datenquellen vieler dieser Probleme nicht auf natürliche Weise dargestellt werden können in einem Flugzeug (eine einführende Einführung hierzu finden Sie in unserem vorherigen Artikel unterEin Hauptmerkmal sphärischer CNNs ist, dass sie äquivariant zur Rotation sphärischer Daten sind (in diesem Artikel konzentrieren wir uns auf rotationsäquivariante Methoden). In der Praxis bedeutet dies, dass sphärische CNNs über beeindruckende Generalisierungseigenschaften verfügen, die es ihnen ermöglichen, beispielsweise Netze von 3D-Objekten zu klassifizieren, unabhängig davon, wie sie gedreht werden (und ob sie das Netz beim Training verschiedener Rotationen sehen).
Wir
ineinem aktuellen Artikel beschrieben Kagenova Team eine Reihe von Fortschritten , die entwickelt wurden, um die Recheneffizienz von sphärischem CNN zu verbessern Ergebnisse ( Referenz Adresse: https://towardsdatascience.com/efficient-generalized-spherical-cnns-1493426362ca). Die von uns verwendete Methode - effizientes verallgemeinertes sphärisches CNN - behält nicht nur die gleichen Varianzeigenschaften des traditionellen sphärischen CNN bei, sondern macht gleichzeitig die Berechnung besser effizient ( Dokumentation 1). Trotz dieser Fortschritte in der Recheneffizienz sind sphärische CNNs jedoch immer noch auf Daten mit relativ niedriger Auflösung beschränkt. Das bedeutet, dass , sphärische CNNs derzeit nicht auf spannende Anwendungsszenarien angewendet werden können, bei denen es sich normalerweise um Daten mit höherer Auflösung handelt, wie z. B. kosmologische Datenanalyse und 360 für Virtual Reality. Abschluss in Computer Vision und anderen Bereichen. In einem kürzlich veröffentlichten Artikel haben wir ein sphärisches Streuschichtnetzwerk vorgestellt, um ein effizientes allgemeines sphärisches CNN flexibel anzupassen , um die Auflösung zu verbessern (Dokument 4), in diesem Artikel werden wir darauf eingehen Überprüfen Sie diesen Inhalt. Hybrider Ansatz zur Unterstützung hochauflösender EingabedatenBei der Entwicklung eines effizienten allgemeinen sphärischen CNN (Ref. 1) haben wir einen sehr effektiven Hybridansatz zum Aufbau einer sphärischen CNN-Architektur entdeckt. Hybrid Spherical CNN kann verschiedene Arten sphärischer CNN-Schichten im selben Netzwerk verwenden, sodass Entwickler die Vorteile verschiedener Schichttypen in unterschiedlichen Verarbeitungsstadien nutzen können.
Das obige Bild zeigt ein Beispiel einer hybriden sphärischen CNN-Architektur (bitte beachten Sie: Diese Schichten sind nicht einzeln, sondern einige verschiedene Arten sphärischer CNN-Schichten).
Scattering Networks on Spheres führt diesen hybriden Ansatz fort und führt eine neue sphärische CNN-Schicht ein, die in bestehende sphärische Architekturen eingebunden werden kann. Um das effiziente allgemeine sphärische CNN auf höhere Dimensionen auszudehnen, muss diese neue Schicht die folgenden Eigenschaften aufweisen: 🎜🎜#
Die Datenverarbeitung innerhalb der Streuschicht wird durch drei Grundoperationen durchgeführt. Der erste Baustein ist die feste Wavelet-Faltung, die der normalen Lernfaltung ähnelt, die im euklidischen CNN verwendet wird. Nach der Wavelet-Faltung wendet das Streunetzwerk einen modularen nichtlinearen Ansatz auf die resultierende Darstellung an. Schließlich nutzt die Streuung eine Skalierungsfunktion, die einen lokalen Mittelungsalgorithmus mit einigen Ähnlichkeiten zu den Pooling-Schichten in gewöhnlichen CNNs ausführt. Durch wiederholte Anwendung dieser drei Bausteine werden die Eingabedaten in einen Rechenbaum gestreut und die resultierende Darstellung (ähnlich einem CNN-Kanal) in verschiedenen Verarbeitungsstadien aus dem Baum extrahiert. Ein vereinfachtes Schema dieser Vorgänge ist unten dargestellt.
Diese Abbildung veranschaulicht das sphärische Streunetzwerk des sphärischen Signals f. Das Signal wird über eine kaskadierte sphärische Wavelet-Transformation in Kombination mit einer durch rote Knoten dargestellten Absolutwertaktivierungsfunktion verbreitet. Die Ausgabe des Streunetzwerks wird durch Projizieren dieser Signale auf eine sphärische Wavelet-Skalierungsfunktion erhalten, was zu den Streukoeffizienten führt, die durch blaue Knoten dargestellt werden.
Aus einer traditionellen Deep-Learning-Perspektive mag der Betrieb dezentraler Netzwerke etwas unklar erscheinen. Jede beschriebene Rechenoperation hat jedoch einen spezifischen Zweck – nämlich die Nutzung der zuverlässigen theoretischen Ergebnisse der Wavelet-Analyse.
Wavelet-Faltungen in Streunetzwerken werden sorgfältig abgeleitet, um relevante Informationen aus den Eingabedaten zu extrahieren. Beispielsweise werden Wavelets für natürliche Bilder definiert, um speziell Informationen zu Kanten bei hohen Frequenzen und allgemeinen Formen von Objekten bei niedrigen Frequenzen zu extrahieren. Daher können Streunetzwerkfilter in einer planaren Umgebung einige Ähnlichkeiten mit herkömmlichen CNN-Filtern aufweisen. Das Gleiche gilt für die sphärische Einstellung, bei der wir skalendiskretisierte Wavelets verwenden (Einzelheiten siehe Ref. 4).
Da der Wavelet-Filter fest ist, muss die anfängliche Streuschicht nur einmal angewendet werden und muss nicht während des gesamten Trainingsprozesses wiederholt angewendet werden (wie die anfängliche Schicht). im traditionellen CNN). Dadurch wird das Streunetzwerk rechnerisch skalierbar und erfüllt die Anforderungen von Merkmal 1 oben. Darüber hinaus reduziert die Streuschicht die Dimensionalität ihrer Eingabedaten, was bedeutet, dass beim Training nachgeschalteter CNN-Schichten nur begrenzter Speicherplatz zum Zwischenspeichern der Streudarstellung verwendet werden muss.
Die nichtlineare Modulmethode wird hinter der Wavelet-Faltung verwendet. Erstens werden dadurch nichtlineare Eigenschaften in die Schichten des neuronalen Netzwerks eingebracht. Zweitens mischt die Moduloperation die Hochfrequenzinformationen im Eingangssignal in die Niederfrequenzdaten, um die obige Anforderung 2 zu erfüllen. Die folgende Abbildung zeigt die Häufigkeitsverteilung der Wavelet-Darstellung der Daten vor und nach der nichtlinearen Modulberechnung.
Die obige Abbildung zeigt die Verteilung der Wavelet-Koeffizienten bei verschiedenen sphärischen Frequenzen l vor und nach dem modularen Betrieb. Die Energie im Eingangssignal bewegt sich von hohen Frequenzen (linkes Feld) zu niedrigen Frequenzen (rechtes Feld). Dabei ist f das Eingangssignal und Ψ das Wavelet der Skalierung j.
Nach Anwendung der Modulberechnung wird das resultierende Signal auf die Skalierungsfunktion projiziert. Die Skalierungsfunktion extrahiert niederfrequente Informationen aus den Darstellungsergebnissen, ähnlich der Pooling-Funktionsoperation im herkömmlichen CNN.
Wir haben die theoretischen Eigenschaften gleicher Varianz sphärischer Streunetzwerke empirisch getestet. Der Test wird durchgeführt, indem das Signal gedreht und durch das Streunetzwerk geleitet wird und dann die resultierende Darstellung mit der resultierenden Darstellung der Eingabedaten nach Durchlaufen des Streunetzwerks verglichen und anschließend die Rotationsberechnung durchgeführt wird. Anhand der Daten in der folgenden Tabelle kann gezeigt werden, dass der gleiche Varianzfehler für eine bestimmte Tiefe gering ist und somit die obige Anforderung 3 erfüllt (normalerweise wird in der Praxis eine Pfadtiefe nicht die Tiefe von zwei Pfaden überschreiten, da die meisten davon Signalenergie wurde bereits erfasst).
Rotationsgleicher Varianzfehler des sphärischen Streunetzwerks in verschiedenen Tiefen
Schließlich ist theoretisch bewiesen, dass das euklidische Streunetzwerk gegenüber kleinen Differenzen oder Verzerrungen stabil ist (Literatur 5. ). Derzeit dieses Ergebnis wurde auf Streunetzwerke auf kompakten Riemannschen Mannigfaltigkeiten (Dokument 6), insbesondere sphärische Umgebungen (Dokument 4) ausgeweitet. In der Praxis bedeutet Stabilität gegenüber Disparitätsmorphologie, dass sich die vom Streunetzwerk berechnete Darstellung nicht wesentlich unterscheidet, wenn die Eingabe geringfügig geändert wird (siehe unseren vorherigen Beitrag für eine Diskussion der Rolle der Stabilität beim geometrischen Deep Learning , Die Adresse lautet https://towardsdatascience.com/a-brief-introduction-to-geometrische-deep-learning-dae114923ddb). Somit stellen Streunetzwerke einen gut funktionierenden Darstellungsraum bereit, auf dem nachfolgendes Lernen effizient durchgeführt werden kann und die Anforderung 4 oben erfüllt.
Unter Berücksichtigung der Tatsache, dass die eingeführten Streuschichten alle unsere gewünschten Eigenschaften erfüllen, sind wir als nächstes bereit, sie in unser hybrides sphärisches CNN zu integrieren. Wie bereits erwähnt, kann die Streuschicht als erster Vorverarbeitungsschritt auf der vorhandenen Architektur fixiert werden, um die Größe der Darstellung für die anschließende Verarbeitung der sphärischen Schicht zu reduzieren.
Im Bild oben ist das Streuschichtmodul (links von der gestrichelten Linie) eine Designebene. Dies bedeutet, dass kein Training erforderlich ist, während die verbleibenden Schichten (rechts von der gepunkteten Linie) trainierbar sind. Dies bedeutet daher, dass Streuschichten als einmaliger Vorverarbeitungsschritt angewendet werden können, um die Dimensionalität der Eingabedaten zu reduzieren.
Da Streunetzwerke eine feste Darstellung einer bestimmten Eingabe haben, können Streunetzwerkschichten zu Beginn des Trainings einmal auf den gesamten Datensatz angewendet werden, und die resultierende niedrigdimensionale Darstellung wird zwischengespeichert, um nachfolgende Schichten zu trainieren. Glücklicherweise haben Streudarstellungen eine reduzierte Dimensionalität, was bedeutet, dass der für ihre Speicherung erforderliche Speicherplatz relativ gering ist. Aufgrund der Existenz dieser neuen sphärischen Streuschicht kann das effiziente verallgemeinerte sphärische CNN auf den Bereich hochauflösender Klassifizierungsprobleme erweitert werden.
Wie ist Materie im Universum verteilt? Dies ist eine grundlegende Forschungsfrage für Kosmologen und hat erhebliche Auswirkungen auf theoretische Modelle des Ursprungs und der Entwicklung unseres Universums. Der kosmische Mikrowellenhintergrund (CMB) – Restenergie des Urknalls – bildet die Verteilung der Materie im Universum ab. Kosmologen beobachten die CMB auf der Himmelssphäre, was Rechenmethoden erfordert, die eine kosmologische Analyse innerhalb der Himmelssphäre ermöglichen.
Kosmologen sind sehr an Methoden zur Analyse des kosmischen Mikrowellenhintergrunds interessiert, da diese Methoden nicht-Gaußsche Eigenschaften in der Verteilung des kosmischen Mikrowellenhintergrunds im Weltraum erkennen können, was wichtige Auswirkungen auf Theorien des frühen Universums hat. Dieser analytische Ansatz muss auch auf astronomische Auflösung skalierbar sein. Wir zeigen, dass unser Streunetzwerk diese Anforderungen erfüllt, indem wir CMB-Simulationen als Gaußsche oder nicht-Gaußsche Simulationen mit einer Auflösung von L = 1024 klassifizieren. Das Streunetzwerk hat diese Simulationen erfolgreich mit einer Genauigkeit von 95,3 % klassifiziert, was viel besser ist als die 53,1 %, die das herkömmliche sphärische CNN mit niedriger Auflösung erreicht.
Die obige Abbildung zeigt hochauflösende Simulationsbeispiele von Gaußschen und nicht-Gaußschen CMBs zur Bewertung der Fähigkeit sphärischer Streunetzwerke, auf hohe Auflösungen zu skalieren.
In diesem Artikel haben wir die Fähigkeit sphärischer Streuschichten untersucht, die Dimensionalität ihrer Eingabedarstellungen zu komprimieren und gleichzeitig wichtige Informationen für nachgelagerte Aufgaben zu bewahren. Wir haben gezeigt, dass Streuschichten dadurch für hochauflösende Kugelklassifizierungsaufgaben sehr nützlich sind. Dies öffnet die Tür zu bisher unlösbaren potenziellen Anwendungen wie der Analyse kosmologischer Daten und der hochauflösenden 360-Grad-Bild-/Videoklassifizierung. Viele Computer-Vision-Probleme wie Segmentierung oder Tiefenschätzung, die dichte Vorhersagen erfordern, erfordern jedoch sowohl eine hochdimensionale Ausgabe als auch eine hochdimensionale Eingabe. Schließlich ist die Frage, wie steuerbare sphärische CNN-Schichten entwickelt werden können, die die Dimensionalität der Ausgabedarstellung erhöhen und gleichzeitig die gleiche Varianz beibehalten können, ein aktuelles Forschungsthema der Kagenova-Entwickler. Diese werden im nächsten Artikel behandelt.
[1]Cobb, Wallis, Mavor-Parker, Marignier, Price, d'Avezac, McEwen, Efficient Generalized Spherical CNNs, ICLR (2021), arXiv:2010.11661
[2] Co Henne, Geiger, Koehler, Welling, Spherical CNNs, ICLR (2018), arXiv:1801.10130
[3] Esteves, Allen-Blanchette, Makadia, Daniilidis, Learning SO(3) Equivariante Representations with Spherical CNNs, ECCV (2018), arXiv:1711.06721
[4] McEwen, Jason, Wallis, Christopher und Mavor-Parker, Augustine N., Scattering Networks on the Sphere for Scalable and Rotationally Equivariant Spherical CNNs, ICLR (2022), arXiv:2102.02828
[5] Bruna, Joan und Stéphane Mallat, Invariant Scattering Convolution Networks, IEEE Transaction on Pattern Analysis and Machine Intelligence (2013)
[6] Perlmutter, Michael et al., Geometrische Wavelet-Streuungsnetzwerke auf kompaktem Riemannian Mannigfaltigkeiten, mathematisches und wissenschaftliches maschinelles Lernen. PMLR (2020), arXiv:1905.10448
Zhu Xianzhong, 51CTO-Community-Redakteur, 51CTO-Expertenblogger, Dozent, Computerlehrer an einer Universität in Weifang, ein Veteran in der freiberuflichen Tätigkeit Stücke aus der Programmierindustrie.
Originaltitel: Scaling Spherical Deep Learning to High-Resolution Input Data, Autor: Jason McEwen, Augustine Mavor-Parker
Das obige ist der detaillierte Inhalt vonSkalierung von sphärischem Deep Learning auf hochauflösende Eingabedaten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!