Dieser Artikel fasst die Innovationen in der Netzwerkstruktur bei der Verwendung von CNNs für die semantische Bildsegmentierung zusammen. Diese Innovationen umfassen hauptsächlich das Design neuer neuronaler Architekturen (unterschiedliche Tiefen, Breiten, Verbindungen und Topologien) und das Design neuer Komponenten oder Schichten. Ersteres nutzt vorhandene Komponenten, um komplexe groß angelegte Netzwerke aufzubauen, während letzteres lieber zugrunde liegende Komponenten entwirft. Zunächst stellen wir einige klassische semantische Segmentierungsnetzwerke und ihre Innovationen vor und stellen dann einige Anwendungen des Netzwerkstrukturdesigns im Bereich der medizinischen Bildsegmentierung vor.
FCN-Gesamtarchitektur
Vereinfachtes DiagrammDas FCN-Netzwerk wird separat aufgeführt, da das FCN-Netzwerk das erste ist Ein Netzwerk, das semantische Segmentierungsprobleme aus einer völlig neuen Perspektive löst. Frühere semantische Bildsegmentierungsnetzwerke, die auf neuronalen Netzwerken basieren, verwenden Bildblöcke, die auf dem zu klassifizierenden Pixel zentriert sind, um die Bezeichnung des zentralen Pixels vorherzusagen. Das Netzwerk wird im Allgemeinen unter Verwendung einer CNN+FC-Strategie aufgebaut. Offensichtlich kann diese Methode die globalen Kontextinformationen nicht nutzen des Bildes, und die Pixel-für-Pixel-Überlegungsgeschwindigkeit ist sehr niedrig; während das FCN-Netzwerk die vollständig verbundene Schicht FC aufgibt und Faltungsschichten verwendet, um das Netzwerk aufzubauen Die Netzwerkausgabe ist direkt die Vorhersagemaske des Eingabebildes. Effizienz und Genauigkeit wurden erheblich verbessert. Schematische Darstellung der FCN-Feature-Fusion für verschiedene Layer 1.2 Codierungsstruktur (Encoder-Decoder)
SegNetist im Grunde die gleiche Idee wie das FCN-Netzwerk. Der Encoder-Teil verwendet die ersten 13 Faltungsschichten von VGG16. Der Unterschied liegt in der Upsampling-Methode des Decoder-Teils. FCN erhält das Upsampling-Ergebnis, indem es das Ergebnis der Dekonvertierung der Feature-Map zur Feature-Map der entsprechenden Größe des Encoders hinzufügt, während SegNet den Index des Maxpools des Encoder-Teils verwendet, um den Decoder-Teil (ursprüngliche Beschreibung: der Decoder) hochzusampeln führt ein Upsampling der Feature-Eingabekarten mit niedrigerer Auflösung durch. Insbesondere verwendet der Decoder Pooling-Indizes, die im Max-Pooling-Schritt des entsprechenden Encoders berechnet werden, um ein nichtlineares Upsampling durchzuführen. Innovationspunkte
: Encoder-Decoder-Struktur;
Vergleich der Upsample-Methode zwischen SegNet und FCN
U-Net-Netzwerk wurde ursprünglich für biomedizinische Bilder entwickelt, jedoch aufgrund seiner schlechten Leistung , jetzt UNet und seine Varianten werden in verschiedenen Teilbereichen des Lebenslaufs häufig eingesetzt. Das UNet-Netzwerk besteht aus einem U-Kanal und einer Skip-Verbindung. Der U-Kanal ähnelt der Kodierungs- und Dekodierungsstruktur von SegNet. Der Kodierungsteil (Kontrahierungspfad) führt die Merkmalsextraktion durch und erfasst Kontextinformationen, und der Dekodierungsteil (Erweiterungspfad). ) verwendet Dekodierungsfunktionen, um Pixelbeschriftungen vorherzusagen. Der Kurzschlusskanal verbessert die Modellgenauigkeit und löst das Problem des Verschwindens des Gradienten. Es ist besonders wichtig zu beachten, dass die oben verwendete Kurzschlusskanal-Feature-Map und die Feature-Map gespleißt und nicht addiert werden (im Gegensatz zu FCN).
Innovationspunkt: U-förmige Struktur; Kurzschlusskanal (Sprungverbindung)
U-Net-Netzwerk
V-Net-Netzwerk
Innovationspunkt : Äquivalent zur 3D-Version des U-Net-Netzwerks
FC-DenseNet (Hundred-Layer Tiramisu Network)
Innovationspunkt: Integration von DenseNet- und U-Net-Netzwerken (aus Sicht des Informationsaustauschs sind dichte Verbindungen tatsächlich leistungsfähiger als Reststrukturen)
1) DeepLabV1: Fusion eines Faltungs-Neuronalen Netzwerks und eines Wahrscheinlichkeitsgraphenmodells: CNN+CRF, was die Segmentierungs- und Positionierungsgenauigkeit verbessert;
2) DeepLabV2: ASPP (Erweiterung Räumliches Pyramiden-Pooling); CNN+CRF
3) DeepLabV3: Verbessertes ASPP, Hinzufügen von 1*1-Faltung und globalem durchschnittlichem Pooling; verglichen mit kaskadiertem und parallelem atrous-Volumen-Kumulativer Effekt.
Cascade Atrous Convolution
Parallel Atrous Convolution (ASPP)
4) DeepLabV3+: Fügen Sie die Idee der Codec-Architektur hinzu und fügen Sie ein Decoder-Modul hinzu um DeepLabv3 zu erweitern; Wenden Sie in der Tiefe trennbare Faltungen auf ASPP- und Decoder-Module an. Verbessertes Xception als Backbone.
DeepLabV3+
Im Allgemeinen sind die Kernbeiträge der DeepLab-Serie: atrous Faltung; CNN+CRF (nur V1 und V2 verwenden CRF, es sollten V3 und V3+ sein, die die Segmentierungsgrenze durch lösen). tiefes Netzwerk Bei verschwommenen Problemen ist der Effekt besser als das Hinzufügen von CRF)
PSPNET-Netzwerk
Innovationspunkte: multi-skaliertem Pooling, um globale Vorkenntnisse auf Bildebene zu nutzen, um komplexe Szenen zu verstehen. Dadurch können Multiskalenaktivierungen kombiniert und gleichzeitig ein Schärfeverlust verhindert werden. Das Netzwerk besteht aus unabhängigen Refine-Modulen, jedes Refine-Modul besteht aus drei Hauptmodulen, nämlich: Residual Convolutional Unit (RCU), Multi-Resolution Fusion (MRF) und Chain Residual Pooling (CRP). Die Gesamtstruktur ähnelt in gewisser Weise der von U-Net, es wurde jedoch eine neue Kombinationsmethode für die Sprungverbindung entwickelt (keine einfache Verbindung). Persönlich denke ich, dass diese Struktur tatsächlich sehr gut als Idee für Ihr eigenes Netzwerkdesign geeignet ist. Sie können viele CNN-Module hinzufügen, die in anderen CV-Problemen verwendet werden, und wenn Sie U-Net als Gesamtrahmen verwenden, wird der Effekt nicht allzu schlecht sein. ?? . Einige Methoden zur Vereinfachung der Struktur tiefer Netzwerke: Tensorzerlegung; Kanal-/Netzwerkbereinigung; Es gibt auch einige, die NAS (Neural Architecture Search) verwenden, um das manuelle Design zum Durchsuchen der Struktur von Modulen oder des gesamten Netzwerks zu ersetzen. Natürlich werden die von AutoDL benötigten GPU-Ressourcen viele Menschen abschrecken. Daher verwenden manche Leute die Zufallssuche, um nach viel kleineren ASPP-Modulen zu suchen und bauen dann das gesamte Netzwerkmodell auf der Grundlage der kleinen Module auf.
Leichtes Netzwerkdesign ist der Konsens in der Branche, dass es unmöglich ist, jede Maschine mit einem 2080ti auszustatten. Darüber hinaus schränken Stromverbrauch, Speicher und andere Probleme die Förderung und Anwendung des Modells ein. Wenn jedoch 5G populär wird, können alle Daten in der Cloud verarbeitet werden, was sehr interessant sein wird. Natürlich wissen wir kurzfristig (zehn Jahre) nicht, ob eine vollständige Einführung von 5G machbar ist.Goodfellow et al. schlugen 2014 eine kontradiktorische Methode zum Erlernen tiefer generativer Modelle vor. In generativen kontradiktorischen Netzwerken (GANs) müssen zwei Modelle gleichzeitig trainiert werden: ein generatives Modell, das erfasst die Datenverteilung G und ein Unterscheidungsmodell D, das die Wahrscheinlichkeit schätzt, dass eine Stichprobe aus den Trainingsdaten stammt.
● G ist ein generatives Netzwerk, das ein zufälliges Rauschen z (Zufallszahl) empfängt und durch dieses Rauschen ein Bild generiert. ● D ist ein diskriminatives Netzwerk, das bestimmt, ob ein Bild „echt“ ist. Sein Eingabeparameter ist x (ein Bild), und die Ausgabe D(x) stellt die Wahrscheinlichkeit dar, dass x ein reales Bild ist. Wenn es 1 ist, bedeutet dies, dass 100 % ein reales Bild ist, und die Ausgabe ist 0, was bedeutet, dass es sich um ein reales Bild handelt kann nicht real sein. Das Trainingsverfahren von G besteht darin, die Wahrscheinlichkeit eines D-Fehlers zu maximieren. Es kann bewiesen werden, dass es im Raum aller Funktionen G und D eine eindeutige Lösung gibt, sodass G die Trainingsdatenverteilung reproduziert und D = 0,5. Während des Trainingsprozesses besteht das Ziel des Generierungsnetzwerks G darin, zu versuchen, echte Bilder zu erzeugen, um das Diskriminanznetzwerk D zu täuschen. Das Ziel von D besteht darin, zu versuchen, die von G erzeugten gefälschten Bilder von den echten Bildern zu unterscheiden. Auf diese Weise stellen G und D einen dynamischen „Spielprozess“ dar, und der endgültige Gleichgewichtspunkt ist der Nash-Gleichgewichtspunkt. Für den Fall, dass G und D durch ein neuronales Netzwerk definiert werden, kann das gesamte System mit Backpropagation trainiert werden. Illustration der GANs-NetzwerkstrukturInspiriert von GANs trainierten Luc et al. ein semantisches Segmentierungsnetzwerk (G) und ein gegnerisches Netzwerk (D). G) Segmentierungsdiagramm. G und D spielen weiterhin Spiele und lernen, und ihre Verlustfunktion ist definiert als: GANs Verlustfunktion https://www.cnblogs.com/walter-xh/p/10051634.html). Zu diesem Zeitpunkt werden nur die Parameter von G aktualisiert. Um eine Echtzeitverarbeitung hochauflösender medizinischer 2D/3D-Bilder (wie CT-, MRT- und histopathologische Bilder usw.) zu erreichen, haben Forscher verschiedene Methoden zur Komprimierung vorgeschlagen Modelle. Weng et al. nutzten die NAS-Technologie zur Anwendung im U-Net-Netzwerk und erhielten ein kleines Netzwerk mit besserer Organ-/Tumorsegmentierungsleistung bei CT-, MRT- und Ultraschallbildern. Brugger hat die U-Net-Architektur neu gestaltet, indem er Gruppennormalisierung und Leaky-ReLU (Leaky-ReLU-Funktion) nutzte, um die Speichereffizienz des Netzwerks für die Segmentierung medizinischer 3D-Bilder effizienter zu gestalten. Einige Leute haben auch erweiterte Faltungsmodule mit weniger Parametern entworfen. Einige andere Modellkomprimierungsmethoden umfassen Gewichtsquantisierung (Sechzehn-Bit-, Acht-Bit-, Binärquantisierung), Destillation, Bereinigung usw. Drozdal schlug eine Methode vor, die ein einfaches CNN anwendet, um das ursprüngliche Eingabebild zu normalisieren, bevor das Bild in das Segmentierungsnetzwerk eingespeist wird, was die Bildsegmentierung bei der Singleton-Mikroskopie, die Leber-CT und die Segmentierungsgenauigkeit der Prostata verbessert MRT. Gu schlug eine Methode zur Verwendung erweiterter Faltung im Backbone-Netzwerk vor, um Kontextinformationen beizubehalten. Vorontsov schlug ein Graph-zu-Graph-Netzwerk-Framework vor, das Bilder mit ROI in Bilder ohne ROI umwandelt (z. B. Bilder mit Tumoren werden in gesunde Bilder ohne Tumoren umgewandelt) und dann die vom Modell entfernten Tumore zu den neuen gesunden Bildern hinzugefügt . , um die detaillierte Struktur des Objekts zu erhalten. Zhou et al. schlugen eine Methode zur Neuverkabelung des U-Net-Netzwerks vor und führten diese an der Knotensegmentierung in Niedrigdosis-CT-Scans des Brustkorbs, der Kernsegmentierung in Mikroskopiebildern, der Lebersegmentierung in CT-Scans des Abdomens und der Koloskopie durch zu einer Polypensegmentierungsaufgabe im Untersuchungsvideo. Goyal wandte DeepLabV3 zur dermatoskopischen Farbbildsegmentierung an, um Bereiche mit Hautläsionen zu extrahieren. Nie schlug ein Aufmerksamkeitsmodell vor, das die Prostata im Vergleich zu Basismodellen (V-Net und FCN) genauer segmentieren kann. SinHa schlug ein Netzwerk vor, das auf einem mehrschichtigen Aufmerksamkeitsmechanismus für die Segmentierung von Bauchorganen in MRT-Bildern basiert. Qin et al. schlugen ein erweitertes Faltungsmodul vor, um mehr Details medizinischer 3D-Bilder zu bewahren. Es gibt viele andere Veröffentlichungen zur Blutbildsegmentierung basierend auf Aufmerksamkeitsmechanismen. Khosravan schlug ein kontradiktorisches Trainingsnetzwerk für die Pankreassegmentierung anhand von CT-Scans vor. Son verwendet generative kontradiktorische Netzwerke zur Segmentierung von Netzhautbildern. Xue verwendet ein vollständig Faltungsnetzwerk als Segmentierungsnetzwerk in einem generativen kontradiktorischen Rahmen, um Hirntumoren aus MRT-Bildern zu segmentieren. Es gibt andere Artikel, die GANs erfolgreich auf medizinische Bildsegmentierungsprobleme anwenden, daher werde ich sie nicht einzeln auflisten. Rekurrentes neuronales Netzwerk (RNN) wird hauptsächlich zur Verarbeitung von Sequenzdaten verwendet. Das lange Kurzzeitgedächtnisnetzwerk (LSTM) ist eine verbesserte Version von LSTM, die den Gradientenfluss durch die Einführung von Selbstschleifen ermöglicht . Kann lange aufrechterhalten werden. Im Bereich der medizinischen Bildanalyse wird RNN zur Modellierung zeitlicher Abhängigkeiten in Bildsequenzen eingesetzt. Bin et al. schlugen einen Bildsequenz-Segmentierungsalgorithmus vor, der ein vollständig faltendes neuronales Netzwerk und RNN integriert und Informationen in der Zeitdimension in die Segmentierungsaufgabe einbezieht. Gao et al. verwendeten CNN und LSTM, um zeitliche Beziehungen in MRT-Schnittsequenzen des Gehirns zu modellieren und so die Segmentierungsleistung in 4D-Bildern zu verbessern. Li et al. verwendeten zunächst U-Net, um die anfängliche Segmentierungswahrscheinlichkeitskarte zu erhalten, und verwendeten dann LSTM, um die Bauchspeicheldrüse aus 3D-CT-Bildern zu segmentieren, was die Segmentierungsleistung verbesserte. Es gibt viele andere Artikel, die RNN für die Segmentierung medizinischer Bilder verwenden, daher werde ich sie nicht einzeln vorstellen. In diesem Teil des Inhalts geht es hauptsächlich um die Anwendung von Segmentierungsalgorithmen bei der medizinischen Bildsegmentierung, daher gibt es nicht viele Neuerungen. Er konzentriert sich hauptsächlich auf die Analyse von Daten in verschiedenen Formaten (CT oder RGB, Pixelbereich, Bildauflösung usw.) Aufgrund der Eigenschaften verschiedener Teile der Daten (Rauschen, Objektform usw.) muss das klassische Netzwerk verbessert werden, damit sich verschiedene Daten an das Eingabedatenformat und die Eigenschaften anpassen können, damit dies möglich ist Schließen Sie die Segmentierungsaufgabe besser ab. Obwohl es sich bei Deep Learning um eine Blackbox handelt, müssen beim Gesamtdesign des Modells dennoch Regeln befolgt werden, welche Strategie welches Problem löst und welches Problem es verursacht, basierend auf dem spezifischen Segmentierungsproblem, um eine optimale Segmentierungsleistung zu erzielen. 1.Deep Semantic Segmentation of Natural and Medical Images: A Review 2.NAS-Unet: Neural Architecture Search for Medical Image Segmentation. IEEE Access, 7:44247–44257, 2019 . 3.Steigerung der Segmentierung durch schwache Überwachung von Bild-zu-Bild-Übersetzung arXiv:1904.01636, 2019 4. . 5.SegAN: Gegnerisches Netzwerk mit mehrskaligem L1-Verlust Medizinische Bildsegmentierung. 6.Vollständig faltungsstrukturierte LSTM-Netzwerke für die gemeinsame 4D-Bildsegmentierung. Im Jahr 2018 IEEE7 https://www.cnblogs.com/walter-xh/p/10051634.html2.1 Segmentierungsmethode basierend auf Modellkomprimierung
2.2 Segmentierungsmethode der Kodierungs-Dekodierungsstruktur
2.3 Segmentierungsmethode basierend auf dem Aufmerksamkeitsmechanismus
2.4 Segmentierungsnetzwerk basierend auf kontradiktorischem Lernen
2.5 RNN-basiertes Segmentierungsmodell
2.6 Zusammenfassung
Einige Referenzen:
Das obige ist der detaillierte Inhalt vonDeep-Learning-Bildsegmentierung: Ein Überblick über das Netzwerkstrukturdesign. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!