


Die Reduzierung der KI-Dimensionalität greift menschliche Maler an, vinzentinische Diagramme werden in ControlNet eingeführt und Tiefen- und Kanteninformationen sind vollständig wiederverwendbar
Mit dem Aufkommen großer Text-Bild-Modelle ist es sehr einfach geworden, ein attraktives Bild zu erstellen. Der Benutzer muss lediglich eine einfache Eingabeaufforderung mit der Fingerbewegung eingeben. Nachdem wir das Bild durch eine Reihe von Vorgängen erhalten haben, werden wir unweigerlich mehrere Fragen haben: Kann das auf der Grundlage der Eingabeaufforderung generierte Bild unsere Anforderungen erfüllen? Welche Art von Architektur sollten wir aufbauen, um den verschiedenen Anforderungen der Benutzer gerecht zu werden? Können große Modelle bei bestimmten Aufgaben weiterhin die Vorteile und Fähigkeiten aufrechterhalten, die aus Milliarden von Bildern gewonnen wurden?
Um diese Fragen zu beantworten, führten Forscher aus Stanford eine umfangreiche Umfrage zu verschiedenen Bildverarbeitungsanwendungen durch und kamen zu den folgenden drei Ergebnissen:
Erstens sind die in einer bestimmten Domäne verfügbaren Daten tatsächlich besser als das Training eines allgemeinen Modells Es gibt weniger Daten, was sich hauptsächlich darin widerspiegelt, dass beispielsweise der größte Datensatz zu einem bestimmten Problem (z. B. Gestenverständnis usw.) normalerweise weniger als 100.000 beträgt, was 5 × 10^4 weniger als der große ist -skaliger, multimodaler Text-Bild-Datensatz LAION 5B Größenordnung. Dies erfordert, dass das neuronale Netzwerk robust ist, um eine Überanpassung des Modells zu vermeiden, und eine gute Generalisierung bei der Behandlung spezifischer Probleme aufweist.
Zweitens stehen bei der datengesteuerten Verarbeitung von Bildaufgaben nicht immer große Rechencluster zur Verfügung. Hier werden schnelle Trainingsmethoden wichtig, Methoden, die große Modelle für bestimmte Aufgaben innerhalb akzeptabler Zeit und Speicherkapazität optimieren können. Darüber hinaus können in der nachfolgenden Verarbeitung Feinabstimmungen, Transferlernen und andere Vorgänge erforderlich sein.
Abschließend werden verschiedene Probleme, die bei der Bildverarbeitung auftreten, auf unterschiedliche Weise definiert. Bei der Lösung dieser Probleme kann der Bilddiffusionsalgorithmus zwar auf „prozedurale“ Weise angepasst werden, z. B. durch Einschränkung des Rauschunterdrückungsprozesses, Bearbeitung der Aufmerksamkeitsaktivierung mehrerer Köpfe usw., diese handgefertigten Regeln werden jedoch im Wesentlichen durch menschliche Anweisungen diktiert. In Anbetracht einiger spezifischer Aufgaben wie Tiefenbild, Pose-Person usw. erfordern diese Probleme im Wesentlichen die Interpretation von Roheingaben für ein Verständnis auf Objekt- oder Szenenebene, was handgefertigte prozedurale Ansätze weniger durchführbar macht. Um Lösungen für mehrere Aufgaben bereitzustellen, ist daher ein durchgängiges Lernen unerlässlich.
Basierend auf den oben genannten Erkenntnissen schlägt dieser Artikel eine End-to-End-Architektur für neuronale Netzwerke ControlNet vor, die das Diffusionsmodell (z. B. Stable Diffusion) durch Hinzufügen zusätzlicher Bedingungen steuern und so den Zeicheneffekt verbessern und das Zeichnen von Linien realisieren kann . Generieren Sie Vollfarbbilder, generieren Sie Bilder mit der gleichen Tiefenstruktur und optimieren Sie die Handgenerierung durch Handschlüsselpunkte.
Papieradresse: https://arxiv.org/pdf/2302.05543.pdf
Projektadresse: https://github.com/lllyasviel/ControlNet
Effektanzeige
Welche Wirkung hat ControlNet?
Canny Edge Detection: Durch Extrahieren von Strichzeichnungen aus dem Originalbild können Bilder mit derselben Zusammensetzung generiert werden.
Tiefenerkennung: Durch Extrahieren der Tiefeninformationen im Originalbild kann eine Karte mit derselben Tiefenstruktur generiert werden.
ControlNet mit semantischer Segmentierung:
Erkennen Sie gerade Linien von Places2 mithilfe der lernbasierten tiefen Hough-Transformation und generieren Sie dann Untertitel mithilfe von BLIP.
HED-Kantenerkennungssymbol.
Symbol zur Erkennung der menschlichen Körperhaltung.
Einführung in die Methode
ControlNet ist eine neuronale Netzwerkarchitektur, die vorab trainierte Bilddiffusionsmodelle mit aufgabenspezifischen Bedingungen erweitert. Schauen wir uns zunächst die Grundstruktur von ControlNet an.
ControlNet manipuliert die Eingabebedingungen neuronaler Netzwerkblöcke, um das Gesamtverhalten des gesamten neuronalen Netzwerks weiter zu steuern. Hier bezieht sich „Netzwerkblock“ auf eine Gruppe neuronaler Schichten, die als gemeinsame Einheit zum Aufbau neuronaler Netzwerke zusammengefasst werden, wie z. B. Resnet-Block, Multi-Head-Aufmerksamkeitsblock und Transformer-Block.
Nehmen wir als Beispiel 2D-Features, gegeben eine Feature-Map x ϵ R^h×w×c, wobei {h, w, c} die Höhe, Breite bzw. Anzahl der Kanäle sind. Ein neuronaler Netzwerkblock F (・; Θ) mit einem Parametersatz Θ transformiert x in eine andere Merkmalskarte y, wie in Gleichung (1) unten gezeigt.
Dieser Vorgang ist in Abbildung 2-(a) unten dargestellt.
Die neuronalen Netzwerkblöcke sind durch eine einzigartige Faltungsschicht namens „Null-Faltung“ verbunden, bei der es sich um eine 1×1-Faltungsschicht mit Null-Initialisierung von Gewichten und Bias handelt. Der Forscher stellt die Nullfaltungsoperation als Z (・;・) dar und verwendet zwei Parameterinstanzen {Θ_z1, Θ_z2}, um die ControlNet-Struktur zu bilden, wie in der folgenden Formel (2) gezeigt.
wobei y_c zur Ausgabe dieses neuronalen Netzwerkblocks wird, wie in Abbildung 2-(b) unten dargestellt.
ControlNet im Bilddiffusionsmodell
Am Beispiel der stabilen Diffusion stellten die Forscher vor, wie man ControlNet zur Steuerung groß angelegter Diffusionsmodelle mit aufgabenspezifischen Bedingungen verwenden kann. Stable Diffusion ist ein groß angelegtes Text-zu-Bild-Diffusionsmodell, das auf Milliarden von Bildern trainiert wird, im Wesentlichen ein U-Netz, das aus einem Encoder, Zwischenblöcken und einem mit Resten verbundenen Decoder besteht.
Wie in Abbildung 3 unten dargestellt, verwenden Forscher ControlNet, um jede Schicht des U-Netzes zu steuern. Beachten Sie, dass die Art und Weise, wie ControlNet hier verbunden ist, recheneffizient ist: Da die ursprünglichen Gewichte gesperrt sind, erfordert die Gradientenberechnung auf dem ursprünglichen Encoder kein Training. Und da die Hälfte der Gradientenberechnungen des Originalmodells reduziert wird, kann das Training beschleunigt und GPU-Speicher eingespart werden. Das Training eines Stable Diffusion-Modells mit ControlNet erfordert nur etwa 23 % mehr GPU-Speicher und 34 % mehr Zeit pro Trainingsiteration (getestet auf einer einzelnen Nvidia A100 PCIE 40G).
Konkret verwendeten die Forscher ControlNet, um trainierbare Kopien von 12 Codierungsblöcken und einem Stable Diffusion-Zwischenblock zu erstellen. Die 12 Codierungsblöcke gibt es in 4 Auflösungen, 64×64, 32×32, 16×16 und 8×8, mit 3 Blöcken in jeder Auflösung. Der Ausgang wird dem U-Netz mit 12 Restverbindungen und 1 Zwischenblock hinzugefügt. Da es sich bei Stable Diffusion um eine typische U-Net-Struktur handelt, ist es wahrscheinlich, dass diese ControlNet-Architektur in anderen Diffusionsmodellen verwendet werden kann.
Training und Boosting-Training
Bei einem Bild z_0 fügt der Diffusionsalgorithmus dem Bild schrittweise Rauschen hinzu und erzeugt ein verrauschtes Bild z_t, wobei t die Häufigkeit ist, mit der Rauschen hinzugefügt wird. Wenn t groß genug ist, nähert sich das Bild reinem Rauschen an. Bei einer Reihe von Bedingungen, einschließlich Zeitschritt t, Textaufforderungen c_t und aufgabenspezifischen Bedingungen c_f, lernt der Bilddiffusionsalgorithmus ein Netzwerk ϵ_θ, um das zu einem verrauschten Bild z_t hinzugefügte Rauschen vorherzusagen, wie in Gleichung (10) unten gezeigt.
Während des Trainingsprozesses ersetzten die Forscher zufällig 50 % der Textaufforderungen c_t durch leere Zeichenfolgen, was sich positiv auf die Fähigkeit von ControlNet auswirkt, semantische Inhalte aus der Eingabebedingungskarte zu identifizieren.
Darüber hinaus diskutierten die Forscher auch mehrere Strategien zur Verbesserung des ControlNets-Trainings, insbesondere wenn Computergeräte sehr begrenzt (z. B. Laptops) oder sehr leistungsfähig (z. B. verfügbar) sind Extremfall großer GPU-Computing-Cluster).
Weitere technische Details finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonDie Reduzierung der KI-Dimensionalität greift menschliche Maler an, vinzentinische Diagramme werden in ControlNet eingeführt und Tiefen- und Kanteninformationen sind vollständig wiederverwendbar. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

In diesem Artikel wird das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren untersucht, insbesondere wie die Transformation von Merkmalen aus der Perspektive (PV) in den Raum aus der Vogelperspektive (BEV) effektiv ist implementiert über das Modul Visual Transformation (VT). Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und die Aufmerksamkeitsgewichte der Korrespondenz zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht sich die Rechen- und Bereitstellungszeit.

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren
