Inhaltsverzeichnis
SD-XL: Open-Source-Version Midjourney
Ästhetischer " >Ästhetischer
Heim Technologie-Peripheriegeräte KI Stable Diffusion-XL ist für die öffentliche Beta geöffnet und erspart Ihnen lange und umständliche Eingabeaufforderungen!

Stable Diffusion-XL ist für die öffentliche Beta geöffnet und erspart Ihnen lange und umständliche Eingabeaufforderungen!

Apr 23, 2023 am 10:16 AM
开源

Seit der Veröffentlichung von Midjourney v5 wurden erhebliche Fortschritte beim Realismus von Charakteren und Fingerdetails in generierten Bildern sowie bei der Genauigkeit des sofortigen Verständnisses, der ästhetischen Vielfalt und dem Sprachverständnis erzielt .

Obwohl Stable Diffusion kostenlos und Open Source ist, muss es jedes Mal eine lange Liste von Eingabeaufforderungen schreiben, um qualitativ hochwertige Bilder zu generieren viele Ziehe einmal eine Karte.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Kürzlich gab Stability AI offiziell bekannt, dass die in der Entwicklung befindliche Stable Diffusion XL mit dem Test für die Öffentlichkeit begonnen hat und sich derzeit befindet Verfügbar auf Clipdrop. Die Plattform kann kostenlos ausprobiert werden.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Testlink: https://clipdrop.co/stable-diffusion​#🎜 🎜 #

Emad Mostaque, Gründer und CEO von Stability AI, sagte, dass sich das Modell noch in der Trainingsphase befindet und Open Source sein wird, wenn die Parameter stabil sind schneidet bei Bilddetails wie „Handshake“ besser ab und ist nahezu vollständig kontrollierbar.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Stable Diffusion XL ist nicht der Name der endgültigen Version, und es ist nicht v3, weil SD-XL Die Architektur ist der Modellarchitektur der SD-v2-Serie sehr ähnlich. Minimalistisches Heim-Fitnessstudio mit Gummiboden, wandmontiertem Fernseher, Hantelbank, Medizinball, Hanteln, Yogamatten, High-Tech-Geräten, sehr detailliert, organisiert und effizient.

#🎜🎜 #

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了 Einfaches Heim-Fitnessstudio, Gummiboden, an der Wand hängender Fernseher, Hantelbank, Medizinball, Hanteln, Yogamatte, High-Tech-Ausrüstung, hohe Details, Organisation und Effizienz. Aus den offiziell veröffentlichten Beispielbildern Man erkennt, dass die Bildqualität bereits sehr beeindruckend ist.

# 🎜 🎜#

Aber manchmal bedeutet weniger nicht mehr. Einige Internetnutzer denken, dass SD -XL-Design Es wurden zu viele Regeln festgelegt und der Raum für Anpassungen wird immer kleiner, was nicht den Vorlieben der meisten Menschen entspricht. Stable Diffusion, derzeit Version 1.5, ist immer noch das beliebteste Basismodell in der Community.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了Internetnutzer äußerten die Hoffnung, dass die neue Version von SD mit den Embedded-, Hypernetworkds- und Lora-Modellen kompatibel bleiben kann die SD 2.1-Version, und dann von Es wäre zu unangenehm für Zero, wieder mit dem Training zu beginnen.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Einige Internetnutzer glauben auch, dass die Leistung von SD-XL anders ist als die der Netizens der Civit-Website Die geteilten Modelle sind ähnlich, und die Wirkung des neuen Modells ist nicht besonders erstaunlich, was durchschnittlich ist.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL: Open-Source-Version Midjourney

Spezifisch für die Stable Diffusion XL Modell Der Beamte gab nicht viele Informationen bekannt. Derzeit wissen sie nur, dass es sich um ein Modell mit einer ähnlichen Architektur wie das v2-Modell handelt, jedoch mit einem größeren Maßstab und einer größeren Parameteranzahl.

SD-v2.1 enthält 900 Millionen Parameter, SD-XL hat etwa 2,3 Milliarden Parameter und Emad sagte, dass die offizielle Version möglicherweise zusätzlich eine kleinere destillierte Version veröffentlichen wird.

Die Verbesserungen von SD-XL im Vergleich zur Vorgängerversion sind wie folgt:

  • #🎜🎜 #Kürzer zu verwenden Die beschreibende Eingabeaufforderung kann qualitativ hochwertige Bilder generieren.
  • kann Bilder generieren, die besser für die Eingabeaufforderung geeignet sind # Die menschliche Körperstruktur im Bild ist vernünftiger
  • Im Vergleich zu den Versionen v2.1 und v1.5 (in geringerem Maße) sind die Bilder Die von SD-XL erzeugten Informationen entsprechen eher der öffentlichen Ästhetik Das Porträt ist realistischer. #🎜 🎜#
  • Der Text im Bild ist klarer Beachten Sie, dass SD-XL möglicherweise nicht mit früheren Versionen des Plugins funktioniert, die nicht kompatibel sind.
  • Klarer und lesbarer Text
  • in der v1-Serie und v2.1-Version des Stable Diffusion-Modells , verfügt nicht über die Fähigkeit, lesbaren Text in Bildern zu generieren.
  • Auch wenn die von SD-XL generierten Textinformationen nicht immer korrekt sind, ergeben sich dennoch enorme Verbesserungen. Foto einer Frau, die in einem Restaurant sitzt und eine Speisekarte mit der Aufschrift „Menü“ in der Hand hält Auf dem steht „Menü“# Foto eines Mannes, der ein Schild mit der Aufschrift „Stable Diffusion“ hält

Ein Mann festgehalten ein Schild mit der Aufschrift „Stabile Diffusion“

Eine junge Frau hält ein Schild mit der Aufschrift „Stabile Diffusion“ in der Hand, Highlights im Haar, sitzend vor dem Restaurant, braune Augen, trägt ein Kleid, Seitenlicht

Eine junge Frau hält ein Schild mit der Aufschrift „Stable Diffusion“ in der Hand gesträhntes Haar, vor dem Restaurant sitzend, braune Augen, trägt einen Rock, seitwärts gerichtete Lampe

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Better Human Structure

#🎜 🎜#Stabile Diffusion bei der Generierung der menschlichen Anatomie. Es gab immer viele Probleme. Überschüssige Beine und weniger Arme sind in der Regel notwendig, um die Bilddetails weiter zu korrigieren Pose-Funktion zum Kopieren der Haltung des menschlichen Körpers aus dem Referenzbild.

Wenn beispielsweise SD-v1.5 Yoga-Bilder generiert, erscheinen häufig verzerrte menschliche Körper.

Foto einer Frau im Yoga-Outfit, Dreieckspose, Strand am Abend, Randbeleuchtung# 🎜🎜#Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Foto einer Frau im Yoga-Outfit, Dreieckspose, Strand bei Nacht, Kantenbeleuchtung # 🎜 🎜#

Obwohl die von SD-XL erzeugten Bilder nicht perfekt sind, haben sie erhebliche Fortschritte in der menschlichen Körperhaltung gemacht.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Ästhetischer

Mit dem gleichen Thema eines Hauses kann SD-XL beispielsweise Fotos erzeugen, die symmetrischer sind und bessere visuelle Effekte haben.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL bietet auch deutliche Verbesserungen bei Porträtfotos.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Fotoaufnahme einer Frau

Ein Bild, das besser zur Eingabeaufforderung passt

SD-XL kann die Eingabeaufforderung besser verstehen und genauere Bilder erzeugen.

Am Beispiel von Duotone (zweifarbig) erzeugt SD-v1.5 nur Schwarzweißbilder, während SD-XL Dualtone-Bilder mit mehreren Farben erzeugen kann.

Die Fähigkeit, Eingabeaufforderungen zu verstehen, hat sich im Vergleich zum v1-Modell verbessert. „Duotone-Porträt einer Frau“ im Vergleich zum v1-Modell Besseres Verständnis von Aufforderungswörtern.

Im Beispiel unten kann das Modell v1.5 beispielsweise nie die beiden Motive im Bild (Roboter und Mensch) verstehen, aber das SD-XL-Modell kann normale Bilder erzeugen (obwohl der Roboter dies tut). immer noch nicht groß genug).

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

großer Roboterfreund sitzt neben einem Menschen, Geist im Muschelstil, Anime-Hintergrundbild

Großer Roboterfreund sitzt neben einem Menschen, Geist im Muschelstil, Anime-Hintergrundbild

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

ein junger Mann, Strähnchen im Haar, braune Augen, in weißem Hemd und blauer Jeans an einem Strand mit einem Vulkan im Hintergrund

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Ein junger Mann, Strähnchen im Haar, braune Augen, in Weißes Hemd und blaue Jeans am Strand mit einem Vulkan im Hintergrund Weißes Hemd und blaue Jeans, am Strand stehend, mit einem Vulkan im Hintergrund

Kunststil

In Bezug auf den Kunststil SD-XL hat sich nicht wesentlich verbessert und weist eigene Unterschiede zur Vorgängerversion auf.

Zum Beispiel erzeugen zwei Modelle Bilder im Edward Hopper-Stil aus verschiedenen Blickwinkeln. Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

New York City von Edward Hopper Edward Hoppers New York

Leonid Afmovs Stil, SD-v1.5 ist genauer, SD-XL fehlen Pinsel in verschiedenen Farben (unverwechselbare bunte Pinselstriche auf der Tafel).

New York City von Leonid Afemov New York von Leonid Afemov Etwas Ähnliches lässt sich herstellen, mit Das SD-XL ähnelt eher den klassischen akademischen Gemälden von Bouguereau und weist mehr Gesichtsdetails auf. Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Porträt einer schönen Frau von William-Adolphe Bouguereau

# ?? Nach dem Hinzufügen einiger irrelevanter Schlüsselwörter kann sich der Stil des Modells plötzlich ändern.

Generieren Sie beispielsweise zunächst ein Bild im Fotostil. Ein junger Mann, Strähnchen im Haar, braune Augen, in weißem Hemd und blauer Jeans an einem Strand mit einem Vulkan im Hintergrund

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

A junger Mann mit bunt gefärbten Haaren und braunen Augen, trägt ein weißes Hemd und blaue Jeans, steht am Strand, mit einem Vulkan im Hintergrund

Nach dem Hinzufügen ein gelber Schal, der Bildstil wird zum Cartoon-Stil.

ein junger Mann, Strähnchen im Haar, braune Augen,

trägt ein Gelb Schal,

in weißem Hemd und blauer Jeans an einem Strand mit einem Vulkan im Hintergrund

Ein junger Mann mit gefärbten Haaren Sehr helle, braune Augen, trägt einen gelben Schal, trägt ein weißes Hemd und blaue Jeans, steht an einem Strand mit einem Vulkan als Hintergrund

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

#🎜🎜 #The Das Problem kann durch ein Vorschauproblem verursacht werden. Ich weiß nicht, ob dieses Problem nach der offiziellen Veröffentlichung gelöst werden kann.

Das obige ist der detaillierte Inhalt vonStable Diffusion-XL ist für die öffentliche Beta geöffnet und erspart Ihnen lange und umständliche Eingabeaufforderungen!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Zehn empfohlene Open-Source-Tools für kostenlose Textanmerkungen Zehn empfohlene Open-Source-Tools für kostenlose Textanmerkungen Mar 26, 2024 pm 08:20 PM

Bei der Textanmerkung handelt es sich um die Arbeit mit entsprechenden Beschriftungen oder Tags für bestimmte Inhalte im Text. Sein Hauptzweck besteht darin, zusätzliche Informationen zum Text für eine tiefere Analyse und Verarbeitung bereitzustellen, insbesondere im Bereich der künstlichen Intelligenz. Textanmerkungen sind für überwachte maschinelle Lernaufgaben in Anwendungen der künstlichen Intelligenz von entscheidender Bedeutung. Es wird zum Trainieren von KI-Modellen verwendet, um Textinformationen in natürlicher Sprache genauer zu verstehen und die Leistung von Aufgaben wie Textklassifizierung, Stimmungsanalyse und Sprachübersetzung zu verbessern. Durch Textanmerkungen können wir KI-Modellen beibringen, Entitäten im Text zu erkennen, den Kontext zu verstehen und genaue Vorhersagen zu treffen, wenn neue ähnliche Daten auftauchen. In diesem Artikel werden hauptsächlich einige bessere Open-Source-Textanmerkungstools empfohlen. 1.LabelStudiohttps://github.com/Hu

15 empfohlene kostenlose Open-Source-Bildanmerkungstools 15 empfohlene kostenlose Open-Source-Bildanmerkungstools Mar 28, 2024 pm 01:21 PM

Bei der Bildanmerkung handelt es sich um das Verknüpfen von Beschriftungen oder beschreibenden Informationen mit Bildern, um dem Bildinhalt eine tiefere Bedeutung und Erklärung zu verleihen. Dieser Prozess ist entscheidend für maschinelles Lernen, das dabei hilft, Sehmodelle zu trainieren, um einzelne Elemente in Bildern genauer zu identifizieren. Durch das Hinzufügen von Anmerkungen zu Bildern kann der Computer die Semantik und den Kontext hinter den Bildern verstehen und so den Bildinhalt besser verstehen und analysieren. Die Bildanmerkung hat ein breites Anwendungsspektrum und deckt viele Bereiche ab, z. B. Computer Vision, Verarbeitung natürlicher Sprache und Diagramm-Vision-Modelle. Sie verfügt über ein breites Anwendungsspektrum, z. B. zur Unterstützung von Fahrzeugen bei der Identifizierung von Hindernissen auf der Straße und bei der Erkennung und Diagnose von Krankheiten durch medizinische Bilderkennung. In diesem Artikel werden hauptsächlich einige bessere Open-Source- und kostenlose Bildanmerkungstools empfohlen. 1.Makesens

Der Quellcode von 25 KI-Agenten ist jetzt öffentlich, inspiriert von Stanfords „Virtual Town' und „Westworld' Der Quellcode von 25 KI-Agenten ist jetzt öffentlich, inspiriert von Stanfords „Virtual Town' und „Westworld' Aug 11, 2023 pm 06:49 PM

Zuschauer, die mit „Westworld“ vertraut sind, wissen, dass diese Show in einem riesigen High-Tech-Themenpark für Erwachsene in der Zukunftswelt spielt. Die Roboter haben ähnliche Verhaltensfähigkeiten wie Menschen und können sich an das erinnern, was sie sehen und hören, und die Kernhandlung wiederholen. Jeden Tag werden diese Roboter zurückgesetzt und in ihren Ausgangszustand zurückversetzt. Nach der Veröffentlichung des Stanford-Artikels „Generative Agents: Interactive Simulacra of Human Behavior“ ist dieses Szenario nicht mehr auf Filme und Fernsehserien beschränkt Szene in Smallvilles „Virtual Town“ 》Übersichtskarten-Papieradresse: https://arxiv.org/pdf/2304.03442v1.pdf

Empfohlen: Ausgezeichnetes JS-Open-Source-Projekt zur Gesichtserkennung und -erkennung Empfohlen: Ausgezeichnetes JS-Open-Source-Projekt zur Gesichtserkennung und -erkennung Apr 03, 2024 am 11:55 AM

Die Technologie zur Gesichtserkennung und -erkennung ist bereits eine relativ ausgereifte und weit verbreitete Technologie. Derzeit ist JS die am weitesten verbreitete Internetanwendungssprache. Die Implementierung der Gesichtserkennung und -erkennung im Web-Frontend hat im Vergleich zur Back-End-Gesichtserkennung Vor- und Nachteile. Zu den Vorteilen gehören die Reduzierung der Netzwerkinteraktion und die Echtzeiterkennung, was die Wartezeit des Benutzers erheblich verkürzt und das Benutzererlebnis verbessert. Die Nachteile sind: Es ist durch die Größe des Modells begrenzt und auch die Genauigkeit ist begrenzt. Wie implementiert man mit js die Gesichtserkennung im Web? Um die Gesichtserkennung im Web zu implementieren, müssen Sie mit verwandten Programmiersprachen und -technologien wie JavaScript, HTML, CSS, WebRTC usw. vertraut sein. Gleichzeitig müssen Sie auch relevante Technologien für Computer Vision und künstliche Intelligenz beherrschen. Dies ist aufgrund des Designs der Webseite erwähnenswert

Das multimodale Dokumentenverständnis-Großmodell Alibaba 7B gewinnt neue SOTA Das multimodale Dokumentenverständnis-Großmodell Alibaba 7B gewinnt neue SOTA Apr 02, 2024 am 11:31 AM

Neues SOTA für multimodale Dokumentverständnisfunktionen! Das Alibaba mPLUG-Team hat die neueste Open-Source-Arbeit mPLUG-DocOwl1.5 veröffentlicht, die eine Reihe von Lösungen zur Bewältigung der vier großen Herausforderungen der hochauflösenden Bildtexterkennung, des allgemeinen Verständnisses der Dokumentstruktur, der Befolgung von Anweisungen und der Einführung externen Wissens vorschlägt. Schauen wir uns ohne weitere Umschweife zunächst die Auswirkungen an. Ein-Klick-Erkennung und Konvertierung von Diagrammen mit komplexen Strukturen in das Markdown-Format: Es stehen Diagramme verschiedener Stile zur Verfügung: Auch eine detailliertere Texterkennung und -positionierung ist einfach zu handhaben: Auch ausführliche Erläuterungen zum Dokumentverständnis können gegeben werden: Sie wissen schon, „Document Understanding“. " ist derzeit ein wichtiges Szenario für die Implementierung großer Sprachmodelle. Es gibt viele Produkte auf dem Markt, die das Lesen von Dokumenten unterstützen. Einige von ihnen verwenden hauptsächlich OCR-Systeme zur Texterkennung und arbeiten mit LLM zur Textverarbeitung zusammen.

Gerade erschienen! Ein Open-Source-Modell zum Generieren von Bildern im Anime-Stil mit einem Klick Gerade erschienen! Ein Open-Source-Modell zum Generieren von Bildern im Anime-Stil mit einem Klick Apr 08, 2024 pm 06:01 PM

Lassen Sie mich Ihnen das neueste AIGC-Open-Source-Projekt vorstellen – AnimagineXL3.1. Dieses Projekt ist die neueste Version des Text-zu-Bild-Modells mit Anime-Thema und zielt darauf ab, Benutzern ein optimiertes und leistungsfähigeres Erlebnis bei der Generierung von Anime-Bildern zu bieten. Bei AnimagineXL3.1 konzentrierte sich das Entwicklungsteam auf die Optimierung mehrerer Schlüsselaspekte, um sicherzustellen, dass das Modell neue Höhen in Bezug auf Leistung und Funktionalität erreicht. Zunächst erweiterten sie die Trainingsdaten, um nicht nur Spielcharakterdaten aus früheren Versionen, sondern auch Daten aus vielen anderen bekannten Anime-Serien in das Trainingsset aufzunehmen. Dieser Schritt erweitert die Wissensbasis des Modells und ermöglicht ihm ein umfassenderes Verständnis verschiedener Anime-Stile und Charaktere. AnimagineXL3.1 führt eine neue Reihe spezieller Tags und Ästhetiken ein

Mit einer einzelnen Karte läuft Llama 70B schneller als mit zwei Karten, Microsoft hat gerade FP6 in A100 integriert | Mit einer einzelnen Karte läuft Llama 70B schneller als mit zwei Karten, Microsoft hat gerade FP6 in A100 integriert | Apr 29, 2024 pm 04:55 PM

FP8 und die geringere Gleitkomma-Quantifizierungsgenauigkeit sind nicht länger das „Patent“ von H100! Lao Huang wollte, dass jeder INT8/INT4 nutzt, und das Microsoft DeepSpeed-Team begann, FP6 auf A100 ohne offizielle Unterstützung von NVIDIA auszuführen. Testergebnisse zeigen, dass die FP6-Quantisierung der neuen Methode TC-FPx auf A100 nahe an INT4 liegt oder gelegentlich schneller als diese ist und eine höhere Genauigkeit aufweist als letztere. Darüber hinaus gibt es eine durchgängige Unterstützung großer Modelle, die als Open-Source-Lösung bereitgestellt und in Deep-Learning-Inferenz-Frameworks wie DeepSpeed ​​integriert wurde. Dieses Ergebnis wirkt sich auch unmittelbar auf die Beschleunigung großer Modelle aus – in diesem Rahmen ist der Durchsatz bei Verwendung einer einzelnen Karte zum Ausführen von Llama 2,65-mal höher als der von Doppelkarten. eins

1,3 ms dauert 1,3 ms! Tsinghuas neueste Open-Source-Architektur für mobile neuronale Netzwerke RepViT 1,3 ms dauert 1,3 ms! Tsinghuas neueste Open-Source-Architektur für mobile neuronale Netzwerke RepViT Mar 11, 2024 pm 12:07 PM

Papieradresse: https://arxiv.org/abs/2307.09283 Codeadresse: https://github.com/THU-MIG/RepViTRepViT funktioniert gut in der mobilen ViT-Architektur und zeigt erhebliche Vorteile. Als nächstes untersuchen wir die Beiträge dieser Studie. In dem Artikel wird erwähnt, dass Lightweight-ViTs bei visuellen Aufgaben im Allgemeinen eine bessere Leistung erbringen als Lightweight-CNNs, hauptsächlich aufgrund ihres Multi-Head-Selbstaufmerksamkeitsmoduls (MSHA), das es dem Modell ermöglicht, globale Darstellungen zu lernen. Allerdings wurden die architektonischen Unterschiede zwischen Lightweight-ViTs und Lightweight-CNNs noch nicht vollständig untersucht. In dieser Studie integrierten die Autoren leichte ViTs in die effektiven

See all articles