Heim Technologie-Peripheriegeräte KI Yann LeCun: ViT ist langsam und ineffizient. Die Echtzeit-Bildverarbeitung hängt immer noch von der Faltung ab.

Yann LeCun: ViT ist langsam und ineffizient. Die Echtzeit-Bildverarbeitung hängt immer noch von der Faltung ab.

Jun 06, 2024 pm 01:25 PM
ai 计算机视觉

Ist es im Zeitalter der Transformer-Vereinigung immer noch notwendig, die CNN-Richtung der Computer Vision zu untersuchen?

Anfang dieses Jahres machte das große Videomodell Sora von OpenAI die Vision Transformer (ViT)-Architektur populär. Seitdem gibt es eine anhaltende Debatte darüber, wer leistungsfähiger ist: ViT oder traditionelle Faltungs-Neuronale Netze (CNN).

Kürzlich beteiligte sich auch Turing-Preisträger Yann LeCun, Chefwissenschaftler von Meta, der in den sozialen Medien aktiv war, an der Diskussion über den Streit zwischen ViT und CNN.

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Die Ursache für diesen Vorfall war, dass Harald Schäfer, CTO von Comma.ai, seine neuesten Forschungsergebnisse vorstellte. Er (wie viele neuere KI-Wissenschaftler) verweist auf Yann LeCuns Aussage, dass, obwohl der Turing-Award-Tycoon glaubt, dass reines ViT nicht praktikabel ist, wir unseren Kompressor kürzlich auf reines ViT umgestellt haben Die Wirkung ist sehr gut.

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Zum Beispiel ist das Bild links auf nur 224 Bytes komprimiert und rechts ist das Originalbild.

ist nur 14×128, was für ein Weltmodell für autonomes Fahren sehr groß ist, was bedeutet, dass eine große Datenmenge für das Training eingegeben werden kann. Die Schulung in einer virtuellen Umgebung ist kostengünstiger als in einer realen Umgebung, in der Agenten gemäß den Richtlinien geschult werden müssen, damit sie ordnungsgemäß arbeiten können. Höhere Auflösungen für virtuelles Training funktionieren besser, allerdings wird der Simulator sehr langsam, sodass derzeit eine Komprimierung erforderlich ist.

Seine Demonstration löste Diskussionen im KI-Kreis aus und Eric Jang, Vizepräsident für künstliche Intelligenz bei 1X, antwortete, dass die Ergebnisse erstaunlich seien.

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Harald lobte weiterhin ViT: Das ist eine sehr schöne Architektur.

Jemand begann hier Anstoß zu nehmen: Meister wie LeCun schaffen es manchmal nicht, mit dem Innovationstempo Schritt zu halten.

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Yann LeCun reagierte jedoch schnell und argumentierte, dass er nicht sage, dass ViT nicht praktikabel sei und dass es jetzt von allen genutzt werde. Er möchte damit zum Ausdruck bringen, dass ViT zu langsam und ineffizient ist und daher für die Echtzeitverarbeitung hochauflösender Bild- und Videoaufgaben ungeeignet ist.

Yann LeCun und Cue Xie Saining, ein Assistenzprofessor an der New York University, dessen Arbeit ConvNext bewiesen hat, dass CNN genauso gut sein kann wie ViT, wenn die Methode richtig ist.

Er fährt fort, dass man mindestens ein paar Faltungsschichten mit Pooling und Schritten braucht, bevor man sich an eine Selbstaufmerksamkeitsschleife hält.

Wenn Selbstaufmerksamkeit gleichbedeutend mit Permutation ist, macht dies für die Bild- oder Videoverarbeitung auf niedriger Ebene überhaupt keinen Sinn, und auch die Patchifizierung mit einem einzigen Schritt am Frontend ist nicht möglich. Da zudem die Korrelation in Bildern oder Videos stark lokal konzentriert ist, ist die globale Aufmerksamkeit bedeutungslos und nicht skalierbar.

Auf einer höheren Ebene ist es sinnvoll, eine Selbstaufmerksamkeitsschleife zu verwenden, sobald Features Objekte darstellen: Es sind die Beziehungen und Interaktionen zwischen Objekten, die wichtig sind, nicht ihre Standorte. Diese Hybridarchitektur wurde durch das DETR-System entwickelt, das vom Meta-Forscher Nicolas Carion und Co-Autoren vervollständigt wurde.

Seit dem Aufkommen der DETR-Arbeit sagte Yann LeCun, dass seine Lieblingsarchitektur Faltung/Stride/Pooling auf niedriger Ebene und Selbstaufmerksamkeitsschleife auf hoher Ebene sei.

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Yann LeCun hat es im zweiten Beitrag zusammengefasst: Verwenden Sie Faltung mit Schrittweite oder Pooling auf niedriger Ebene, verwenden Sie Selbstaufmerksamkeitsschleife auf hoher Ebene und verwenden Sie Merkmalsvektoren, um Objekte darzustellen.

Er geht auch davon aus, dass Tesla Fully Self-Driving (FSD) Faltungen (oder komplexere lokale Operatoren) auf niedrigen Ebenen verwendet, kombiniert mit mehr globalen Schleifen auf höheren Ebenen (möglicherweise unter Verwendung von Selbstaufmerksamkeit). Daher ist die Verwendung von Transformers für Patch-Einbettungen auf niedriger Ebene eine völlige Verschwendung.

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Ich schätze, der Erzfeind Musk nutzt immer noch die Faltungsroute.

Xie Senin äußerte auch seine Meinung. Er glaubt, dass ViT für Bilder mit niedriger Auflösung von 224 x 224 sehr gut geeignet ist, aber was ist, wenn die Bildauflösung 1 Million x 1 Million erreicht? Zu diesem Zeitpunkt wird entweder Faltung verwendet oder ViT wird gepatcht und unter Verwendung gemeinsamer Gewichte verarbeitet, was immer noch Faltungscharakter hat.

Daher sagte Xie Senin, dass ihm in diesem Moment klar wurde, dass das Faltungsnetzwerk keine Architektur, sondern eine Denkweise ist.

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Diese Ansicht wird von Yann LeCun anerkannt.

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Google DeepMind-Forscher Lucas Beyer sagte auch, dass er dank der Nullauffüllung herkömmlicher Faltungsnetzwerke sicher ist, dass „Faltungs-ViT“ (anstelle von ViT + Faltung) gut funktionieren wird.

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Es ist absehbar, dass diese Debatte zwischen ViT und CNN so lange andauern wird, bis in Zukunft eine weitere leistungsfähigere Architektur auftaucht.

Das obige ist der detaillierte Inhalt vonYann LeCun: ViT ist langsam und ineffizient. Die Echtzeit-Bildverarbeitung hängt immer noch von der Faltung ab.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1666
14
PHP-Tutorial
1273
29
C#-Tutorial
1253
24
Wie benutze ich die Chrono -Bibliothek in C? Wie benutze ich die Chrono -Bibliothek in C? Apr 28, 2025 pm 10:18 PM

Durch die Verwendung der Chrono -Bibliothek in C können Sie Zeit- und Zeitintervalle genauer steuern. Erkunden wir den Charme dieser Bibliothek. Die Chrono -Bibliothek von C ist Teil der Standardbibliothek, die eine moderne Möglichkeit bietet, mit Zeit- und Zeitintervallen umzugehen. Für Programmierer, die in der Zeit gelitten haben.H und CTime, ist Chrono zweifellos ein Segen. Es verbessert nicht nur die Lesbarkeit und Wartbarkeit des Codes, sondern bietet auch eine höhere Genauigkeit und Flexibilität. Beginnen wir mit den Grundlagen. Die Chrono -Bibliothek enthält hauptsächlich die folgenden Schlüsselkomponenten: std :: chrono :: system_clock: repräsentiert die Systemuhr, mit der die aktuelle Zeit erhalten wird. std :: chron

Wie versteht man DMA -Operationen in C? Wie versteht man DMA -Operationen in C? Apr 28, 2025 pm 10:09 PM

DMA in C bezieht sich auf DirectMemoryAccess, eine direkte Speicherzugriffstechnologie, mit der Hardware -Geräte ohne CPU -Intervention Daten direkt an den Speicher übertragen können. 1) Der DMA -Betrieb ist in hohem Maße von Hardware -Geräten und -Treibern abhängig, und die Implementierungsmethode variiert von System zu System. 2) Direkter Zugriff auf Speicher kann Sicherheitsrisiken mitbringen, und die Richtigkeit und Sicherheit des Codes muss gewährleistet werden. 3) DMA kann die Leistung verbessern, aber eine unsachgemäße Verwendung kann zu einer Verschlechterung der Systemleistung führen. Durch Praxis und Lernen können wir die Fähigkeiten der Verwendung von DMA beherrschen und seine Wirksamkeit in Szenarien wie Hochgeschwindigkeitsdatenübertragung und Echtzeitsignalverarbeitung maximieren.

Wie gehe ich mit einem hohen DPI -Display in C um? Wie gehe ich mit einem hohen DPI -Display in C um? Apr 28, 2025 pm 09:57 PM

Die Handhabung der hohen DPI -Anzeige in C kann in den folgenden Schritten erreicht werden: 1) Verstehen Sie DPI und Skalierung, verwenden Sie die Betriebssystem -API, um DPI -Informationen zu erhalten und die Grafikausgabe anzupassen. 2) Übereinstimmende Kompatibilität verarbeiten, plattformübergreifende Grafikbibliotheken wie SDL oder QT verwenden. 3) Leistungsoptimierung durchführen, die Leistung durch Cache, Hardwarebeschleunigung und dynamische Anpassung der Detail -Ebene verbessern; 4) Lösen Sie gemeinsame Probleme wie verschwommene Text- und Schnittstellenelemente sind zu klein und lösen Sie durch korrektes Anwenden der DPI -Skalierung.

Was ist eine Echtzeit-Betriebssystemprogrammierung in C? Was ist eine Echtzeit-Betriebssystemprogrammierung in C? Apr 28, 2025 pm 10:15 PM

C bietet eine gute Leistung in der Programmierung von Echtzeit-Betriebssystemen (RTOs) und bietet eine effiziente Ausführungseffizienz und ein präzises Zeitmanagement. 1) C entsprechen den Anforderungen von RTOs durch direkten Betrieb von Hardwareressourcen und effizientem Speichermanagement. 2) Mit objektorientierten Funktionen kann C ein flexibles Aufgabenplanungssystem entwerfen. 3) C unterstützt eine effiziente Interrupt-Verarbeitung, aber die dynamische Speicherzuweisung und die Ausnahmeverarbeitung müssen vermieden werden, um Echtzeit zu gewährleisten. 4) Vorlagenprogrammierung und Inline -Funktionen helfen bei der Leistungsoptimierung. 5) In praktischen Anwendungen kann C verwendet werden, um ein effizientes Protokollierungssystem zu implementieren.

Schritte zum Hinzufügen und Löschen von Feldern zu MySQL -Tabellen Schritte zum Hinzufügen und Löschen von Feldern zu MySQL -Tabellen Apr 29, 2025 pm 04:15 PM

Fügen Sie in MySQL Felder mit alterTabletable_nameaddcolumnNew_columnvarchar (255) nach oben nachzusteuern. Beim Hinzufügen von Feldern müssen Sie einen Speicherort angeben, um die Abfrageleistung und die Datenstruktur zu optimieren. Vor dem Löschen von Feldern müssen Sie bestätigen, dass der Betrieb irreversibel ist. Die Änderung der Tabellenstruktur mithilfe von Online-DDL, Sicherungsdaten, Testumgebungen und Zeiträumen mit niedriger Last ist die Leistungsoptimierung und Best Practice.

Wie misst ich die Thread -Leistung in C? Wie misst ich die Thread -Leistung in C? Apr 28, 2025 pm 10:21 PM

Durch die Messung der Thread -Leistung in C kann Timing -Tools, Leistungsanalyse -Tools und benutzerdefinierte Timer in der Standardbibliothek verwendet werden. 1. Verwenden Sie die Bibliothek, um die Ausführungszeit zu messen. 2. Verwenden Sie GPROF für die Leistungsanalyse. Zu den Schritten gehört das Hinzufügen der -PG -Option während der Kompilierung, das Ausführen des Programms, um eine Gmon.out -Datei zu generieren, und das Generieren eines Leistungsberichts. 3. Verwenden Sie das Callgrind -Modul von Valgrind, um eine detailliertere Analyse durchzuführen. Zu den Schritten gehört das Ausführen des Programms zum Generieren der Callgrind.out -Datei und das Anzeigen der Ergebnisse mit KCACHEGRIND. 4. Benutzerdefinierte Timer können die Ausführungszeit eines bestimmten Codesegments flexibel messen. Diese Methoden helfen dabei, die Thread -Leistung vollständig zu verstehen und den Code zu optimieren.

Quantitative Exchange -Ranking 2025 Top 10 Empfehlungen für digitale Währung Quantitative Handels -Apps Quantitative Exchange -Ranking 2025 Top 10 Empfehlungen für digitale Währung Quantitative Handels -Apps Apr 30, 2025 pm 07:24 PM

Zu den integrierten Quantisierungstools am Austausch gehören: 1. Binance: Binance Futures Quantitatives Modul, niedrige Handhabungsgebühren und unterstützt AI-unterstützte Transaktionen. 2. OKX (OUYI): Unterstützt Multi-Account-Management und intelligentes Auftragsrouting und bietet Risikokontrolle auf institutioneller Ebene. Zu den unabhängigen quantitativen Strategieplattformen gehören: 3. 3Commas: Drag & drop-Strategiegenerator, geeignet für Multi-Plattform-Absicherungs-Arbitrage. 4. Viercy: Algorithmus-Strategie-Bibliothek auf professioneller Ebene, unterstützt maßgeschneiderte Risikoschwellen. 5. Pionex: Integrierte 16 voreingestellte Strategie, niedrige Transaktionsgebühr. Zu den vertikalen Domänen-Tools gehören: 6. CryptoHopper: Cloud-basierte quantitative Plattform, die 150 technische Indikatoren unterstützen. 7. Bitsgap:

Wie erreicht die offizielle Website von Deepseek den Effekt des durchdringenden Maus -Scroll -Events? Wie erreicht die offizielle Website von Deepseek den Effekt des durchdringenden Maus -Scroll -Events? Apr 30, 2025 pm 03:21 PM

Wie kann man den Effekt der Penetration des Maus -Scroll -Ereignisses erreichen? Wenn wir im Internet stöbern, begegnen wir oft auf spezielle Interaktionsdesigns. Zum Beispiel auf der offiziellen Website von Deepseek � ...

See all articles