Ist es im Zeitalter der Transformer-Vereinigung immer noch notwendig, die CNN-Richtung der Computer Vision zu untersuchen?
Anfang dieses Jahres machte das große Videomodell Sora von OpenAI die Vision Transformer (ViT)-Architektur populär. Seitdem gibt es eine anhaltende Debatte darüber, wer leistungsfähiger ist: ViT oder traditionelle Faltungs-Neuronale Netze (CNN).
Kürzlich beteiligte sich auch Turing-Preisträger Yann LeCun, Chefwissenschaftler von Meta, der in den sozialen Medien aktiv war, an der Diskussion über den Streit zwischen ViT und CNN.
Die Ursache für diesen Vorfall war, dass Harald Schäfer, CTO von Comma.ai, seine neuesten Forschungsergebnisse vorstellte. Er (wie viele neuere KI-Wissenschaftler) verweist auf Yann LeCuns Aussage, dass, obwohl der Turing-Award-Tycoon glaubt, dass reines ViT nicht praktikabel ist, wir unseren Kompressor kürzlich auf reines ViT umgestellt haben Die Wirkung ist sehr gut.
Zum Beispiel ist das Bild links auf nur 224 Bytes komprimiert und rechts ist das Originalbild.
ist nur 14×128, was für ein Weltmodell für autonomes Fahren sehr groß ist, was bedeutet, dass eine große Datenmenge für das Training eingegeben werden kann. Die Schulung in einer virtuellen Umgebung ist kostengünstiger als in einer realen Umgebung, in der Agenten gemäß den Richtlinien geschult werden müssen, damit sie ordnungsgemäß arbeiten können. Höhere Auflösungen für virtuelles Training funktionieren besser, allerdings wird der Simulator sehr langsam, sodass derzeit eine Komprimierung erforderlich ist.
Seine Demonstration löste Diskussionen im KI-Kreis aus und Eric Jang, Vizepräsident für künstliche Intelligenz bei 1X, antwortete, dass die Ergebnisse erstaunlich seien.
Harald lobte weiterhin ViT: Das ist eine sehr schöne Architektur.
Jemand begann hier Anstoß zu nehmen: Meister wie LeCun schaffen es manchmal nicht, mit dem Innovationstempo Schritt zu halten.
Yann LeCun reagierte jedoch schnell und argumentierte, dass er nicht sage, dass ViT nicht praktikabel sei und dass es jetzt von allen genutzt werde. Er möchte damit zum Ausdruck bringen, dass ViT zu langsam und ineffizient ist und daher für die Echtzeitverarbeitung hochauflösender Bild- und Videoaufgaben ungeeignet ist.
Yann LeCun und Cue Xie Saining, ein Assistenzprofessor an der New York University, dessen Arbeit ConvNext bewiesen hat, dass CNN genauso gut sein kann wie ViT, wenn die Methode richtig ist.
Er fährt fort, dass man mindestens ein paar Faltungsschichten mit Pooling und Schritten braucht, bevor man sich an eine Selbstaufmerksamkeitsschleife hält.
Wenn Selbstaufmerksamkeit gleichbedeutend mit Permutation ist, macht dies für die Bild- oder Videoverarbeitung auf niedriger Ebene überhaupt keinen Sinn, und auch die Patchifizierung mit einem einzigen Schritt am Frontend ist nicht möglich. Da zudem die Korrelation in Bildern oder Videos stark lokal konzentriert ist, ist die globale Aufmerksamkeit bedeutungslos und nicht skalierbar.
Auf einer höheren Ebene ist es sinnvoll, eine Selbstaufmerksamkeitsschleife zu verwenden, sobald Features Objekte darstellen: Es sind die Beziehungen und Interaktionen zwischen Objekten, die wichtig sind, nicht ihre Standorte. Diese Hybridarchitektur wurde durch das DETR-System entwickelt, das vom Meta-Forscher Nicolas Carion und Co-Autoren vervollständigt wurde.
Seit dem Aufkommen der DETR-Arbeit sagte Yann LeCun, dass seine Lieblingsarchitektur Faltung/Stride/Pooling auf niedriger Ebene und Selbstaufmerksamkeitsschleife auf hoher Ebene sei.
Yann LeCun hat es im zweiten Beitrag zusammengefasst: Verwenden Sie Faltung mit Schrittweite oder Pooling auf niedriger Ebene, verwenden Sie Selbstaufmerksamkeitsschleife auf hoher Ebene und verwenden Sie Merkmalsvektoren, um Objekte darzustellen.
Er geht auch davon aus, dass Tesla Fully Self-Driving (FSD) Faltungen (oder komplexere lokale Operatoren) auf niedrigen Ebenen verwendet, kombiniert mit mehr globalen Schleifen auf höheren Ebenen (möglicherweise unter Verwendung von Selbstaufmerksamkeit). Daher ist die Verwendung von Transformers für Patch-Einbettungen auf niedriger Ebene eine völlige Verschwendung.
Ich schätze, der Erzfeind Musk nutzt immer noch die Faltungsroute.
Xie Senin äußerte auch seine Meinung. Er glaubt, dass ViT für Bilder mit niedriger Auflösung von 224 x 224 sehr gut geeignet ist, aber was ist, wenn die Bildauflösung 1 Million x 1 Million erreicht? Zu diesem Zeitpunkt wird entweder Faltung verwendet oder ViT wird gepatcht und unter Verwendung gemeinsamer Gewichte verarbeitet, was immer noch Faltungscharakter hat.
Daher sagte Xie Senin, dass ihm in diesem Moment klar wurde, dass das Faltungsnetzwerk keine Architektur, sondern eine Denkweise ist.
Diese Ansicht wird von Yann LeCun anerkannt.
Google DeepMind-Forscher Lucas Beyer sagte auch, dass er dank der Nullauffüllung herkömmlicher Faltungsnetzwerke sicher ist, dass „Faltungs-ViT“ (anstelle von ViT + Faltung) gut funktionieren wird.
Es ist absehbar, dass diese Debatte zwischen ViT und CNN so lange andauern wird, bis in Zukunft eine weitere leistungsfähigere Architektur auftaucht.
Das obige ist der detaillierte Inhalt vonYann LeCun: ViT ist langsam und ineffizient. Die Echtzeit-Bildverarbeitung hängt immer noch von der Faltung ab.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!