Eine aktuelle Studie von Meta AI und der Universität Amsterdam hat gezeigt, dass Transformatoren, eine beliebte neuronale Netzwerkarchitektur, direkt auf einzelne Pixel eines Bildes einwirken können, ohne auf die lokale induktive Vorspannung angewiesen zu sein, die in den meisten modernen Computer-Vision-Modellen vorhanden ist.
Meta AI und Forscher der Universität Amsterdam haben gezeigt, dass Transformatoren, eine beliebte neuronale Netzwerkarchitektur, direkt auf einzelne Pixel eines Bildes einwirken können, ohne sich auf die in den meisten modernen Computer-Vision-Modellen vorhandene lokale induktive Vorspannung zu verlassen.
Ihre Die Studie mit dem Titel „Transformers on Individual Pixels“ stellt die lang gehegte Annahme in Frage, dass Lokalität – die Vorstellung, dass benachbarte Pixel mehr miteinander verbunden sind als entfernte – eine Grundvoraussetzung für Sehaufgaben ist.
Traditionell werden Computer-Vision-Architekturen wie Convolutional Neural Networks verwendet (ConvNets) und Vision Transformers (ViTs) haben Lokalitätsverzerrungen durch Techniken wie Faltungskerne, Pooling-Operationen und Patchifizierung berücksichtigt, wobei davon ausgegangen wird, dass benachbarte Pixel stärker miteinander verbunden sind.
Im Gegensatz dazu führten die Forscher Pixel Transformers (PiTs) ein, die jedes einzelne Pixel behandeln Pixel als einzelnes Token, wodurch alle Annahmen über die 2D-Rasterstruktur von Bildern beseitigt werden. Überraschenderweise erzielten PiTs bei verschiedenen Aufgaben hochleistungsfähige Ergebnisse.
Als PiTs beispielsweise auf Bilderzeugungsaufgaben unter Verwendung latenter Token-Räume von VQGAN angewendet wurden, übertrafen sie ihre ortsbezogenen Gegenstücke bei Qualitätsmetriken wie Fréchet Inception Distance (FID) und Inception Score (IS).
Während PiTs, die nach dem Vorbild von Perceiver IO Transformers arbeiten, aufgrund längerer Sequenzen rechenintensiv sein können, stellen sie die Notwendigkeit einer Lokalitätsverzerrung in Visionsmodellen in Frage. Da Fortschritte bei der Handhabung großer Sequenzlängen gemacht werden, könnten PiTs praktischer werden.
Die Studie unterstreicht letztendlich die potenziellen Vorteile der Reduzierung induktiver Verzerrungen in neuronalen Architekturen, die zu vielseitigeren und leistungsfähigeren Systemen für verschiedene Sehaufgaben und Datenmodalitäten führen könnten.
Nachrichtenquelle: https://www.kdj.com/cryptocurrencies-news/articles/pixel-transformers-pits-challenge-locality-bias-vision-models.html
Das obige ist der detaillierte Inhalt vonPixeltransformatoren (PiTs) stellen die Notwendigkeit einer Lokalitätsverzerrung in Visionsmodellen in Frage. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!