Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw-KI-php.cn

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

王林

Freigeben： 2024-07-16 01:08:30

Original

1144 Leute haben es durchsucht

Unerwarteterweise sind 12 Jahre vergangen, seit die Deep-Learning-Revolution 2012 von AlexNet ins Leben gerufen wurde.

Und jetzt sind auch wir in die Ära der großen Modelle eingetreten.

Kürzlich hat ein Beitrag des bekannten KI-Forschers Andrej Karpathy viele große Köpfe, die an dieser Welle der Deep-Learning-Revolution beteiligt waren, in Erinnerung gerufen. Vom Turing-Preisträger Yann LeCun bis hin zu Ian Goodfellow, dem Vater von GAN, sie alle erinnerten sich an die Vergangenheit.

Dieser Beitrag hat bisher über 630.000 Aufrufe.

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

In dem Beitrag erwähnte Karpathy: Eine interessante Tatsache ist, dass viele Menschen möglicherweise vom ImageNet/AlexNet-Moment im Jahr 2012 und der damit ausgelösten Deep-Learning-Revolution gehört haben. Allerdings wissen vielleicht nur wenige, dass der Code, der den Gewinnerbeitrag dieses Wettbewerbs unterstützt, von Alex Krizhevsky von Grund auf in CUDA/C++ handgeschrieben wurde. Dieses Code-Repository hieß cuda-convnet und wurde damals auf Google Code gehostet:

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

https://code.google.com/archive/p/cuda-convnet/

Karpathy dachte über Google Code, richtig? wurde geschlossen (?), aber er hat auf GitHub einige neue Versionen gefunden, die von anderen Entwicklern basierend auf dem Originalcode erstellt wurden, wie zum Beispiel:

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

https://github.com/ulrichstern/cuda -convnet

„AlexNet ist eines der frühesten berühmten Beispiele für die Verwendung von CUDA für Deep Learning.“ Karpathy erinnerte daran, dass AlexNet gerade aufgrund der Verwendung von CUDA und GPU solch große Datenmengen verarbeiten kann (ImageNet). und bei Bilderkennungsaufgaben großartige Ergebnisse erzielen. „AlexNet verwendet nicht nur einfach GPUs, sondern ist auch ein Multi-GPU-System. AlexNet verwendet beispielsweise eine Technologie namens Modellparallelität, um die Faltungsoperation in zwei Teile zu unterteilen und sie jeweils auf zwei GPUs auszuführen.“ erinnert alle daran, dass Sie wissen müssen, dass wir das Jahr 2012 schreiben! „Im Jahr 2012 (vor etwa 12 Jahren) wurden die meisten Deep-Learning-Forschungen in Matlab durchgeführt, die auf der CPU ausgeführt wurden und kontinuierlich verschiedene Lernalgorithmen, Netzwerkarchitekturen und Optimierungsideen auf Datensätzen auf Spielzeugebene iterierten.“ Aber Alex, Ilya und Geoff, die Autoren von AlexNet, haben etwas völlig anderes gemacht als der damalige Mainstream-Forschungsstil: „Sie sind nicht mehr von Algorithmusdetails besessen, sondern nehmen einfach ein relativ standardmäßiges Faltungs-Neuronales Netzwerk (ConvNet) und machen es sehr groß.“ , an einem großen Datensatz (ImageNet) trainiert und dann das Ganze in CUDA/C++ implementiert.“

Alex Krizhevsky hat den gesamten Code direkt in CUDA und C++ geschrieben, einschließlich Faltung, Pooling und anderen grundlegenden Operationen tiefes Lernen. Dieser Ansatz ist sehr innovativ und anspruchsvoll und erfordert von Programmierern ein tiefgreifendes Verständnis von Algorithmen, Hardwarearchitektur, Programmiersprachen usw.

Die Programmiermethode von Grund auf ist kompliziert und umständlich, kann aber die Leistung maximal optimieren und die Rechenleistung der Hardware voll ausschöpfen. Es ist diese Rückkehr zu den Grundlagen, die ihr eine starke Leistung verleiht Deep Learning und stellt Deep Learning dar. Erfahren Sie mehr über Wendepunkte in der Geschichte.

Das Interessante ist, dass diese Beschreibung bei vielen Menschen Erinnerungen wachrief und jeder nach den Tools suchte, mit denen er vor 2012 Deep-Learning-Projekte umgesetzt hatte. Alfredo Canziani, Professor für Informatik an der New York University, nutzte damals Torch: „Ich habe noch nie von jemandem gehört, der Matlab für Deep-Learning-Forschung nutzte …“

Yann Lecun stimmt zu, dass der Großteil des wichtigen Deep Learning im Jahr 2012 mit Torch und Theano durchgeführt wurde.

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

Karpathy war anderer Ansicht. Er fügte hinzu, dass die meisten Projekte Matlab verwenden und er Theano in den Jahren 2013-2014 nie verwendet habe.

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

Einige Internetnutzer enthüllten auch, dass Hinton auch Matlab verwendet.

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

Es scheint, dass es zu dieser Zeit nicht viele Leute gab, die Matlab verwendeten:

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

Der bekannte Vater von GAN, Ian Goodfellow, erschien ebenfalls und sagte, dass Yoshuas Labor zu dieser Zeit Theano He verwendete sagte auch, dass er vor der Veröffentlichung von ImageNet das Theano-Bundle für Alex' cuda-convnet geschrieben hatte.

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

Douglas Eck, Direktor von Google DeepMind, erschien und sagte, dass er nicht Matlab, sondern C++ verwendet und dann auf Python/Theano umgestiegen sei.

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

Professor der New York University, Kyunghyun Cho, sagte, dass er 2010, als er sich noch auf der anderen Seite des Atlantiks befand, die CUV-Bibliothek von Hannes SChulz und anderen nutzte, was ihm beim Wechsel von Matlab zu Python half.

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

Lamini-Mitbegründer Gregory Diamos sagte, dass das Papier, das ihn überzeugte, das Papier „Deep Learning with COTS HPC Systems“ von Andrew Ng et al. war.

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

Das Papier zeigt, dass ein Frankenstein-CUDA-Cluster einen MapReduce-Cluster mit 10.000 CPUs schlagen kann.

Als Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw

Link zum Papier: https://proceedings.mlr.press/v28/coates13.pdf

Der große Erfolg von AlexNet war jedoch kein isoliertes Ereignis, sondern ein Mikrokosmos des Entwicklungstrends des damals das gesamte Feld. Einige Forscher haben erkannt, dass Deep Learning einen größeren Umfang und eine stärkere Rechenleistung erfordert, und GPU ist eine vielversprechende Richtung. Karpathy schrieb: „Natürlich gab es bereits vor dem Aufkommen von AlexNet einige Anzeichen einer Skalierung. Beispielsweise hat Matlab begonnen, GPUs in Andrew Ngs Labor an der Stanford University zu unterstützen.“ bewegt sich in Richtung GPUs. Es gibt auch einige andere parallele Bemühungen in Richtung groß angelegtes Deep Learning.“ interessantes Gefühl. Es scheint, als wäre ich in die Ära von AlexNet und die Ära von cuda-convnet zurückgekehrt von AlexNet wechselte von Matlab zu CUDA/C++, um eine höhere Leistung und einen größeren Maßstab anzustreben. Obwohl mittlerweile High-Level-Frameworks verfügbar sind, müssen Sie, wenn sie nicht ohne weiteres eine extreme Leistung erreichen können, immer noch ganz nach unten gehen und selbst CUDA/C++-Code schreiben.

Was nutzten einheimische Forscher übrigens damals? Gerne können Sie eine Nachricht zur Diskussion hinterlassen.

Das obige ist der detaillierte Inhalt vonAls Karpathy vor 12 Jahren mit Deep Learning begann, löste er eine Welle von Erinnerungen an die AlexNet-Ära aus, und am Ende waren es LeCun, Goodfellow usw. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!