La recherche a été remise en question, Jeff Dean a répondu : Nous n'essayions pas d'obtenir de nouveaux SOTA, et le calcul des coûts était également erroné.-IA-php.cn

Table des matières

Cet article." est une collaboration entre moi et Andrea Gesmundo et Andrea Gesmundo l'a réalisé ensemble, et Andrea Gesmundo a réalisé la majeure partie du travail sur le papier.

Maison

Périphériques technologiques

La recherche a été remise en question, Jeff Dean a répondu : Nous n'essayions pas d'obtenir de nouveaux SOTA, et le calcul des coûts était également erroné.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 04:21 PM

谷歌 ai 论文

Hier, le sujet le plus populaire dans toute la communauté n'était rien d'autre qu'un chercheur en apprentissage automatique sur Reddit remettant en question la participation du leader de l'IA de Google, Jeff Dean, dans l'article. L'article, intitulé « Une approche évolutive de l'introduction dynamique de tâches dans les systèmes d'apprentissage multitâches à grande échelle », a été soumis jeudi à la plateforme de préimpression arXiv. La recherche a été remise en question, Jeff Dean a répondu : Nous nessayions pas dobtenir de nouveaux SOTA, et le calcul des coûts était également erroné.

Dans l'article, Jeff Dean et al. ont proposé un algorithme évolutif capable de générer des modèles multitâches à grande échelle, tout en prenant également en charge l'ajout dynamique et continu de nouvelles tâches. Les modèles multitâches générés sont peu activés et intégrés. routage basé sur les tâches. La nouvelle méthode obtient des résultats compétitifs sur 69 tâches de classification d'images, comme l'obtention d'une nouvelle précision de reconnaissance de 99,43 %, la plus élevée de l'industrie, sur CIFAR-10 pour un modèle formé uniquement sur des données publiques.

La recherche a été remise en question, Jeff Dean a répondu : Nous nessayions pas dobtenir de nouveaux SOTA, et le calcul des coûts était également erroné.

C'est ce nouveau SOTA réalisé sur CIFAR-10 qui a été remis en cause, le SOTA précédent était de 99,40. Elle a déclaré : « Produire ce résultat a nécessité un total de 17 810 heures de base TPU. Si vous ne travaillez pas chez Google, cela signifie que vous devez utiliser un paiement à la demande de 3,22 $/heure et que le modèle formé coûte 57 348 $

Par conséquent. , a-t-elle demandé à son âme : "Jeff Dean a dépensé suffisamment d'argent pour subvenir aux besoins d'une famille de quatre personnes pendant cinq ans, a réalisé une amélioration de 0,03 % par rapport au CIFAR-10 et a créé un nouveau SOTA. Est-ce que tout cela en vaut la peine ?"

Cette question a été repris par de nombreuses personnes sur le terrain. Certains chercheurs ont même déclaré avec pessimisme : « J'ai presque perdu tout intérêt pour l'apprentissage profond. En tant que praticien dans un petit laboratoire, il est fondamentalement impossible de rivaliser avec les géants de la technologie en termes de budget informatique. Il peut également y avoir des préjugés dans l'environnement grand public qui font qu'il est difficile de voir le jour. Cela crée des règles du jeu injustes. " Alors que le sujet continuait de fermenter, Jeff Dean a personnellement répondu sur Reddit. Il a déclaré: "Le but de notre recherche n'est pas d'obtenir un modèle cifar10 de meilleure qualité, et il y a également des problèmes avec la méthode de calcul des coûts de l'auteur original

La recherche a été remise en question, Jeff Dean a répondu : Nous nessayions pas dobtenir de nouveaux SOTA, et le calcul des coûts était également erroné. Texte intégral de la réponse de Jeff Dean

Cet article." est une collaboration entre moi et Andrea Gesmundo et Andrea Gesmundo l'a réalisé ensemble, et Andrea Gesmundo a réalisé la majeure partie du travail sur le papier.

La recherche a été remise en question, Jeff Dean a répondu : Nous nessayions pas dobtenir de nouveaux SOTA, et le calcul des coûts était également erroné. Adresse papier : https://arxiv.org/pdf/2205.12755.pdf

Ce que je veux dire, c'est que le but de cette recherche n'est pas d'obtenir un modèle cifar10 de haute qualité. Cette étude explore plutôt un paramètre qui peut introduire dynamiquement de nouvelles tâches dans un système en cours d'exécution et obtenir avec succès un modèle de haute qualité pour la nouvelle tâche qui réutilisera les représentations des modèles existants et de manière éparse. De nouveaux paramètres sont introduits tout en évitant les problèmes de système multitâches tels que comme un oubli catastrophique ou une migration négative.

Les expériences de cette étude montrent que nous pouvons introduire dynamiquement 69 flux de tâches différents à partir de plusieurs benchmarks de tâches de visualisation indépendants, pour aboutir à un système multitâche capable de produire conjointement des solutions de haute qualité pour toutes ces tâches. Le modèle résultant est peu activé pour une tâche donnée, le système introduisant de moins en moins de nouveaux paramètres pour les nouvelles tâches (voir la figure 2 ci-dessous). Le système multitâche n'a introduit que 1,4 % de nouveaux paramètres pour les tâches incrémentielles à la fin de ce flux de tâches, chaque tâche activant en moyenne 2,3 % du total des paramètres du modèle. Il existe un partage considérable de représentation entre les tâches, et le processus d'évolution aide à déterminer quand cela a du sens et quand de nouveaux paramètres pouvant être entraînés doivent être introduits pour de nouvelles tâches.

La recherche a été remise en question, Jeff Dean a répondu : Nous nessayions pas dobtenir de nouveaux SOTA, et le calcul des coûts était également erroné. Je pense également que l'auteur du message original a mal calculé le coût. L'expérience consistait à former un modèle multitâche pour résoudre conjointement 69 tâches au lieu de former un modèle cifar10. Comme vous pouvez le voir dans le tableau 7 ci-dessous, les calculs utilisés sont un mélange de cœurs TPUv3 et de cœurs TPUv4, de sorte que les heures de cœur ne peuvent pas être simplement calculées car leur prix est différent.

À moins que vous n'ayez une tâche particulièrement urgente et que vous ayez besoin de former rapidement des tâches cifar10+68, en fait, ce type de recherche peut facilement utiliser des ressources avec des prix préemptifs, à savoir 0,97 $/heure TPUv4, 0,60 $/heure TPUv3 (pas ce qu'ils disent The You Le tarif à la demande est de 3,22 $/heure). Selon ces hypothèses, le coût de calcul du cloud public décrit dans le tableau 7 est d'environ 13 960 $ (en utilisant des prix préemptifs de 12 861 heures de puce TPUv4 et 2 474,5 heures de puce TPUv3), soit environ 202 $/tâche.

La recherche a été remise en question, Jeff Dean a répondu : Nous nessayions pas dobtenir de nouveaux SOTA, et le calcul des coûts était également erroné.

Je pense qu'il est important d'avoir des modèles avec des activations clairsemées et d'être capable d'introduire dynamiquement de nouvelles tâches dans les systèmes existants qui peuvent partager des représentations (le cas échéant) et éviter un oubli catastrophique, ces études méritent au moins d'être explorées. Le système présente également l'avantage que de nouvelles tâches peuvent être automatiquement incorporées dans le système sans avoir à être spécifiquement formulées pour cela (c'est ce que fait le processus de recherche évolutive), ce qui semble être une propriété utile d'un système d'apprentissage continu.

Le code de cet article est open source et vous pouvez le vérifier par vous-même.

Adresse du code : https://github.com/google-research/google-research/tree/master/muNet

L'auteur du message original a répondu à Jeff Dean

La recherche a été remise en question, Jeff Dean a répondu : Nous nessayions pas dobtenir de nouveaux SOTA, et le calcul des coûts était également erroné.

Après avoir vu la réponse de Jeff Dean, le message original L'auteur a dit : Pour clarifier, je pense que cet article de Jeff Dean (modèles évolutifs utilisés pour générer une augmentation de modèle dans chaque tâche) est vraiment intéressant, il me rappelle un autre article, mais je ne me souviens plus du titre, l'article parle grossièrement de l'ajout de nouveaux modules à l'ensemble de l'architecture pour chaque nouvelle tâche, en utilisant les états cachés des autres modules dans le cadre de l'entrée de chaque couche, mais sans mettre à jour les poids des composants existants.

J'ai aussi l'idée de construire des modules dans le modèle pour chaque tâche. Savez-vous comment les bébés cerfs peuvent marcher quelques minutes après leur naissance ? En revanche, à cette époque, les faons nouveau-nés ne disposaient pratiquement d'aucune « données d'entraînement » pour apprendre à ressentir le mouvement ou à modéliser le monde, et devaient plutôt exploiter des structures spécialisées dans le cerveau qui devaient être héritées pour que le faon ait des compétences de base. . Ces structures seront très utiles, dans le sens où elles se généraliseront rapidement à une tâche de contrôle nouvelle mais connexe.

Cet article m'a donc fait réfléchir au développement de ces structures héréditaires déjà existantes qui peuvent être utilisées pour apprendre de nouvelles tâches plus efficacement.

Les chercheurs d'un autre laboratoire peuvent avoir la même idée mais obtenir des résultats bien pires car ils ne peuvent pas se permettre de passer de leur configuration existante à une grande plateforme cloud. Et comme la communauté est désormais trop concentrée sur les résultats de SOTA, leurs recherches ne peuvent pas être publiées. Même si le coût n'est « que » de 202 $/tâche, il faut de nombreuses itérations pour bien faire les choses.

Donc, pour ceux d’entre nous qui n’ont pas accès à un gros budget informatique, nous n’avons essentiellement que deux options. La première consiste à prier et à espérer que Google distribuera publiquement le modèle existant et que nous pourrons l'adapter à nos besoins. Mais il s’avère que le modèle a peut-être appris des biais ou des faiblesses contradictoires que nous ne pouvons pas éliminer. La seconde est de ne rien faire et de s'allonger.

Donc, mon problème ne concerne pas seulement cette étude. Si OpenAI veut dépenser des centaines de milliards de dollars (au sens figuré) pour GPT-4, alors donnez-lui plus de pouvoir. Il s’agit d’une culture scientifique et éditoriale qui récompense excessivement le faste, les grands chiffres et le luxe, plutôt que d’aider les gens à s’améliorer dans leur travail réel. Mon article préféré est « Representation Learning with Contrastive Predictive Coding » de van der Oord en 2019, qui utilise une tâche de pré-formation non supervisée, puis une formation supervisée sur un petit sous-ensemble d'étiquettes pour obtenir des résultats de précision étiquetés par réplique, et en discuter. cette amélioration du point de vue de l’efficacité des données. J'ai reproduit et utilisé ces résultats dans mon travail, économisant ainsi du temps et de l'argent. Sur la base de cet article, je suis prêt à devenir son doctorant.

Cependant, OpenAI a proposé un modèle de transformateur plus grand, GPT-3, dans l'article "Language Models are Few-Shot Learners", qui a reçu près de quatre mille citations et le NeurIPS 2020 Best Paper Award, et a également attiré l'attention de l'ensemble des médias.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

4 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

4 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

1 Il y a quelques mois By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7700

Tutoriel Java

1640

Tutoriel CakePHP

1393

Tutoriel Laravel

1287

Tutoriel PHP

1230

Afficher plus

Related knowledge

Prévisions des prix WorldCoin (WLD) 2025-2031: WLD atteindra-t-il 4 $ d'ici 2031? Apr 21, 2025 pm 02:42 PM

WorldCoin (WLD) se démarque sur le marché des crypto-monnaies avec ses mécanismes uniques de vérification biométrique et de protection de la vie privée, attirant l'attention de nombreux investisseurs. WLD a permis de se produire avec remarquablement parmi les Altcoins avec ses technologies innovantes, en particulier en combinaison avec la technologie d'Intelligence artificielle OpenAI. Mais comment les actifs numériques se comporteront-ils au cours des prochaines années? Prédons ensemble le prix futur de WLD. Les prévisions de prix de 2025 WLD devraient atteindre une croissance significative de la WLD en 2025. L'analyse du marché montre que le prix moyen du WLD peut atteindre 1,31 $, avec un maximum de 1,36 $. Cependant, sur un marché baissier, le prix peut tomber à environ 0,55 $. Cette attente de croissance est principalement due à WorldCoin2.

Que signifie la transaction transversale? Quelles sont les transactions transversales? Apr 21, 2025 pm 11:39 PM

Échanges qui prennent en charge les transactions transversales: 1. Binance, 2. UniSwap, 3. Sushiswap, 4. Curve Finance, 5. Thorchain, 6. 1inch Exchange, 7. DLN Trade, ces plateformes prennent en charge les transactions d'actifs multi-chaînes via diverses technologies.

Comment gagner des récompenses de plateaux aériens du noyau sur la stratégie de processus complète de la binance Apr 21, 2025 pm 01:03 PM

Dans le monde animé des crypto-monnaies, de nouvelles opportunités émergent toujours. À l'heure actuelle, l'activité aérienne de Kerneldao (noyau) attire beaucoup l'attention et attire l'attention de nombreux investisseurs. Alors, quelle est l'origine de ce projet? Quels avantages le support BNB peut-il en tirer? Ne vous inquiétez pas, ce qui suit le révélera un par un pour vous.

'Black Monday Sell' est une journée difficile pour l'industrie de la crypto-monnaie Apr 21, 2025 pm 02:48 PM

Le plongeon sur le marché des crypto-monnaies a provoqué la panique parmi les investisseurs, et Dogecoin (Doge) est devenu l'une des zones les plus difficiles. Son prix a fortement chuté et le verrouillage de la valeur totale de la finance décentralisée (DEFI) (TVL) a également connu une baisse significative. La vague de vente de "Black Monday" a balayé le marché des crypto-monnaies, et Dogecoin a été le premier à être touché. Son Defitvl a chuté aux niveaux de 2023 et le prix de la devise a chuté de 23,78% au cours du dernier mois. Le Defitvl de Dogecoin est tombé à un minimum de 2,72 millions de dollars, principalement en raison d'une baisse de 26,37% de l'indice de valeur SOSO. D'autres plates-formes de Defi majeures, telles que le Dao et Thorchain ennuyeux, TVL ont également chuté de 24,04% et 20, respectivement.

Classement des échanges à effet de levier dans le cercle des devises Les dernières recommandations des dix premiers échanges à effet de levier dans le cercle des devises Apr 21, 2025 pm 11:24 PM

Les plates-formes qui ont des performances exceptionnelles dans le commerce, la sécurité et l'expérience utilisateur en effet de levier en 2025 sont: 1. OKX, adaptés aux traders à haute fréquence, fournissant jusqu'à 100 fois l'effet de levier; 2. Binance, adaptée aux commerçants multi-monnaies du monde entier, offrant un effet de levier 125 fois élevé; 3. Gate.io, adapté aux joueurs de dérivés professionnels, fournissant 100 fois l'effet de levier; 4. Bitget, adapté aux novices et aux commerçants sociaux, fournissant jusqu'à 100 fois l'effet de levier; 5. Kraken, adapté aux investisseurs stables, fournissant 5 fois l'effet de levier; 6. BUTBIT, adapté aux explorateurs Altcoin, fournissant 20 fois l'effet de levier; 7. Kucoin, adapté aux commerçants à faible coût, fournissant 10 fois l'effet de levier; 8. Bitfinex, adapté au jeu senior

Aavenomics est une recommandation pour modifier le jeton Aave Protocol et introduire le rachat de jetons, qui a atteint le nombre de personnes quorum. Apr 21, 2025 pm 06:24 PM

Aavenomics est une proposition de modification du jeton de protocole Aave et d'introduire des dépens de jetons, qui a mis en œuvre un quorum pour Aavedao. Marc Zeller, fondateur de l'Aave Project Chain (ACI), l'a annoncé sur X, notant qu'il marque une nouvelle ère pour l'accord. Marc Zeller, fondateur de l'Aave Chain Initiative (ACI), a annoncé sur X que la proposition d'Aavenomics comprend la modification du jeton Aave Protocol et l'introduction de dépens de jetons, a obtenu un quorum pour Aavedao. Selon Zeller, cela marque une nouvelle ère pour l'accord. Les membres d'Aavedao ont voté massivement pour soutenir la proposition, qui était de 100 par semaine mercredi

Les dix premières recommandations de plate-forme gratuites pour les données en temps réel sur les marchés du cercle de devises sont publiées Apr 22, 2025 am 08:12 AM

Les plateformes de données de crypto-monnaie adaptées aux débutants incluent CoinmarketCap et la trompette non à petites choses. 1. CoinmarketCap fournit des classements mondiaux de prix, de valeur marchande et de volume de trading pour les besoins novices et d'analyse de base. 2. La citation non à petites choses fournit une interface adaptée aux Chinois, adaptée aux utilisateurs chinois afin de projeter rapidement des projets potentiels à faible risque.

Comprendre un article: Binance Kernel Airdrop Process Apr 21, 2025 pm 01:09 PM

Dans le monde des crypto-monnaies, de nouvelles opportunités émergent toujours. Récemment, le projet de mégadrop de Kerneldao (Kernel) lancé par Binance a attiré une grande attention. Ce projet apporte non seulement de nouvelles options d'investissement aux investisseurs, mais offre également des avantages uniques aux détenteurs de BNB. Alors, qu'est-ce que Kerneldao? Comment cette platelle aérienne sera-t-elle réalisée? Comprenons-le dans un article.

See all articles