


Pré-formation sans attention ; apprentissage en contexte piloté par GPT
Papier 1 : ClimateNeRF : Rendu neuronal basé sur la physique pour la synthèse climatique extrême
- Auteur : Yuan Li et al
- Adresse du papier : https://arxiv.org/pdf/2211.13226 . pdf
Résumé : Cet article présente une nouvelle méthode de fusion de simulations physiques avec des modèles NeRF de scènes pour générer des films réalistes des phénomènes physiques dans ces scènes. En termes de résultats concrets, la méthode peut simuler de manière réaliste les effets possibles du changement climatique : à quoi ressemblerait un terrain de jeu après une inondation à petite échelle ? Et après le grand déluge ? Et après le blizzard ?
Recommandation : Brumeux, hivernal et inondé en une seconde, le nouveau modèle NeRF restitue des superproductions physiques réalistes.
Passage 2 : Pré-entraînement sans attention
- Auteur : Junxiong Wang et al
- Adresse du papier : https://arxiv.org/pdf/2212.10544.pdf
Résumé : Cet article propose un modèle SSM bidirectionnel (BiGS), qui combine la couche de routage basée sur le modèle spatial d'état (SSM) et l'architecture de modèle basée sur une porte de multiplication, qui peut reproduire les résultats de pré-formation BERT. sans faire attention, et peut être étendu à un pré-entraînement à longue portée de 4096 jetons sans avoir besoin d'approximation.
Recommandation : La pré-formation ne nécessite aucune attention et la mise à l'échelle jusqu'à 4096 jetons n'est pas un problème, comparable au BERT.
Article 3 : Un modèle pour les éditer tous : Manipulation d'images pilotées par texte de forme libre avec modulations sémantiques
- Auteur : Yiming Zhu et al
- Adresse de l'article : https : / /arxiv.org/pdf/2210.07883.pdf
Résumé : Récemment, l'utilisation de texte pour guider l'édition d'images a fait l'objet de grands progrès et d'une grande attention, notamment sur la base de modèles de diffusion débruitants tels que StableDiffusion ou DALLE. Cependant, l'édition texte-image basée sur le GAN présente encore quelques problèmes qui attendent d'être résolus. Par exemple, dans le StyleCILP classique, un modèle doit être formé pour chaque texte. Cette approche de texte unique à modèle unique n'est pas pratique en pratique. candidatures.
Cet article propose FFCLIP et résout ce problème. Pour des saisies de texte différentes et flexibles, FFCLIP n'a besoin que d'un seul modèle pour éditer l'image en conséquence, sans avoir besoin de recycler le modèle pour chaque texte, et sur plusieurs ensembles de données. Tout a été très bien réalisé. résultats. Cet article a été accepté par NeurIPS 2022.
Recommandé : Un nouveau paradigme pour l'édition de texte et d'images, un modèle unique réalise l'édition d'images guidées multi-textes.
Papier 4 : AUTO-INSTRUCTION : Aligner le modèle de langage avec les instructions auto-générées
- Auteur : Yizhong Wang et al
- Adresse du papier : https://arxiv.org/pdf / 2212.10560v1.pdf
Résumé : L'Université de Washington et d'autres institutions ont récemment publié conjointement un article proposant un nouveau cadre SELF-INSTRUCT qui améliore la conformité aux instructions des modèles de langage pré-entraînés en guidant le modèle. propre capacité de processus de génération. SELF-INSTRUCT est un processus semi-automatique qui effectue le réglage des instructions sur un LM pré-entraîné en utilisant les signaux d'instruction du modèle lui-même.
Recommandé : Pas besoin d'annotation manuelle, le cadre d'instructions auto-généré élimine le goulot d'étranglement des coûts des LLM tels que ChatGPT. I Article 5 : Calcul AB Initio de solides réels via le réseau neuronal Ansatz
Auteur : xiang Li et autres
- Adresse de l'article : https://www.nature com/articles. /s41467-022-35627-1
- Résumé : L'apprentissage automatique peut traiter des données massives, résoudre des problèmes scientifiques dans des scénarios complexes et mener l'exploration scientifique vers de nouveaux domaines qui étaient inaccessibles dans le passé. Par exemple, DeepMind utilise le logiciel d'intelligence artificielle AlphaFold pour faire des prédictions très précises de presque toutes les structures protéiques connues de la communauté scientifique ; la méthode de vélocimétrie par image de particules (PIV) basée sur l'apprentissage profond proposée par Christian Lagemann a grandement amélioré le réglage original purement manuel. de paramètres. Le champ d’application du modèle revêt une importance vitale pour la recherche dans de nombreux domaines tels que l’automobile, l’aérospatiale et le génie biomédical.
Récemment, le travail "Calcul ab initio de solides réels via un réseau neuronal ansatz" de l'équipe de recherche du ByteDance AI Lab et du groupe de recherche de Chen Ji à l'École de physique de l'Université de Pékin a donné une nouvelle idée pour étudier la physique de la matière condensée. proposé Développement de la première fonction d'onde de réseau neuronal de l'industrie adaptée aux systèmes solides, réalisation de calculs de principes fondamentaux pour les solides et poussée des résultats de calcul jusqu'à la limite thermodynamique. Cela prouve clairement que les réseaux de neurones sont des outils efficaces pour étudier la physique du solide, et indique également que la technologie d’apprentissage profond jouera un rôle de plus en plus important dans la physique de la matière condensée. Les résultats de recherche pertinents ont été publiés dans la principale revue internationale Nature Communication le 22 décembre 2022.
Recommandé : La première fonction d'onde de réseau neuronal de l'industrie adaptée aux systèmes solides a été publiée dans une sous-revue Nature.
Papier 6 : Pourquoi GPT peut-il apprendre en contexte ? Les modèles de langage effectuent secrètement une descente de gradient en tant que méta-optimiseurs
Auteur : Damai Dai et al
- Adresse du papier : https : / /arxiv.org/pdf/2212.10559v2.pdf
- Résumé : L'apprentissage en contexte (ICL) a obtenu un grand succès sur de grands modèles de langage pré-entraînés, mais son mécanisme de fonctionnement reste une question ouverte question. Dans cet article, des chercheurs de l'Université de Pékin, de l'Université Tsinghua et de Microsoft comprennent l'ICL comme une sorte de réglage fin implicite et fournissent des preuves empiriques pour prouver que l'ICL et le réglage précis explicite fonctionnent de la même manière à plusieurs niveaux.
Recommandé : Pourquoi l'apprentissage en contexte, piloté par GPT, fonctionne-t-il ? Le modèle effectue une descente de gradient en secret.
Article 7 : Indications expérimentales des fonctions cérébrales non classiques
Auteur : Christian Matthias Kerskens et al
- Adresse de l'article : https://iopscience.iop.org/article / 10.1088/2399-6528/ac94be
- Résumé : Depuis des décennies, les scientifiques explorent les mécanismes informatiques et de réflexion du cerveau humain. Cependant, la structure du cerveau humain est trop complexe, contenant des dizaines de milliards de neurones, l'équivalent de milliards de puces, il nous est donc difficile de la découvrir. Roger Penrose, qui a remporté le prix Nobel de physique pour sa contribution à l'étude des trous noirs, a un jour proposé avec audace l'idée de « conscience quantique », c'est-à-dire que le cerveau humain lui-même est une structure quantique, ou un ordinateur quantique. Mais ce point de vue a été remis en question.
Une étude récente de la Trinity University de Dublin suggère que notre cerveau effectue des calculs quantiques, arguant qu'il existe un enchevêtrement dans le cerveau humain médié par les fonctions cérébrales liées à la conscience. Si ces fonctions cérébrales doivent fonctionner de manière non classique, cela signifie que la conscience n'est pas classique, c'est-à-dire que les processus cognitifs du cerveau impliquent des calculs quantiques.
Recommandation : Il existe de nouvelles preuves de cette spéculation selon laquelle la pensée du cerveau est l’informatique quantique.
Radio hebdomadaire ArXiv
Heart of Machine coopère avec la radio hebdomadaire ArXiv initiée par Chu Hang et Luo Ruotian pour sélectionner cette semaine des articles plus importants sur la base de 7 articles, dont 10 articles sélectionnés dans les domaines de la PNL, du CV et du ML, et fournit le format audio Le résumé de l'article, les détails sont les suivants :
10 NLP PapersAudio : 00:0020:18
10 articles en vedette sur la PNL semaine Oui :
1. L'induction grammaticale non supervisée a-t-elle besoin de pixels ?. (de Serge Belongie, Kilian Q. Weinberger, Jitendra Malik, Trevor Darrell)
2. Zero -Shot Debiasing. (de Bernhard Schölkopf)
3. Lutter contre l'ambiguïté avec des images : traduction automatique multimodale améliorée et évaluation contrastée (de Cordelia Schmid, Ivan Laptev)
4. Vision - Alignement des relations linguistiques (de Ruslan Salakhutdinov, Louis-Philippe Morency)
5 Sur l'utilisation de données parallèles pour l'estimation de la qualité de la traduction)
6. - Comme l'évaluation pour la génération de langage naturel avec analyse d'erreurs. (de Dacheng Tao)
7. Les modèles de dialogue orientés tâches actuels peuvent-ils automatiser des scénarios du monde réel dans la nature ? (de Kyunghyun Cho)
8. Sur les angles morts des mesures d'évaluation basées sur un modèle pour la génération de texte. (de Kyunghyun Cho)
9. Au-delà de l'apprentissage contrastif : un modèle génératif variationnel pour la récupération multilingue (de William W. Cohen)
10. L'impact des représentations symboliques sur l'apprentissage en contexte pour le raisonnement à quelques coups (de Li Erran Li, Eric Xing)
10 CV PapersAudio :00:0023:15
Les 10 articles de CV sélectionnés cette semaine sont :
1 Revisiter les réseaux résiduels pour la robustesse adverse : une perspective architecturale (de Kalyanmoy Deb)
2. Relations spatiales dans la génération de texte en image. (d'Eric Horvitz)
3. Une brève enquête sur la reconnaissance des personnes à distance (de Rama Chellappa)
4. Rama Chellappa) Leonidas Guibas, William T. Freeman)
5. L'alias est un moteur d'attaques contradictoires (d'Antonio Torralba)
6. . Hi- LASSIE : Découverte de formes articulées et de squelettes haute fidélité à partir de Sparse Image Ensemble (de Ming-Hsuan Yang)
8. Augmentation de points au niveau de l'objet d'apprentissage pour la détection d'objets 3D semi-supervisée. Yang)
9. Libérer la puissance de l'invite visuelle au niveau des pixels (d'Alan Yuille)
.10. Des images aux invites textuelles : VQA Zero-shot avec de grands modèles de langage gelés. (de Dacheng Tao, Steven C.H. Hoi)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,
