localisation actuelle:Maison > Articles techniques > Périphériques technologiques > IA
- Direction:
- tous web3.0 développement back-end interface Web base de données Opération et maintenance outils de développement cadre php programmation quotidienne Applet WeChat Problème commun autre technologie Tutoriel CMS Java Tutoriel système tutoriels informatiques Tutoriel matériel Tutoriel mobile Tutoriel logiciel Tutoriel de jeu mobile
- Classer:
-
- Falcon revient après un an ! 11 milliards de paramètres et 5,5 billions de jetons, des performances dépassant celles de Llama 3
- Ces derniers jours, l'attention du monde semble avoir été attirée par GPT-4o publié par OpenAI. Dans le même temps, les challengers d'OpenAI entrent également dans l'histoire. Le 14 mai dernier, le Technology Innovation Institute (TII) du Conseil de recherche en technologies avancées d'Abu Dhabi (ATRC) a lancé une nouvelle génération de modèle Falcon2. Falcon211B a ouvert l'accès. Falcon211BVLM ouvrira la nouvelle génération "Falcon" (Falcon signifie Falcon) à midi le 14 mai pour revenir dans l'arène. Une fois lancé, il est rapidement arrivé en tête de la liste chaude de HN. L'année dernière, Falcon a choqué tout le monde lors de son premier lancement, surpassant Llama avec un avantage écrasant. D'après HuggingFace
- IA 1174 2024-06-09 17:25:31
-
- Le PDG d'OpenAI a répondu à 'l'accord silencieux', le différend concernait toujours les participations, Ultraman : C'est ma faute
- Depuis la démission d'Ilya et de Jan, le responsable du super alignement, OpenAI est toujours désemparé, et de plus en plus de personnes ont démissionné, ce qui a également provoqué davantage de conflits. Hier, la controverse s'est concentrée sur un « accord de silence » strict. Kelsey Piper, ancienne employée d'OpenAI, a annoncé que les instructions du document d'intégration de tout employé incluent : "Dans les soixante jours suivant votre départ de l'entreprise, vous devez signer un document de séparation contenant une "exemption générale". Si vous ne le complétez pas dans les 60 jours, vos capitaux propres les avantages seront annulés. » La capture d'écran du document qui a provoqué la controverse a incité le PDG d'OpenAI à réagir rapidement : nous n'avons jamais récupéré les droits acquis de quiconque si les gens ne signent pas l'accord de séparation (ou n'acceptent pas l'accord de non-dénigrement). ,
- IA 953 2024-06-09 17:07:32
-
- L'Université Tsinghua, Huawei et d'autres ont proposé iVideoGPT : spécialisé dans les modèles mondiaux interactifs
- iVideoGPT répond aux besoins élevés d'interactivité des modèles mondiaux. Les modèles génératifs ont fait des progrès significatifs ces dernières années, la génération vidéo devenant une nouvelle frontière. Une application importante de ces modèles vidéo génératifs consiste à apprendre de manière non supervisée sur diverses données à l’échelle d’Internet pour créer des modèles mondiaux prédictifs. Ces modèles mondiaux devraient accumuler des connaissances de bon sens sur le fonctionnement du monde, permettant ainsi de prédire les résultats futurs potentiels en fonction du comportement des agents. En tirant parti de ces modèles mondiaux, les agents utilisant l'apprentissage par renforcement peuvent imaginer, raisonner et planifier au sein du modèle mondial, acquérant ainsi de nouvelles compétences de manière plus sûre et plus efficace dans le monde réel avec une petite quantité d'expérimentation. Bien que les modèles génératifs soient fondamentalement liés aux modèles mondiaux, ils sont
- IA 950 2024-06-09 17:06:01
-
- Nouveau travail de Bengio et al. : L'attention peut être considérée comme RNN Le nouveau modèle est comparable à Transformer, mais économise beaucoup de mémoire.
- Les progrès en matière de modélisation de séquences ont eu un impact extrêmement important car ils jouent un rôle important dans un large éventail d'applications, notamment l'apprentissage par renforcement (par exemple, la robotique et la conduite autonome), la classification de séries chronologiques (par exemple, la détection de fraude financière et le diagnostic médical), etc. Au cours des dernières années, l'émergence de Transformer a marqué une avancée majeure dans la modélisation de séquences, principalement due au fait que Transformer fournit une architecture hautes performances capable de tirer parti du traitement parallèle GPU. Cependant, Transformer a une charge de calcul élevée lors de l'inférence, principalement en raison de l'expansion quadratique de la mémoire et des exigences informatiques, limitant ainsi son application dans des environnements à faibles ressources (par exemple, les appareils mobiles et embarqués). Bien que des technologies telles que la mise en cache KV puissent être utilisées pour améliorer l'efficacité de l'inférence,
- IA 687 2024-06-09 16:50:32
-
- Tenant de la gaze et saisissant des aiguilles, NVIDIA coopère avec de nombreuses universités pour développer des robots chirurgicaux
- Editeur | NVIDIA s'est associé à des chercheurs de l'Université de Toronto, de l'Université de Californie à Berkeley, de l'ETH Zurich et du Georgia Institute of Technology pour développer ORBIT-Surgical, un cadre de simulation pour la formation de robots capable d'améliorer les compétences des équipes techniques tout en réduisant les charge cognitive des chirurgiens. ORBIT-Surgical est un cadre de simulation basé sur l'intelligence artificielle qui permet une simulation chirurgicale très réaliste grâce à un environnement chirurgical virtuel et un système de coaching intelligent. Les médecins peuvent interagir avec ce système pour simuler les différentes situations et complexités d’interventions chirurgicales réelles. Cette technologie de simulation peut non seulement aider à former les patients subissant une chirurgie laparoscopique (également
- IA 566 2024-06-09 13:23:16
-
- CLIP est sélectionné comme CVPR lorsqu'il est utilisé comme RNN : il peut segmenter d'innombrables concepts sans formation | Université d'Oxford et recherche Google |
- CLIP est appelé de manière cyclique pour segmenter efficacement d'innombrables concepts sans formation supplémentaire. Toute expression comprenant des personnages de films, des monuments, des marques et des catégories générales. Ce nouveau résultat de l'équipe conjointe de l'Université d'Oxford et de Google Research a été accepté par CVPR2024 et le code est open source. L'équipe a proposé une nouvelle technologie appelée CLIPasRNN (CaR en abrégé), qui résout plusieurs problèmes clés dans le domaine de la segmentation d'images à vocabulaire ouvert : Aucune donnée de formation n'est requise : les méthodes traditionnelles nécessitent un grand nombre d'annotations de masque ou d'ensembles de données image-texte pour affiner -tuning, CaR La technologie fonctionne sans aucune donnée d'entraînement supplémentaire. Limitations du vocabulaire ouvert : les modèles de langage visuel (VLM) pré-entraînés sont limités dans leur capacité à gérer des vocabulaires ouverts après un réglage fin. C
- IA 530 2024-06-09 12:53:28
-
- Prend en charge la synthèse de vidéos haute définition d'une minute. Huake et al. ont proposé un nouveau cadre pour la génération de vidéos de danse humaine, UniAnimate.
- La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com La génération de vidéos de danse humaine est une tâche de synthèse vidéo contrôlable convaincante et stimulante, visant à générer des images réalistes de haute qualité basées sur des images de référence d'entrée et des séquences de poses cibles. Avec le développement rapide de la technologie de génération vidéo, notamment l'évolution itérative des modèles de génération,
- IA 1120 2024-06-09 11:10:58
-
- Un algorithme de contrôle plus soyeux que PID et Carnegie Mellon University
- L'algorithme de contrôle MPC, nom complet ModelPredictiveControl (Model Predictive Control), est une technologie de contrôle basée sur un modèle dynamique du système. Il fonctionne en prédisant le comportement futur du système grâce à des modèles mathématiques et en optimisant les entrées de contrôle du système en fonction de ces prédictions pour obtenir le résultat souhaité. L'idée principale de l'algorithme de contrôle MPC est d'obtenir la meilleure entrée de contrôle en optimisant les résultats de prédiction pour une période de temps future dans chaque cycle de contrôle. Cette optimisation est basée sur certains résultats de prédiction pour optimiser l'entrée de contrôle du système afin d'obtenir le résultat souhaité. L'algorithme de contrôle MPC est largement utilisé et convient particulièrement aux systèmes de contrôle qui doivent satisfaire certaines contraintes. En combinant modèles de système et techniques d'optimisation, MP
- IA 880 2024-06-09 09:57:28
-
- Le scandale des bombardements met en colère le directeur du Stanford AI Lab ! Deux membres de l'équipe de plagiat ont été blâmés et une personne a disparu, et son casier judiciaire a été dévoilé. Net-citoyens : re-comprendre le modèle open source chinois.
- L'incident de l'équipe de Stanford plagiant un grand modèle de l'Université Tsinghua est survenu plus tard - l'équipe Llama3-V a admis le plagiat, et deux des étudiants de premier cycle de Stanford se sont même coupés d'un autre auteur. Les derniers tweets d’excuses ont été envoyés par SiddharthSharma et AkshGarg. Parmi eux, Mustafa Aljadery (Lao Mu en abrégé) de l'Université de Californie du Sud est accusé d'être le principal responsable de la faute et il a disparu depuis hier : Nous espérons que Lao Mu fera la première déclaration, mais nous avons été impossible de le contacter depuis hier. Siddharth, moi-même (Akshi) et Lao Mu avons sorti Llama3-V, et Lao Mu a écrit le code du projet. Siddharth et mon rôle est de l'aider à démarrer sur Medium et T
- IA 1354 2024-06-09 09:38:08
-
- De nouveau intercepté par OpenAI, Google a lancé un modèle de langage visuel open source : PaliGemma
- Préface Ce modèle combine le modèle visuel SigLIP et le modèle de langage Gemma, qui sont tous deux des composants ouverts, ce qui rend PaliGemma excellent dans le traitement des tâches combinant vision et langage. Les scénarios d'utilisation de PaliGemma incluent des sous-titres d'images, des balises d'image et des réponses visuelles aux questions. Ces scénarios d'application tirent parti de la capacité de PaliGemma à comprendre le contenu des images et à en extraire les caractéristiques clés, puis à convertir ces informations en sortie linguistique pour permettre l'interaction avec les utilisateurs ou la génération automatisée de contenu. Cette flexibilité rend PaliGemma adapté non seulement aux environnements de recherche et développement, mais également aux applications commerciales telles que le service client, les systèmes de recommandation de contenu, etc. Images Que peut faire PaliGemma ? Les images peuvent être utilisées lorsque vous y êtes invité.
- IA 685 2024-06-09 09:17:06
-
- Combat réel LightGBM + réglage des paramètres de recherche aléatoire : taux de précision 96,67 %
- Bonjour à tous, je m'appelle Peter~LightGBM est un algorithme d'apprentissage automatique classique. Son contexte, ses principes et ses caractéristiques méritent d'être étudiés. L'algorithme de LightGBM offre des fonctionnalités telles que l'efficacité, l'évolutivité et une grande précision. Cet article présentera brièvement les caractéristiques et principes de LightGBM ainsi que quelques cas basés sur LightGBM et l'optimisation de la recherche aléatoire. Algorithme LightGBM Dans le domaine de l'apprentissage automatique, les machines à amplification de gradient (GBM) sont une classe d'algorithmes d'apprentissage d'ensemble puissants qui construisent un modèle puissant en ajoutant progressivement des apprenants faibles (généralement des arbres de décision) pour minimiser les erreurs de prédiction. Les GBM sont souvent utilisés pour minimiser les pré-
- IA 782 2024-06-08 22:45:30
-
- Le modèle de code open source Mistral monte sur le trône ! Codestral est fou de formation dans plus de 80 langues, et les développeurs nationaux de Tongyi demandent à participer !
- Produit par 51CTO Technology Stack (WeChat ID : blog51cto) Mistral a publié son premier modèle de code Codestral-22B ! Ce qui est fou avec ce modèle, ce n'est pas seulement qu'il est formé sur plus de 80 langages de programmation, dont Swift, etc., que de nombreux modèles de code ignorent. Leurs vitesses ne sont pas exactement les mêmes. Il est nécessaire d'écrire un système de « publication/abonnement » en langage Go. Le GPT-4o ici est en cours de sortie, et Codestral remet le papier si vite qu'il est difficile de le voir ! Le modèle venant tout juste d’être lancé, il n’a pas encore été testé publiquement. Mais selon le responsable de Mistral, Codestral est actuellement le modèle de code open source le plus performant. Les amis intéressés par la photo peuvent se déplacer vers : - Faire un câlin : https
- IA 1281 2024-06-08 21:55:01
-
- Vers la « boucle fermée » | PlanAgent : nouveau SOTA pour la planification en boucle fermée de la conduite autonome basée sur MLLM !
- L'équipe d'apprentissage par renforcement profond de l'Institut d'automatisation de l'Académie chinoise des sciences, en collaboration avec Li Auto et d'autres, a proposé un nouveau cadre de planification en boucle fermée pour la conduite autonome basé sur le modèle multimodal à grand langage MLLM - PlanAgent. Cette méthode prend une vue d'ensemble de la scène et des invites de texte basées sur des graphiques comme entrée, et utilise la compréhension multimodale et les capacités de raisonnement de bon sens du grand modèle de langage multimodal pour effectuer un raisonnement hiérarchique depuis la compréhension de la scène jusqu'à la génération. d'instructions de mouvement horizontal et vertical, et générer en outre les instructions requises par le planificateur. La méthode est testée sur le benchmark nuPlan à grande échelle et exigeant, et les expériences montrent que PlanAgent atteint des performances de pointe (SOTA) dans les scénarios réguliers et à longue traîne. Par rapport aux méthodes conventionnelles de grand modèle de langage (LLM), PlanAgent
- IA 513 2024-06-08 21:30:27
-
- Reconstruisez modulairement LLaVA Pour remplacer les composants, ajoutez simplement 1 à 2 fichiers. L'usine open source TinyLLaVA est ici.
- Le projet TinyLLaVA+ est créé conjointement par l'équipe du professeur Wu Ji du Laboratoire de traitement des signaux multimédias et de l'information intelligente (MSIIP) du Département d'électronique de l'Université Tsinghua et l'équipe du professeur Huang Lei de l'École d'intelligence artificielle de l'Université de Beihang. Le laboratoire MSIIP de l'Université Tsinghua s'engage depuis longtemps dans des domaines de recherche tels que les soins médicaux intelligents, le traitement du langage naturel et la découverte de connaissances, ainsi que la multimodalité. L'équipe de Beijing Airlines est engagée depuis longtemps dans des domaines de recherche tels que l'apprentissage profond, la multimodalité et la vision par ordinateur. L'objectif du projet TinyLLaVA+ est de développer un petit assistant intelligent multilingue doté de capacités multimodales telles que la compréhension du langage, les questions et réponses et le dialogue. L'équipe du projet exploitera pleinement leurs avantages respectifs, surmontera conjointement les problèmes techniques et réalisera la conception et le développement d'assistants intelligents. Cela offrira des opportunités de soins médicaux intelligents, de traitement du langage naturel et de connaissances.
- IA 594 2024-06-08 21:21:29
-
- Les États-Unis sont-ils loin derrière dans les applications robotiques ? Après 15 ans, dix grandes universités ont relancé la « Feuille de route nationale pour la robotique »
- La technologie robotique a une histoire de 70 ans et les États-Unis ont ouvert la voie depuis leur création. Depuis 2009, lorsque les États-Unis ont publié pour la première fois leur feuille de route nationale pour la robotique, leur application dans les applications industrielles (telles que l'automobile, l'aérospatiale et les appareils électroménagers) est tombée au quatrième rang mondial. Depuis 2015, les États-Unis ont continué à adopter davantage de technologies robotiques, se classant au dixième rang mondial. Le marché asiatique des robots a connu une croissance 5 à 10 fois supérieure à celle du marché américain. La Chine est « loin en avance » dans ce domaine. En 2023, la Chine a acheté environ 52 % des robots vendus, ce qui indique que la robotique n'est plus une priorité nationale aux États-Unis. Plus récemment, de l'Université de Californie, Pennsylvanie
- IA 1142 2024-06-08 20:57:00