localisation actuelle:Maison > Articles techniques > Périphériques technologiques > IA
- Direction:
- tous web3.0 développement back-end interface Web base de données Opération et maintenance outils de développement cadre php programmation quotidienne Applet WeChat Problème commun autre technologie Tutoriel CMS Java Tutoriel système tutoriels informatiques Tutoriel matériel Tutoriel mobile Tutoriel logiciel Tutoriel de jeu mobile
- Classer:
-
- A vaincu Gemini-1.5-Pro et GPT-4V, se classant parmi les trois premiers au monde en termes de capacités multimodales de grands modèles
- Récemment, le grand modèle de Yuncong Technology a fait des progrès significatifs dans le domaine de l'évaluation multimodale d'OpenCompass, la plateforme d'évaluation complète faisant autorité. Les derniers résultats d'évaluation montrent que le score moyen du grand modèle Congrong de Yuncong Technology dans ce système est de 65,5. Ce résultat place le grand modèle Congrong parmi les trois premiers au monde, dépassant le classement Gemini-1.5-Pro et GPT-4v de Google. deuxième Sur GPT-4o (69,9) et Claude3.5-Sonnet (67,9). Sur le marché intérieur, les performances du grand modèle ont également dépassé InternVL-Chat (61,7) et GLM-4V (60,8), se classant au premier rang. 1.Liste multimodale OpenCompass OpenCom
- IA 1053 2024-06-29 00:25:01
-
- L'équipe Bengio propose un nouveau benchmark multimodal, ciblant les faiblesses de Claude 3.5 et GPT-4o
- La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com L'auteur de cet article, Zhang Tianyu, a étudié à l'Institut Mila d'intelligence artificielle au Canada et a étudié auprès du professeur Yoshua Bengio, lauréat du prix Turing. Les principaux travaux de la période doctorale ont porté sur la multimodalité, GFlowNet, l'apprentissage par renforcement multi-agents, l'IA et le changement climatique
- IA 852 2024-06-29 00:06:53
-
- Le modèle Depth Anything V2 de l'équipe de modèles Byte a été sélectionné comme dernier modèle CoreML d'Apple.
- Récemment, Apple a publié 20 nouveaux modèles CoreML et 4 ensembles de données sur HuggingFace, et le modèle d'estimation de profondeur monoculaire DepthAnythingV2 de l'équipe Byte Model a été sélectionné parmi eux. Le framework d'apprentissage automatique CoreML Apple est utilisé pour intégrer des modèles d'apprentissage automatique dans des appareils tels que iOS et MacOS afin de fonctionner efficacement. Effectuez des tâches d'IA complexes sans avoir besoin d'une connexion Internet, améliorez la confidentialité des utilisateurs et réduisez la latence. Les développeurs Apple peuvent utiliser ces modèles pour créer des applications d'IA intelligentes et sûres. Un modèle d'estimation de profondeur monoculaire développé par l'équipe de modèles de grande taille d'octets DepthAnythingV2. La version V2 offre un traitement des détails plus fin, une plus grande robustesse et une vitesse considérablement améliorée. Contient 25M à
- IA 529 2024-06-28 22:40:06
-
- Convertissez automatiquement les images en texte et les descriptions des images sont de meilleure qualité et plus précises.
- La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Pi Renjie : doctorant de troisième année à l'Université des sciences et technologies de Hong Kong, étudiant sous la direction du professeur Zhang Tong et du professeur Zhou Xiaofang. A reçu une bourse Apple en 2024. Les principales orientations de recherche actuelles sont les grands modèles de langage multimodaux et l’IA centrée sur les données. Zhang Jianshu : étudiant de troisième année à l'Université de Wuhan,
- IA 971 2024-06-28 21:41:35
-
- La naissance de Cambrian No. 1 : l'équipe Xie Saining et Yann LeCun a publié le LLM multimodal open source le plus puissant
- Tout comme les animaux ont des yeux, Cambrian-1 de l'équipe de Yann LeCun permet à l'IA d'acquérir de puissantes capacités d'apprentissage des représentations visuelles. À travers les âges, de nombreux philosophes ont exploré cette question : la compréhension du sens du langage doit-elle être basée sur les sens ? Même si les philosophes ne sont pas d’accord, une chose est claire : une base sensorielle solide et efficace peut au moins aider. Par exemple, les scientifiques pensent généralement que l’émergence de la vision lors de l’explosion cambrienne a été une étape clé dans l’évolution des premiers animaux ; elle a non seulement aidé les animaux à mieux trouver de la nourriture et à éviter les prédateurs, mais a également contribué à l’évolution des animaux eux-mêmes. En fait, la plupart des connaissances que possèdent les humains (et presque tous les animaux) sont acquises grâce à des expériences sensorielles en interaction avec le corps physique.
- IA 1306 2024-06-28 21:28:07
-
- Les grands modèles domestiques atteignent de nouveaux sommets ! Sortie d'iFlytek Spark 4.0 : surpassant globalement GPT-4 Turbo, se classant premier dans 8 ensembles de tests internationaux faisant autorité
- Les capacités des grands modèles nationaux ont atteint un nouveau niveau ! Le 27 juin, iFlytek a officiellement lancé le modèle iFlytek Spark V4.0, ainsi que des applications d'intelligence artificielle dans de nombreux domaines tels que les soins médicaux, l'éducation et les affaires. Avec la sortie de la nouvelle version, les sept capacités principales d'iFlytek Spark V4.0 ont été entièrement mises à niveau, se classant au premier rang dans 8 ensembles de tests grand public internationaux, dépassant globalement le GPT-4Turbo et leader des grands modèles nationaux. Liu Qingfeng a déclaré qu'actuellement, le nombre de téléchargements de Spark APP a atteint 131 millions et qu'un certain nombre d'assistants d'application préférés des utilisateurs ont vu le jour. Avec la prise en charge du modèle Spark, les ventes de matériel intelligent dans certains scénarios ont augmenté de plus de 70 % d'une année sur l'autre, avec une utilisation mensuelle moyenne dépassant 40 millions. De plus, le grand modèle Xinghuo V4.0 est basé sur le premier Wanka domestique du pays.
- IA 1136 2024-06-28 20:52:47
-
- La première technologie de génération vidéo IA en temps réel de l'histoire : DiT universal, 10,6 fois plus rapide
- DiT peut être utilisé pour générer des vidéos sans perte de qualité et sans formation requise. La génération vidéo IA en temps réel est là ! Mercredi, l'équipe You Yang de l'Université nationale de Singapour a proposé la première méthode de génération vidéo basée sur DiT du secteur pouvant être diffusée en temps réel. La technologie s'appelle PyramidAttentionBroadcast (PAB). En réduisant les calculs d'attention redondants, PAB atteint des fréquences d'images allant jusqu'à 21,6 FPS et une accélération de 10,6x sans sacrifier les avantages des modèles de génération vidéo populaires basés sur DiT, notamment la qualité Open-Sora, Open-Sora-Plan et Latte. Il convient de noter qu'en tant que méthode ne nécessitant pas de formation, le PAB peut être utilisé pour tout futur projet basé sur DiT.
- IA 1437 2024-06-28 19:14:46
-
- Tsinghua AIR et d'autres ont proposé ESM-AA, le premier modèle de langage protéique allant des acides aminés aux échelles atomiques
- Des équipes de recherche de l’Université Tsinghua AIR, de l’Université de Pékin et de l’Université de Nanjing ont proposé le modèle ESM-AA. Ce modèle a réalisé des progrès importants dans le domaine de la modélisation du langage protéique, fournissant une solution de modélisation unifiée intégrant des informations multi-échelles. Il s’agit du premier modèle de langage protéique pré-entraîné capable de gérer à la fois les informations sur les acides aminés et les informations atomiques. Les excellentes performances du modèle démontrent le grand potentiel de la modélisation unifiée multi-échelle pour surmonter les limitations existantes et débloquer de nouvelles capacités. En tant que modèle de base, ESM-AA a reçu l'attention et des discussions approfondies de la part de nombreux chercheurs (voir capture d'écran ci-dessous). Il est considéré comme ayant le potentiel de développer des modèles basés sur ESM-AA qui peuvent rivaliser avec AlphaFold3 et RoseTTAFoldAll-Atom et fournir des fonctionnalités. une plateforme pour étudier différentes phases d'organismes entre les structures.
- IA 1323 2024-06-28 18:10:06
-
- Efficace et précise, l'équipe de l'Université de Zhengzhou développe un nouvel outil d'IA pour identifier les interactions médicament-cible
- Editeur | Dry Leaf Butterfly L'identification précise des interactions médicament-cible (DTI) est l'une des étapes clés du processus de découverte et de repositionnement de médicaments. Actuellement, de nombreux modèles informatiques ont été proposés pour prédire le DTI, et des progrès significatifs ont été réalisés. Cependant, ces méthodes se concentrent rarement sur la façon de fusionner de manière appropriée des réseaux de similarité multi-vues liés aux médicaments et aux cibles. De plus, la manière d’intégrer pleinement les relations d’interaction connues pour représenter avec précision les médicaments et les cibles n’a pas été bien étudiée. Par conséquent, il est encore nécessaire d’améliorer la précision des modèles de prédiction DTI. Dans les dernières recherches, des équipes de l’Université de Zhengzhou et de l’Université des sciences et technologies électroniques de Chine ont proposé une nouvelle méthode, MIDTI. Cette méthode utilise une stratégie de fusion de réseaux de similarité multi-vues et un mécanisme d’attention interactif profond pour prédire les médicaments.
- IA 1210 2024-06-28 02:31:25
-
- Spécialement adapté à cinq domaines scientifiques majeurs, la NASA et IBM coopèrent pour développer un grand modèle de langage INDUS
- INDUS, du nom de la constellation australe, est un ensemble complet de modèles linguistiques à grande échelle prenant en charge cinq domaines scientifiques. (Source : NASA) Éditeur | Les grands modèles de langage (LLM) de KX formés sur de grandes quantités de données fonctionnent bien sur les tâches de compréhension et de génération du langage naturel. Les LLM les plus populaires sont formés à l'aide de corpus généraux tels que Wikipédia, mais les changements de répartition du vocabulaire conduisent à de mauvaises performances dans des domaines spécifiques. Inspirée par cela, la NASA a collaboré avec IBM pour développer INDUS, un ensemble complet de LLM adaptés aux domaines des sciences de la Terre, de la biologie, de la physique, de l'héliophysique, des sciences planétaires et de l'astrophysique et utilisant des données provenant de différentes sources de données. pour s'entraîner. INDUS contient deux types de modèles : encodeur et phrase
- IA 929 2024-06-27 20:28:32
-
- OpenAI coupe soudainement l'approvisionnement de la Chine ! SenseTime lance un « service de déménagement » sans frais et est livré avec un gros coffret cadeau
- Le 25 juin, SenseTime Technology a annoncé le lancement d'un plan d'achat à 0 yuan pour les modèles de grande valeur. Désormais, en devenant un utilisateur professionnel nouvellement enregistré de « SenseNova » de SenseTime, vous recevrez un ensemble de services gratuits comprenant des appels, une migration, une formation, etc. , 0 yuans ALLEZ ! La plateforme « RiRiXin SenseNova » couvre de nombreux types d'interfaces API de modèles, notamment les modèles de langage de consultation, les modèles multimodaux graphiques et textuels de consultation, les modèles d'images textuels Miaohua, les modèles vocaux, les modèles vectoriels, etc., pour répondre aux différents besoins de utilisateurs d'entreprise. SenseTime a toujours insisté sur l'originalité de l'IA, la sécurité technologique, la contrôlabilité indépendante et sa propre infrastructure d'IA de nouvelle génération avancée, peu coûteuse et à grande échelle, telle que SenseCore, qui garantit une puissance de calcul. ShangTangjiang
- IA 579 2024-06-27 00:23:50
-
- Simulant 500 millions d'années d'informations évolutives, il s'agit du premier modèle biologique à grande échelle permettant de déduire simultanément la séquence, la structure et la fonction des protéines.
- Éditeur |Au cours des **longs** trois milliards d'années d'évolution naturelle, la **forme** des **existantes** protéines s'est formée et a subi un long processus de sélection naturelle. L'évolution est comme une expérience parallèle menée à des échelles de temps géologiques, par le biais de mécanismes de mutation et de sélection aléatoires, triant en fonction de la séquence, de la structure et de la fonction des protéines. , les chercheurs d'EvolutionaryScale montrent que les modèles de langage formés sur des marqueurs générés par l'évolution peuvent servir de simulateurs évolutifs pour générer des protéines fonctionnelles qui diffèrent des séquences protéiques connues. , les chercheurs proposent le **avant-garde** ESM3, un modèle de langage génératif multimodal **avancé** qui peut raisonner sur les protéines
- IA 1092 2024-06-26 20:40:11
-
- Mes oreilles ont raison, le son est trop réel, la technologie Seed-TTS de synthèse vocale Byte Beanbao se révèle
- Seed-TTS est un modèle de génération vocale à grande échelle récemment publié par l'équipe modèle ByteDance Doubao. , la parole qu'il génère n'est presque **pas différente** de celle des personnes réelles, et même des **défauts** de prononciation peuvent être générés, notamment en termes d'apprentissage de l'imitation de la parole humaine, avec à la fois **fidélité** et **aisance ** **Performance exceptionnelle. Par exemple, si vous fournissez un morceau de discours à Seed-TTS, il peut générer un nouveau discours basé sur le texte et apporter les caractéristiques sonores du matériel original. Matériel original (invite) : Voix chinoise générée par Seed-TTS : Soudain, il y a eu des rires autour de moi. Je les ai regardés, j'ai redressé ma poitrine de bonne humeur, j'ai secoué mes bras légèrement charnus et j'ai ri : « La chair sur mon corps est destinée à dissimuler mon charme irrésistible, sinon
- IA 1190 2024-06-26 20:37:12
-
- NetEase Fuxi apparaîtra au WAIC 2024 avec des réalisations innovantes, jetez un coup d'œil aux points forts !
- La Conférence mondiale sur l'intelligence artificielle 2024 et la Conférence de haut niveau sur la gouvernance mondiale de l'intelligence artificielle (dénommée « WAIC 2024 ») s'ouvriront à Shanghai le 4 juillet. En tant que leader dans le domaine de l'intelligence artificielle en Chine, NetEase Fuxi présentera ses produits principaux - NetEase Yaotai, NetEase Smart, Youling Platform, Danqingyue et Game AI au WAIC 2024 pour démontrer pleinement sa technologie de pointe dans le domaine de l'intelligence artificielle. domaine de l’intelligence artificielle et des résultats d’application. 1. Grand espace NetEase Yaotai VR : début dans l'industrie, reconstruction d'un nouvel espace pour une expérience immersive. Sur le stand NetEase Fuxi au WAIC 2024, NetEase Yaotai présentera le premier espace VR de grande entreprise du secteur, présentant de manière choquante "**infini*" de. entreprise VR. *"Concept de salle d'exposition. Dans un espace de seulement 20 mètres carrés, l'agrandissement de la salle d'exposition à plusieurs étages est réalisé.
- IA 511 2024-06-26 18:42:22
-
- Le Meitu Imaging Research Institute (MT Lab) a remporté 3 prix de premier plan lors de conférences internationales sur l'intelligence artificielle
- Le 30 mai, la 3e édition du Pixel-level Video Understanding in the Wild, PVUW (ci-après dénommé PVUW), organisée par CVPR2024, la plus grande conférence internationale sur l'intelligence artificielle, a annoncé les résultats du concours Meitu Imaging Research Institute (MTLab). A remporté la deuxième place dans les pistes de segmentation sémantique vidéo (VSS) et de segmentation d'objets vidéo de scènes complexes (MOSE), et la troisième place dans le défi de segmentation panoramique vidéo (VPS). C'est également la troisième fois que le Meitu Imaging Research Institute (MTLab). ) a remporté les prix de la conférence CVPR et obtenu des résultats exceptionnels de 1 or, 3 argent et 3 bronze. En tant qu'événement majeur dans le domaine de la vision par ordinateur au monde,
- IA 888 2024-06-26 17:13:20