Laissez Lu Xun parler des virelangues et Hepburn jouer du hip-hop. Un autre modèle vidéo est devenu viral et a été fondé par un médecin chinois de Stanford.-IA-php.cn

Laissez Lu Xun parler des virelangues et Hepburn jouer du hip-hop. Un autre modèle vidéo est devenu viral et a été fondé par un médecin chinois de Stanford.

WBOY

Libérer： 2024-06-16 22:52:40

original

485 Les gens l'ont consulté

Les membres de l'équipe sont tous issus de l'Université de Stanford et le CTO est également un fan inconditionnel de Taylor Swift.

Le domaine de la vidéo IA devient fou.

Le carnaval provoqué par Luma n'est pas encore terminé, il y a un autre challenger dans le cercle vidéo de l'IA -

Proteus produit par l'équipe de l'Université de Stanford.

Laissez Lu Xun parler des virelangues et Hepburn jouer du hip-hop. Un autre modèle vidéo est devenu viral et a été fondé par un médecin chinois de Stanford.

Selon les rapports, Proteus est un modèle de base à faible latence capable de générer des personnages très réalistes et expressifs.

Par exemple, laissez le protagoniste du tableau de renommée mondiale - Mona Lisa ou la jeune fille aux boucles d'oreilles en perles - rire sans retenue, avec des expressions faciales naturelles et douces :

Laissez Lu Xun parler des virelangues et Hepburn jouer du hip-hop. Un autre modèle vidéo est devenu viral et a été fondé par un médecin chinois de Stanford.

Laissez Audrey Hepburn changer de la dame qu'elle était Image, jouant du hip-hop et du rap :

Laissez également le professeur Rogue de "Harry Potter" chanter "Despacito" :

Proteus vient de sortir, et beaucoup de grands ont envoyé des "lettres de félicitations " " :

Jia Yangqing, scientifique en IA, a salué le fait que la qualité des avatars d'intelligence artificielle en temps réel est étonnamment bonne.

Jim Fan, scientifique chez NVIDIA, a déclaré que ce projet était impressionnant.

L'investisseur initial Brian Zhan a écrit que le plus gros problème avec les outils vidéo d'IA existants, tels que Runway et Pika, est qu'ils peuvent produire des hallucinations, en particulier lorsqu'ils génèrent des vidéos contenant des humains. Apparate Labs fait passer la génération de vidéos IA à l'étape suivante en résolvant des problèmes tels que la cohérence temporelle et la constance des objets.

Ridicule ! Lu Xun a parlé des virelangues

Proteus est une nouvelle génération de modèle de base pour la génération d'expressions humaines en temps réel.

Vous devez savoir que même les modèles de génération les plus avancés et les plus puissants ne peuvent actuellement pas réaliser pleinement la génération en temps réel d'expressions humaines.

Les modèles existants sont lents et ne parviennent pas à fournir un contrôle intuitif sur les expressions faciales complexes et les mouvements corporels des personnages générés, et ils manquent toujours de réalisme et d'expressivité.

Proteus utilise le modèle de diffusion latente le plus avancé de l'architecture du transformateur. Sa conception innovante d'espace latent garantit une efficacité en temps réel élevée. Grâce à l'optimisation continue de l'architecture et de l'algorithme, Proteus peut atteindre 100 images par seconde. ci-dessus (100+ FPS).

En d'autres termes, avec une simple photo, Proteus est non seulement capable d'imiter le rire humain, le rap, le chant, le clignement des yeux, le sourire et la conversation, mais peut également effectuer des expressions et des actions plus vives.

Par exemple, le toujours sérieux Lu Xun a parlé de virelangues :

ou a demandé à Madame Curie de chanter "Le Festin" a cappella :

Ou a organisé une table ronde pour les scientifiques :

Selon l'équipe R&D de Proteus, ils espèrent que Proteus pourra devenir un avatar visuel contrôlable par la voix, fournir une interface interactive intuitive pour les entités de dialogue d'intelligence artificielle et être parfaitement compatible avec de nombreux grands modèles de langage multimodaux, fournissant divers Fournir des services personnalisés pour différents scénarios d'application.

De nombreux internautes sont très enthousiasmés par cela -

"Utilisez simplement les données d'Einstein pour affiner le grand modèle de langage, et couplé à ses expressions faciales vives, vous pouvez faire du grand Einstein un enseignement assistant et donne des cours de physique en personne. Les adolescents n'ont plus à craindre de ne pas pouvoir bien apprendre les sciences. "

Certains internautes ont dit, j'aime tellement ça, cette année est définitivement l'année des vidéos sur l'IA. .

L'équipe derrière Qidian

Quel genre d'équipe se cache derrière ce petit et beau modèle très plébiscité par les grands ?

Selon le site officiel, cela a été développé par Apparate Labs de l'Université de Stanford.

Actuellement, il n'y a que 6 personnes dans l'équipe. À en juger par les noms et les photos, 3 d'entre elles sont chinoises.

Le PDG et co-fondateur, le Dr William Shen, a étudié au département d'informatique de l'université de Stanford, co-supervisé par les professeurs bien connus Silvio Savarese et Leonidas J. Guibas.

Laissez Lu Xun parler des virelangues et Hepburn jouer du hip-hop. Un autre modèle vidéo est devenu viral et a été fondé par un médecin chinois de Stanford.

Ses recherches couvrent plusieurs domaines de l'intelligence artificielle, notamment la vision par ordinateur, la robotique, le graphisme, les modèles génératifs et l'intelligence incorporée. Ses articles ont remporté de nombreux prix, tels que le prix du meilleur article à l'IEEE-CVPR et le fait d'être finaliste pour le prix du meilleur article étudiant sur RSS.

Auparavant, il a également obtenu un baccalauréat en informatique de l'Université de Stanford avec une excellente moyenne cumulative de 4,0.

Directeur de la technologie et co-fondateur Connor Lin est également un étudiant de premier ordre.

Il a étudié à l'Université Carnegie Mellon pour ses diplômes de premier cycle et de maîtrise, sous la direction du professeur Keenan Crane. En 2020, il ira à l’Université de Stanford pour poursuivre un doctorat en informatique. Il est actuellement doctorant en quatrième année, co-encadré par les professeurs Leonidas Guibas et Gordon Wetzstein.

Les recherches de Connor Lin se concentrent sur les connaissances préalables en 3D et la représentation neuronale pour la reconstruction, la génération et l'édition 3D. Il a été soutenu par la bourse d'études supérieures David Cheriton Stanford.

Pendant ses études de doctorat, il a effectué des stages chez Google Research, NVIDIA Research et Adobe Research. Auparavant, il a travaillé comme ingénieur logiciel chez Google, responsable du développement du mode portrait pour les téléphones Pixel.

De plus, ce type a un large éventail d'intérêts, aime les voyages et le sport, la cuisine, le badminton, la natation, les jeux de société et la musique. Il est également un fan inconditionnel de Taylor Swift

J'aime. Connor Lin, scientifique en chef Linqi (Alex) Zhou est également doctorant à l'Université de Stanford, supervisé par le professeur Stefano Ermon.

Auparavant, Linqi Zhou a obtenu un baccalauréat en informatique et mathématiques appliquées de l'UCLA, supervisé par les professeurs Song-Chun Zhu et Ying-Nian Wu.

Il mène principalement des recherches dans le domaine de la vision par ordinateur et de l'apprentissage automatique, et s'engage à construire des modèles capables de comprendre le monde de manière structurée et probabiliste.

^{Lien de référence :}

^{https://apparate.ai/stream.html}

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!