Le 22 août 2023, la conférence écologique DingTalk « Ride on the Back of AI » s'est tenue à Shanghai. Lors du sous-forum spécial destiné aux employés du numérique, Zhao Jiayu, vice-président de DingTalk et chef de l'unité commerciale audio et vidéo, a prononcé un discours d'ouverture, partageant les progrès et les applications de l'audio et de la vidéo de DingTalk dans le domaine de l'intelligence, ainsi que la vidéo. domaine de conférence basé sur DingTalk AI PaaS Perspectives ouvertes pour l'avenir
.Zhao Jiayu a mentionné que DingTalk a annoncé en avril qu'il intégrerait pleinement les grands modèles pour achever la reconstruction intelligente. À mesure que l'intégration de l'intelligence artificielle et de l'audio et de la vidéo devient de plus en plus profonde, DingTalk Conference a également réalisé de nombreuses applications innovantes. En plus des précédentes traductions en temps réel, transcription des sous-titres et résumé intelligent, trois nouvelles fonctions ont été lancées cette fois : un avatar numérique au lieu d'assister aux réunions, le contrôle en langage naturel des opérations de réunion et l'arrière-plan virtuel de Vincent. Parmi eux, le clone numérique peut remplacer l'utilisateur pour participer à la réunion lorsque l'heure de la réunion est en conflit, et peut synchroniser les informations et les conclusions pertinentes de la réunion en temps réel
Il a déclaré qu'à l'avenir, DingTalk Audio and Video espère ouvrir davantage de domaines à des partenaires écologiques pour créer conjointement des applications riches et précieuses afin d'améliorer l'expérience utilisateur et l'efficacité. Dans le même temps, DingTalk prévoit également d'intégrer le SDK audio et vidéo dans les applications de partenaires écologiques pour créer conjointement des solutions audio et vidéo de haute qualité et faciles à utiliser pour répondre aux besoins de différentes industries et scénarios.
Ce qui suit est le texte intégral du discours de Zhao Jiayu :
Au cours de la dernière année, les mots clés de la Division Audio et Vidéo de DingTalk sont expérience et intelligence
L'année dernière, nous avons mis en place une équipe dédiée pour optimiser de manière globale les réunions DingTalk et avons apporté de nombreuses améliorations tant en interne qu'en externe. Désormais, l’interaction de l’interface de DingTalk Meeting est plus belle, plus pratique et plus immersive. Dans le même temps, en termes d'architecture technique sous-jacente, nous avons optimisé de manière globale la collecte, la lecture, l'encodage et le décodage, le réseau et le serveur. Surtout en termes d'audio et de vidéo, notre exigence la plus fondamentale est de pouvoir avoir une réunion fluide et d'entendre la voix de l'autre partie, nous avons donc amélioré l'algorithme audio et le réseau anti-faiblesse. J'espère que vous pourrez utiliser davantage nos réunions DingTalk
En matière d'intelligence, le domaine de la vidéoconférence a été très étroitement intégré à l'intelligence artificielle avant cette amélioration majeure. La technologie de l'intelligence artificielle a été intégrée aux algorithmes audio et aux algorithmes vidéo. Par exemple, les applications d’intelligence artificielle liées aux algorithmes vidéo incluent l’embellissement et les arrière-plans virtuels, qui sont des applications de scène très familières. L'algorithme audio obtient également de meilleurs effets de réduction du bruit en combinant l'intelligence artificielle. Actuellement, DingTalk Meeting prend en charge l'élimination de plus de 300 bruits courants, tels que les klaxons de voiture et les frappes sur le clavier, permettant aux utilisateurs de mener des réunions plus ciblées
Une autre exigence courante que nous avons lors des réunions concerne les sous-titres, qui sont essentiellement la capacité de l'intelligence artificielle. Désormais, DingTalk Conference est entièrement intégré à Alibaba Tongyi Listening, prend en charge la traduction entre le chinois, l'anglais et le japonais et réalise une transcription et une traduction en temps réel. De plus, il existe également une fonction de navigation intelligente. Lors d'une réunion dans une salle de conférence, si des collègues en ligne se joignent à la discussion, il peut arriver qu'ils soient assis trop loin pour entendre clairement, ou que l'autre partie ne puisse pas entendre ce qu'ils disent. Notre laboratoire audio Hummingbird combine l'intelligence artificielle et la technologie originale de réseau différentiel pour obtenir une captation du son jusqu'à 10 mètres d'un seul appareil de conférence. Lorsque l'orateur parle, il prend en charge le positionnement précis de la source sonore, le suivi en temps réel et le zoom sur son avatar, mettant chaque locuteur au centre et créant une meilleure expérience de conversation
Avec l'avènement de l'ère des grands modèles, nous avons mené des recherches pertinentes et espérons utiliser de grands modèles pour recréer des réunions DingTalk. Aujourd'hui, DingTalk a lancé une nouvelle base intelligente AI PaaS et l'a ouverte aux partenaires de l'écosystème. Lors de la réunion DingTalk, nous avons utilisé AI PaaS pour implémenter de nombreuses fonctions intéressantes
Contenu réécrit : Tout d’abord, c’est une nouvelle façon de remplacer les réunions par des avatars numériques. Sur le lieu de travail, les gens sont souvent confrontés à un grand nombre de réunions et nous utilisons désormais des documents intelligents pour aider chacun à résoudre ce problème. Nous avons également essayé certaines méthodes pour offrir aux utilisateurs la possibilité d'avoir des avatars numériques. Si vous avez un conflit de réunion ou n'êtes pas très pertinent pour une certaine réunion, vous pouvez demander à votre sosie numérique d'assister à la réunion à votre place. Pendant la réunion, vous pouvez définir activement certaines tâches via la boîte de dialogue de DingTalk Magic Wand, comme vous concentrer sur des sujets spécifiques. Lorsque quelqu'un discute de ce sujet, l'IA vous en informera automatiquement et vous indiquera le contenu pertinent. Vous pouvez également configurer l'avatar numérique pour qu'il vous envoie un résumé de la réunion toutes les quelques minutes, et vous pouvez également parler activement à l'avatar numérique pour obtenir diverses informations, telles que qui participe à la réunion et s'il y a des différends. Après la réunion, le clone numérique vous enverra automatiquement le résumé de la réunion
Le contenu réécrit est le suivant : Deuxièmement, nous pouvons utiliser le langage naturel pour un contrôle intelligent des réunions. Dans le passé, de nombreux utilisateurs se plaignaient du fait que DingTalk avait trop de fonctions et que l'entrée était difficile à trouver. DingTalk Conference est également confronté à ce problème. Même si nous avons apporté de nombreuses simplifications, le seuil d'utilisation est encore un peu élevé pour certains utilisateurs. Aujourd'hui, nous avons simplifié les opérations fonctionnelles grâce à l'assistant intelligent de DingTalk Magic Wand. Il vous suffit de demander en langage naturel, et l’intelligence artificielle reconnaîtra automatiquement l’intention et vous aidera à mener à bien l’opération. Par exemple, s'il y a trop de personnes dans une réunion et que quelqu'un allume accidentellement le microphone, il peut être difficile pour vous de trouver cette personne et de la mettre en sourdine, mais vous pouvez maintenant demander à l'IA de couper le son de la personne qui parle. . De plus, lorsque vous devez inviter des personnes à rejoindre la réunion, vous pouvez également saisir directement l'invitation sans vous soucier de l'endroit où se trouve l'entrée. Avec ces fonctionnalités, nous facilitons le fonctionnement et la gestion des réunions
Le contenu qui doit être réécrit est le suivant : Le troisième point concerne le parcours virtuel de Vincent. Les arrière-plans virtuels ont toujours été appréciés des utilisateurs, surtout ces dernières années. Nous, les jeunes, nous sommes beaucoup amusés, parfois en suivant des cours dans la « classe spatiale » et parfois en suivant des cours dans la « prairie ». Nous utilisons également des arrière-plans virtuels dans notre travail quotidien, ce qui peut efficacement éviter l'embarras des arrière-plans encombrés. Dans le passé, en plus des images modèles existantes, nous devions également rechercher et télécharger les images nous-mêmes, mais ce n'est plus nécessaire. Nous pouvons générer automatiquement des arrière-plans virtuels grâce aux images Wensheng, libérant complètement notre imagination
DingTalk Conference ouvrira progressivement des applications via AI PaaS pour aider les partenaires à mettre à niveau leurs scénarios. À l'avenir, des produits plus écologiques seront intégrés aux réunions DingTalk, tels que des interviews, des tableaux blancs et d'autres applications. Nous travaillons avec nos partenaires de recrutement pour développer un assistant d'entretien capable de fournir une assistance en temps réel dans le processus d'entretien avec le contenu du CV et les informations de communication. Nous espérons offrir une bonne expérience et une bonne ouverture, et travailler avec des partenaires écologiques pour proposer des applications de scénarios plus intéressantes et plus précieuses aux utilisateurs de l'ère intelligente
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!