Les créations de l'IA sont époustouflantes, mais de nombreux défis restent encore à surmonter-IA-php.cn

Table des matières

Il est entendu que pour que l'IA soit expressive et capable de parler et d'agir, il faut d'abord s'assurer que le contenu de sortie n'est pas mal lu, ce qui nécessite un modèle d'analyse de texte pour l'analyse. "Dans Tomato Novels, nous utilisons le modèle d'architecture Transformer BERT, qui est largement utilisé dans le domaine de la PNL, comme frontal d'analyse de texte. Principalement via le modèle de régularisation (TN) et le modèle frontal multitâche du réseau neuronal plus mélange de règles, combiné à une correction manuelle des règles à long terme, nous améliorons continuellement la précision au niveau des phrases du front-end et réduisons les besoins en puissance de calcul grâce à la distillation, à la quantification et à d'autres technologies. "

À cet égard, l'équipe de Huoshan Voice a également fait des tentatives innovantes plus connexes. Par exemple, aujourd'hui, alors que les courtes vidéos sont devenues une mode nationale, face à des facteurs pratiques tels que l'enregistrement aléatoire de la création vidéo de groupe UGC et une qualité audio incontrôlable. , via la solution de sous-titres intelligente Huoshan Voice, ajoute automatiquement des sous-titres à la création vidéo. Elle est non seulement compatible avec les langues et dialectes couramment utilisés tels que le chinois, l'anglais et le cantonais, mais peut également reconnaître les chansons.

Le coût, les droits d'auteur et l'aspect pratique restent les goulots d'étranglement dans le développement de l'AIGC

Maison

Périphériques technologiques

Les créations de l'IA sont époustouflantes, mais de nombreux défis restent encore à surmonter

PHPz

Apr 11, 2023 pm 01:43 PM

chatgpt openai

Les créations de l'IA sont époustouflantes, mais de nombreux défis restent encore à surmonter

En août 2022, une peinture numérique appelée "Space Opera" a remporté le championnat et a provoqué une énorme controverse. Des incidents de sortie du cercle d'AIGC (AI-Generated Content) sont fréquemment apparus aux yeux du public. Le modèle de robot de chat ChatGPT publié par OpenAI le 30 novembre de la même année est gratuit et ouvert au public, ce qui a suscité un large intérêt pour l'AIGC. Diverses questions fantaisistes, telles que changer de code, parler de connaissances, poser des questions sur la vie. . "L'esprit" et "l'érudition" de ChatGPT "C'est impressionnant et rafraîchissant.

La raison pour laquelle ChatGPT a attiré une large attention est qu'OpenAI a publié trois générations de modèles GPT. Chaque génération de paramètres de modèle a augmenté 10 fois, voire 100 fois, par rapport à la génération précédente. Le modèle de génération GPT-3.5 utilise RLHF (de. (Human Feedback Reinforcement Learning) permet de mieux comprendre la signification du langage humain, c'est-à-dire que lorsqu'on interagit avec des humains en discutant, en écrivant des articles, en répondant à des demandes de renseignements, en vérifiant du code, etc., cela ressemble plus à un « être humain » qui donne des réponses. soigneusement après « réflexion sérieuse » ».

Face à des sujets aussi brûlants dans le cercle, selon Stephen, chercheur sur l'algorithme de synthèse vocale et audio de Huoshan : « La raison pour laquelle l'AIGC a été si populaire récemment est indissociable de l'amélioration étape par étape de la qualité du contenu produit par l'IA. En tant qu'outil de production, l'IA a déclenché une efficacité plus élevée, l'AIGC comprend de nombreuses directions telles que la génération de texte, la génération audio, la génération d'images et la génération vidéo, qui à leur tour stimuleront le développement rapide de l'intelligence artificielle. La technologie qui la sous-tend et reflète progressivement sa grande valeur commerciale. Les questions et réponses IA représentées par ChatGPT vous permettent de le comprendre en raison de son érudition et de la « lisibilité » de ses réponses « Sexe » et le test vocal IA consiste à savoir si la personne peut comprendre correctement le contenu comme une personne réelle et s'exprimer. en faisant correspondre le timbre du personnage et le ton qui convient à la situation du moment. Ceci est démontré dans Volcano Voice (ByteDance AI Lab Il n'est pas rare dans la coopération entre Intelligent Speech et Audio Team) et Tomato Novels. l'algorithme d'IA vous permet d'écouter directement n'importe quelle version texte du roman, et cela semble « plus intelligent » : timbre différencié et ton approprié, en lisant à haute voix, il s'est transformé en « esprit dramatique » et a interprété « des émotions, de la colère , peines et joies".

Il est entendu que pour que l'IA soit expressive et capable de parler et d'agir, il faut d'abord s'assurer que le contenu de sortie n'est pas mal lu, ce qui nécessite un modèle d'analyse de texte pour l'analyse. "Dans Tomato Novels, nous utilisons le modèle d'architecture Transformer BERT, qui est largement utilisé dans le domaine de la PNL, comme frontal d'analyse de texte. Principalement via le modèle de régularisation (TN) et le modèle frontal multitâche du réseau neuronal plus mélange de règles, combiné à une correction manuelle des règles à long terme, nous améliorons continuellement la précision au niveau des phrases du front-end et réduisons les besoins en puissance de calcul grâce à la distillation, à la quantification et à d'autres technologies. "

De plus, afin de rendre le la voix sonne mieux, l'équipe a également ajouté des modules plus fonctionnels basés sur le processus TTS régulier pour parvenir à l'attribution et à la correspondance des rôles. Par exemple, la structure BERT est également utilisée dans l'attribution de rôles pour modéliser les deux tâches de détermination du dialogue et de désambiguïsation des références. De plus, une structure similaire est également utilisée pour la prédiction des émotions. "Habituellement, dans les romans, il y aura des conversations à plusieurs personnes, et chaque locuteur éprouve une variété d'émotions qui lui sont propres. Si le timbre et l'émotion peuvent être découplés, l'expressivité de la parole synthétisée peut être mieux contrôlée, et différents timbres et émotions peuvent être mieux contrôlés. Une combinaison flexible de différentes émotions est très importante. "

Un point important est que, afin de permettre à l'IA de comprendre le texte de différents types de romans, Huoshan Voice a également pris l'initiative de proposer le modèle de « compréhension du texte par l'IA ». , qui est un ensemble de longs textes multitâches. Il peut automatiquement distinguer les personnages du dialogue du texte du roman, identifier les émotions que l'on souhaite exprimer dans le dialogue et prédire des pauses raisonnables entre les phrases, ce qui améliore considérablement l'efficacité de la production de livres audio IA de haute qualité et élimine efficacement les goulets d'étranglement de la production manuelle. .

Modèle "Al Text Understanding"

Pour aller plus loin, sur la base d'une prononciation claire, d'un rythme cohérent et de hauts et bas d'intonation, l'équipe Volcano Voice a auto-développé un modèle acoustique de contrôle de style de bout en bout d'apprentissage semi-supervisé pour faire suivre à la voix la roue de Plutchik. des émotions ) type d'émotion, montrant une variété de couleurs émotionnelles telles que le bonheur, la tristesse, la surprise, la peur, etc., en utilisant la méthode de migration émotionnelle pour donner à la prononciation initialement sans émotion un effet de synthèse multi-émotionnel. Il exprime mieux la « conversation par le son », modélise et restaure méticuleusement le phénomène de « paralangage » qui se produit souvent dans le langage humain, et réalise des pauses d'accent communes, des questions de questionnement, des rires et des pleurs, ainsi que divers autres phénomènes courants dans les livres audio. , etc. permettent d'obtenir une merveilleuse interprétation du contenu du texte.

"L'effet qui se rapproche de la personne réelle qui parle, afin que la voix finale de l'IA puisse refléter les effets de différents personnages dans différents contextes, est l'objectif que nous poursuivons. À l'avenir, nous espérons y parvenir grâce au texte -entraînement conjoint à la parole Le grand modèle extrait des représentations de texte dans différents contextes et améliore le taux de réussite de l'identification des caractères. Avec le grand modèle de synthèse vocale multi-locuteurs, les attributs tels que l'émotion, le style, le timbre et l'accent sont découplés et peuvent être librement transférés. ; en même temps, généré selon la description du texte Faire correspondre les sons de fond pour améliorer le sentiment d'immersion lors de l'écoute de livres audio. qu'en plus du texte et des images, les gens utilisent l'interaction vocale. Par exemple, les gens émettent souvent des commandes pour contrôler divers appareils électriques à la maison lorsqu'ils voyagent, ils utilisent des assistants vocaux embarqués pour effectuer la navigation ; les réservations de restaurants, etc. et les assistants de conférence fréquemment utilisés dans les bureaux sont tous indissociables des solutions vocales intelligentes pour améliorer la qualité du contenu et l'efficacité de la production.

À cet égard, l'équipe de Huoshan Voice a également fait des tentatives innovantes plus connexes. Par exemple, aujourd'hui, alors que les courtes vidéos sont devenues une mode nationale, face à des facteurs pratiques tels que l'enregistrement aléatoire de la création vidéo de groupe UGC et une qualité audio incontrôlable. , via la solution de sous-titres intelligente Huoshan Voice, ajoute automatiquement des sous-titres à la création vidéo. Elle est non seulement compatible avec les langues et dialectes couramment utilisés tels que le chinois, l'anglais et le cantonais, mais peut également reconnaître les chansons.

À cet égard, W, chef de produit de Huoshan Speech and Audio Understanding, a ajouté : « Dans la production de contenu vidéo, la méthode traditionnelle d'ajout de sous-titres oblige le créateur à dicter et à relire la vidéo plusieurs fois, et elle doit également être alignée. image par image en fonction de l'heure de début, souvent 10. Une vidéo d'une minute nécessite plusieurs heures de post-production. De plus, l'équipe de sous-titres doit maîtriser plusieurs langues et être familiarisée avec la production de fichiers de sous-titres. Le coût global de la production vidéo est très élevé, ce qui est très difficile pour les créateurs individuels à l'ère actuelle de la vidéo courte ou simplement pour créer des vidéos. Cela a longtemps été hors de portée pour les utilisateurs qui enregistrent leur vie »

Afin de réduire le coût. seuil de création et permettre à tous les créateurs de produire facilement du contenu vidéo de haute qualité et d'enregistrer une belle vie, Huoshan Voice a lancé une solution de sous-titres intelligente. Non seulement il peut reconnaître efficacement les dialectes et les chansons, mais il peut également avoir un bon effet de reconnaissance sur les scènes où les langues sont mélangées et où les paroles et les chants sont également mélangés, grâce aux caractéristiques audio et à l'analyse de domaine du contenu créé par l'utilisateur ; et l'optimisation de l'algorithme, la reconnaissance vocale peut être considérablement améliorée dans des scènes complexes telles que des scènes de bruit et plusieurs personnes parlant. En particulier, les utilisateurs mobiles ont des exigences plus élevées en matière de temps de réponse des fonctions, c'est-à-dire qu'ils souhaitent que les sous-titres soient rapides et précis. À cette fin, Huoshan Voice a réalisé de nombreuses optimisations et stratégies techniques. juste 2-3 secondes.

Comme nous le savons tous, face au même contenu, l'efficacité d'acquisition des informations audio par les humains est bien inférieure à celle des informations textuelles. La clé pour convertir la parole en texte à enregistrer et à utiliser réside dans la reconnaissance vocale, comme le. La solution de sous-titres en temps réel « Thousand Words Transfer » lancée par Huoshan Voice « Le texte vaut mille mots » utilise le lien IA de « reconnaissance vocale + traduction vocale » pour rendre automatiquement la communication à travers le pays et entre les langues ; générant des enregistrements et des procès-verbaux de réunion, il peut être grandement amélioré. Améliorez l'efficacité du travail des participants et réduisez considérablement la charge de travail de l'organisation après la réunion et de l'enregistrement en cours de réunion. Il est prévisible qu'avec le développement rapide de la technologie, la voix de l'IA augmentera les canaux de sortie d'informations pour l'interaction homme-machine et améliorera l'efficacité de l'acquisition d'informations.

De même, confronté au problème de l'amélioration de la qualité et de l'efficacité apporté par l'AIGC, selon Y, le chef de produit d'interaction vocale de Huoshan Voice, l'AIGC devrait en effet être implémenté dans le scénario auxiliaire de l'interaction vocale intelligente, qui peut réaliser le résumé de la conversation, la recommandation vocale et les fonctions de service client telles que l'apaisement et le résumé des bons de travail fournissent des solutions auxiliaires pour améliorer l'efficacité de la production. Par exemple, lorsqu'une conversation homme-machine déclenche une conversation homme-machine, un résumé de la conversation homme-machine peut être automatiquement généré pour aider l'homme-machine à comprendre plus rapidement les demandes de l'utilisateur et à éviter une interruption soudaine pour vérifier l'historique des discussions. ; lors de la conversation avec la personne, en comprenant le discours de l'utilisateur, les capacités AIGC sont utilisées pour générer des réponses pour référence du service client, ce qui améliore l'efficacité du dialogue avec le service client.

"De plus, il peut également jouer un rôle dans la gestion de situations anormales. Par exemple, lorsque les utilisateurs sont irritables, en colère, etc., AICG peut générer automatiquement des mots apaisants pour référence du service client, améliorant ainsi la satisfaction du service, etc. À l'avenir, Avec la technologie multimodale et à mesure que la technologie AIGC continue de mûrir, les humains numériques virtuels peuvent peut-être remplacer une partie de la main-d'œuvre et servir directement les clients dans une symbiose homme-machine, réduisant considérablement les coûts de main-d'œuvre et améliorant l'efficacité du service "Mais il a également fait. Il est clair que l'AIGC d'aujourd'hui n'est pas encore capable de le faire. Pour produire du contenu de manière véritablement indépendante, elle en est encore au stade d'aider les humains à améliorer l'efficacité de la production de contenu.

Le coût, les droits d'auteur et l'aspect pratique restent les goulots d'étranglement dans le développement de l'AIGC

Qu'il s'agisse de la réponse étonnante donnée par ChatGPT ou de la voix émouvante interprétée par l'IA dans le roman Tomato, même Musk s'est émerveillé : nous sommes proches d'un artificiel dangereusement puissant. Le renseignement n'est pas loin. Cela semble indiquer que l’ère de l’AIGC approche.

Cependant, Stephen, chercheur sur l'algorithme de synthèse vocale et audio de Huoshan qui travaille en première ligne des algorithmes d'IA depuis de nombreuses années, a un jugement plus sobre. Il a souligné : « La technologie derrière l'AIGC peut effectuer des opérations multiples. fusion modale à l'avenir, pas seulement une modalité unique. » Les tâches génératives, comme le processus de création de contenu humain, ne consistent pas seulement à concevoir un nouveau contenu basé sur une seule forme de connaissance. , actuellement les tâches principales sont les visages. Prédiction séparée des expressions, postures et actions. À l'avenir, un modèle génératif pourrait être utilisé pour prédire ces caractéristiques afin d'améliorer la synergie entre les caractéristiques et de réduire la charge de travail causée par des enregistrements séparés. sera également basé sur des tâches de compréhension multimodales. La représentation, basée sur l'expression, le ton et les mouvements corporels de l'utilisateur qui parle, donne un retour correspondant sur l'image et le son générés "

En plus de la prédiction du développement technologique. , une chose qui ne peut être ignorée est que l'AIGC a actuellement de nombreux problèmes en termes de coût, de droits d'auteur et de praticité. Il reste encore d'énormes défis. Il estime que le coût actuel de l'AIGC reste élevé. La manifestation la plus évidente est que les technologies de génération de textes, d'images et de vidéos de haute qualité, etc., correspondent toutes à la consommation d'une grande quantité de ressources matérielles dans les étapes de formation et d'inférence. ce qui rend difficile la participation des universités et des instituts de recherche, ce qui n'est pas propice à la promotion du développement industriel.

« De plus, en termes de protection des droits d'auteur, une partie du contenu actuellement généré peut être utilisée pour mener des activités illégales, il devient donc de plus en plus important d'ajouter une protection des droits d'auteur, telle que des filigranes d'image et audio, au contenu. Cependant, pendant le processus d'assemblage, vous devez toujours envisager de ne pas rendre le filigrane invalide en raison de méthodes de post-traitement telles que le découpage et le mixage "au cours du passé 2022, bien que l'application de la technologie dans la génération d'images et de vidéos. s'est considérablement amélioré, il nécessite encore beaucoup de criblage manuel avant que le contenu puisse être actualisé. Pour y parvenir, la génération de bandes dessinées et de vidéos contextuelles basées sur de longs textes doit non seulement assurer la continuité de la scène, mais également refléter la scène. changements dans les personnages. Il y a encore beaucoup de problèmes techniques à résoudre. C'est un défi d'empêcher l'intelligence artificielle de devenir un défi « artificiellement retardé », il y a donc encore de la place pour l'amélioration de l'aspect pratique.

Nous pouvons penser que la raison pour laquelle l'AIGC, en tant que nouvelle méthode de production de contenu, a attiré l'attention illustre pleinement le désir de tous les horizons pour le contenu, en particulier la plate-forme Internet, comment comprendre, créer, interagir et distribuer efficacement du contenu. Cela apporte des opportunités et des défis à la technologie de l'IA d'aujourd'hui.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7471

Tutoriel CakePHP

1377

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

ChatGPT permet désormais aux utilisateurs gratuits de générer des images en utilisant DALL-E 3 avec une limite quotidienne Aug 09, 2024 pm 09:37 PM

Le DALL-E 3 a été officiellement introduit en septembre 2023 en tant que modèle considérablement amélioré par rapport à son prédécesseur. Il est considéré comme l’un des meilleurs générateurs d’images IA à ce jour, capable de créer des images avec des détails complexes. Cependant, au lancement, c'était exclu

Choisir le modèle d'intégration qui correspond le mieux à vos données : un test comparatif des intégrations multilingues OpenAI et open source Feb 26, 2024 pm 06:10 PM

OpenAI a récemment annoncé le lancement de son modèle d'intégration de dernière génération, embeddingv3, qui, selon eux, est le modèle d'intégration le plus performant avec des performances multilingues plus élevées. Ce lot de modèles est divisé en deux types : les plus petits text-embeddings-3-small et les plus puissants et plus grands text-embeddings-3-large. Peu d'informations sont divulguées sur la façon dont ces modèles sont conçus et formés, et les modèles ne sont accessibles que via des API payantes. Il existe donc de nombreux modèles d'intégration open source. Mais comment ces modèles open source se comparent-ils au modèle open source open source ? Cet article comparera empiriquement les performances de ces nouveaux modèles avec des modèles open source. Nous prévoyons de créer une donnée

Un nouveau paradigme de programmation, quand Spring Boot rencontre OpenAI Feb 01, 2024 pm 09:18 PM

En 2023, la technologie de l’IA est devenue un sujet brûlant et a un impact énorme sur diverses industries, notamment dans le domaine de la programmation. Les gens sont de plus en plus conscients de l’importance de la technologie de l’IA, et la communauté Spring ne fait pas exception. Avec l’évolution continue de la technologie GenAI (Intelligence Artificielle Générale), il est devenu crucial et urgent de simplifier la création d’applications dotées de fonctions d’IA. Dans ce contexte, « SpringAI » a émergé, visant à simplifier le processus de développement d'applications fonctionnelles d'IA, en le rendant simple et intuitif et en évitant une complexité inutile. Grâce à « SpringAI », les développeurs peuvent plus facilement créer des applications dotées de fonctions d'IA, ce qui les rend plus faciles à utiliser et à exploiter.

Comment installer chatgpt sur un téléphone mobile Mar 05, 2024 pm 02:31 PM

Étapes d'installation : 1. Téléchargez le logiciel ChatGTP depuis le site officiel ou la boutique mobile de ChatGTP ; 2. Après l'avoir ouvert, dans l'interface des paramètres, sélectionnez la langue chinoise 3. Dans l'interface de jeu, sélectionnez le jeu homme-machine et définissez la langue. Spectre chinois ; 4. Après avoir démarré, entrez les commandes dans la fenêtre de discussion pour interagir avec le logiciel.

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

L'éditeur Zed basé sur Rust est open source, avec prise en charge intégrée d'OpenAI et GitHub Copilot Feb 01, 2024 pm 02:51 PM

Auteur丨Compilé par TimAnderson丨Produit par Noah|51CTO Technology Stack (WeChat ID : blog51cto) Le projet d'éditeur Zed est encore en phase de pré-version et a été open source sous licences AGPL, GPL et Apache. L'éditeur offre des performances élevées et plusieurs options assistées par l'IA, mais n'est actuellement disponible que sur la plate-forme Mac. Nathan Sobo a expliqué dans un article que dans la base de code du projet Zed sur GitHub, la partie éditeur est sous licence GPL, les composants côté serveur sont sous licence AGPL et la partie GPUI (GPU Accelerated User) l'interface) adopte la Licence Apache2.0. GPUI est un produit développé par l'équipe Zed

N'attendez pas OpenAI, attendez qu'Open-Sora soit entièrement open source Mar 18, 2024 pm 08:40 PM

Il n'y a pas si longtemps, OpenAISora est rapidement devenu populaire grâce à ses étonnants effets de génération vidéo. Il s'est démarqué parmi la foule de modèles vidéo littéraires et est devenu le centre d'attention mondiale. Suite au lancement du processus de reproduction d'inférence de formation Sora avec une réduction des coûts de 46 % il y a 2 semaines, l'équipe Colossal-AI a entièrement open source le premier modèle de génération vidéo d'architecture de type Sora au monde "Open-Sora1.0", couvrant l'ensemble processus de formation, y compris le traitement des données, tous les détails de la formation et les poids des modèles, et joignez-vous aux passionnés mondiaux de l'IA pour promouvoir une nouvelle ère de création vidéo. Pour un aperçu, jetons un œil à une vidéo d'une ville animée générée par le modèle « Open-Sora1.0 » publié par l'équipe Colossal-AI. Ouvrir-Sora1.0

Les performances d'exécution locale du service Embedding dépassent celles d'OpenAI Text-Embedding-Ada-002, ce qui est très pratique ! Apr 15, 2024 am 09:01 AM

Ollama est un outil super pratique qui vous permet d'exécuter facilement des modèles open source tels que Llama2, Mistral et Gemma localement. Dans cet article, je vais vous présenter comment utiliser Ollama pour vectoriser du texte. Si vous n'avez pas installé Ollama localement, vous pouvez lire cet article. Dans cet article, nous utiliserons le modèle nomic-embed-text[2]. Il s'agit d'un encodeur de texte qui surpasse OpenAI text-embedding-ada-002 et text-embedding-3-small sur les tâches à contexte court et à contexte long. Démarrez le service nomic-embed-text lorsque vous avez installé avec succès o

See all articles