L'IA aide la recherche sur l'interface cerveau-ordinateur, la technologie révolutionnaire de décodage neuronal de la parole de l'Université de New York, publiée dans la sous-journal Nature-IA-php.cn

Maison

L'IA aide la recherche sur l'interface cerveau-ordinateur, la technologie révolutionnaire de décodage neuronal de la parole de l'Université de New York, publiée dans la sous-journal Nature

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 17, 2024 am 08:40 AM

git iis 理论

LIA aide la recherche sur linterface cerveau-ordinateur, la technologie révolutionnaire de décodage neuronal de la parole de lUniversité de New York, publiée dans la sous-journal Nature

Auteur | Chen Xupeng

Éditeur | ScienceAI

L'aphasie due à des anomalies du système nerveux peut entraîner de graves handicaps dans la vie et limiter la vie professionnelle et sociale des personnes.

Ces dernières années, le développement rapide de la technologie d’apprentissage profond et d’interface cerveau-ordinateur (BCI) a rendu possible le développement de prothèses neurovocales pouvant aider les personnes aphasiques à communiquer. Cependant, le décodage vocal des signaux neuronaux est confronté à des défis.

Récemment, des chercheurs de VideoLab et Flinker Lab de l'Université de Jordanie ont développé un nouveau type de synthétiseur vocal différenciable qui peut utiliser un réseau neuronal convolutif léger pour coder la parole en une série de paramètres vocaux interprétables (tels que la hauteur, le volume, le formant). fréquence, etc.), et ces paramètres sont synthétisés en parole via un réseau neuronal différenciable. Ce synthétiseur peut également analyser les paramètres de la parole (tels que la hauteur, le volume, les fréquences des formants, etc.) via un réseau neuronal convolutionnel léger, et resynthétiser la parole via un synthétiseur vocal différenciable.

Les chercheurs ont établi un système de décodage des signaux neuronaux hautement interprétable et applicable à des situations avec de petits volumes de données, en mappant les signaux neuronaux à ces paramètres vocaux sans changer la signification du contenu original.

La recherche s'intitulait « Un cadre de décodage neuronal de la parole exploitant l'apprentissage profond et la synthèse vocale » et a été publiée dans le magazine « Nature Machine Intelligence » le 8 avril 2024.

LIA aide la recherche sur linterface cerveau-ordinateur, la technologie révolutionnaire de décodage neuronal de la parole de lUniversité de New York, publiée dans la sous-journal Nature

Lien papier : https://www.nature.com/articles/s42256-024-00824-8

Contexte de recherche

La plupart des tentatives de développement de décodeurs de parole neuronale reposent sur un A spécial type de données : données obtenues auprès de patients subissant une chirurgie de l'épilepsie via des enregistrements d'électrocorticographie (ECoG). En utilisant des électrodes implantées chez des patients épileptiques pour collecter des données sur le cortex cérébral lors de la production de la parole, ces données ont une résolution spatio-temporelle élevée et ont aidé les chercheurs à obtenir une série de résultats remarquables dans le domaine du décodage de la parole, contribuant ainsi à promouvoir le développement des interfaces cerveau-ordinateur. champ.

Le décodage vocal des signaux neuronaux est confronté à deux défis majeurs.

Tout d'abord, les données utilisées pour entraîner des modèles personnalisés de décodage neuronal à la parole sont très limitées dans le temps, généralement seulement une dizaine de minutes, tandis que les modèles d'apprentissage en profondeur nécessitent souvent une grande quantité de données d'entraînement pour être pilotés.

Deuxièmement, la prononciation humaine est très diversifiée. Même si la même personne prononce le même mot à plusieurs reprises, la vitesse, l'intonation et la hauteur de la parole changeront, ce qui ajoute de la complexité à l'espace de représentation construit par le modèle.

Les premières tentatives de décodage des signaux neuronaux en parole reposaient principalement sur des modèles linéaires. Les modèles ne nécessitaient généralement pas d'énormes ensembles de données d'entraînement et étaient hautement interprétables, mais la précision était très faible.

Les recherches récentes basées sur les réseaux de neurones profonds, notamment l'utilisation d'architectures de réseaux de neurones convolutifs et récurrents, se développent dans deux dimensions clés : la représentation latente intermédiaire de la parole simulée et la qualité de la parole synthétisée. Par exemple, certaines études décodent l'activité du cortex cérébral en espace de mouvement de la bouche, puis la convertissent en parole. Bien que les performances de décodage soient puissantes, la voix reconstruite ne semble pas naturelle.

D'un autre côté, certaines méthodes réussissent à reconstruire une parole naturelle en utilisant le vocodeur wavenet, le réseau contradictoire génératif (GAN), etc., mais leur précision est limitée. Récemment, dans une étude portant sur des patients porteurs de dispositifs implantés, des formes d'onde vocales à la fois précises et naturelles ont été obtenues en utilisant des caractéristiques HuBERT quantifiées comme espace de représentation intermédiaire et un synthétiseur vocal pré-entraîné pour convertir ces caractéristiques en parole.

Cependant, les fonctionnalités HuBERT ne peuvent pas représenter des informations acoustiques spécifiques au locuteur et peuvent uniquement générer des sons de haut-parleur fixes et unifiés. Des modèles supplémentaires sont donc nécessaires pour convertir ce son universel en la voix d'un patient spécifique. De plus, cette étude et la plupart des tentatives précédentes ont adopté une architecture non causale, ce qui peut limiter son utilisation dans les applications pratiques des interfaces cerveau-ordinateur nécessitant des opérations causales temporelles.

Cadre du modèle principal

LIA aide la recherche sur linterface cerveau-ordinateur, la technologie révolutionnaire de décodage neuronal de la parole de lUniversité de New York, publiée dans la sous-journal Nature

Figure 1 : Cadre de décodage neuronal proposé. (Source : Article)

Pour relever ces défis, les chercheurs introduisent un nouveau cadre de décodage des signaux d'électroencéphalogramme (ECoG) à la parole dans cet article. Les chercheurs construisent une représentation intermédiaire de basse dimension (représentation latente de basse dimension), qui est générée par. un modèle de codage et de décodage de la parole utilisant uniquement le signal de parole (Figure 1).

Le cadre proposé par la recherche se compose de deux parties : l'une est le décodeur ECoG, qui convertit le signal ECoG en paramètres de parole acoustique que nous pouvons comprendre (tels que la hauteur, s'il est prononcé, le volume et la fréquence des formants, etc. ); l'autre partie est un synthétiseur vocal qui convertit ces paramètres vocaux en spectrogramme.

Les chercheurs ont construit un synthétiseur vocal différenciable, qui permet au synthétiseur vocal de participer à la formation lors de la formation du décodeur ECoG et d'optimiser conjointement pour réduire l'erreur de reconstruction du spectrogramme. Cet espace latent de faible dimension présente une forte interprétabilité, associé à un encodeur vocal léger pré-entraîné pour générer des paramètres vocaux de référence, aidant ainsi les chercheurs à créer un cadre de décodage neuronal efficace de la parole et à surmonter le problème de la rareté des données.

Ce cadre peut générer une parole naturelle très proche de la voix du locuteur, et la partie décodeur ECoG peut être connectée à différentes architectures de modèles d'apprentissage en profondeur et prend également en charge les opérations causales. Les chercheurs ont collecté et traité les données ECoG de 48 patients en neurochirurgie, en utilisant plusieurs architectures d'apprentissage profond (y compris la convolution, le réseau neuronal récurrent et le transformateur) comme décodeurs ECoG.

Le framework a démontré une grande précision sur divers modèles, parmi lesquels l'architecture convolutive (ResNet) a obtenu les meilleures performances, le coefficient de corrélation de Pearson (PCC) entre le spectrogramme original et décodé atteignant 0,806. Le cadre proposé par les chercheurs ne peut atteindre une grande précision que grâce à des opérations causales et un taux d'échantillonnage relativement faible (faible densité, espacement de 10 mm).

Les chercheurs ont également démontré qu’un décodage efficace de la parole peut être effectué à partir des hémisphères gauche et droit du cerveau, étendant ainsi l’application du décodage neuronal de la parole au cerveau droit.

Code open source lié à la recherche : https://github.com/flinkerlab/neural_speech_decoding

Plus d'exemples de discours générés : https://xc1490.github.io/nsd/

LIA aide la recherche sur linterface cerveau-ordinateur, la technologie révolutionnaire de décodage neuronal de la parole de lUniversité de New York, publiée dans la sous-journal Nature

Image : Différenciable architecture du synthétiseur vocal. (Source : article)

L'innovation importante de cette recherche est de proposer un synthétiseur vocal différentiable (synthétiseur vocal), qui rend la tâche de re-synthèse vocale très efficace et peut synthétiser des autocollants haute fidélité avec une très petite parole Audio adapté au son .

Le principe du synthétiseur vocal différenciable s'inspire du principe du système génératif humain et divise la parole en deux parties : la voix (utilisée pour modéliser les voyelles) et la non-voix (utilisée pour modéliser les consonnes) :

La partie vocale peut être utilisée en premier. le signal de fréquence génère des harmoniques, et le filtre composé des pics formants de F1-F6 est filtré pour obtenir les caractéristiques spectrales de la partie voyelle pour la partie Unvoice, le chercheur filtre le bruit blanc avec le filtre correspondant pour obtenir le spectre correspondant, qui peut être Les paramètres appris peuvent contrôler le rapport de mélange des deux parties à chaque instant ; après cela, le signal d'intensité sonore est amplifié et un bruit de fond est ajouté pour obtenir le spectre vocal final. Sur la base de ce synthétiseur vocal, cet article conçoit un cadre efficace de resynthèse vocale et un cadre de décodage neuronal de la parole.

Résultats de recherche

Résultats du décodage de la parole avec causalité temporelle

LIA aide la recherche sur linterface cerveau-ordinateur, la technologie révolutionnaire de décodage neuronal de la parole de lUniversité de New York, publiée dans la sous-journal Nature

Figure 2 : Comparaison des performances de décodage du spectrogramme original et du spectrogramme décodé de modèles non causals et causals. (Source : article)

Tout d'abord, les chercheurs ont comparé directement les différences de performances de décodage vocal de différentes architectures de modèles (Convolution (ResNet), Recurrent (LSTM) et Transformer (3D Swin). Il convient de noter que ces modèles peuvent effectuer non -opérations causales ou causales dans le temps

Les résultats montrent que le modèle ResNet a obtenu les meilleurs résultats parmi tous les modèles, atteignant le coefficient de corrélation de Pearson (PCC) le plus élevé parmi 48 participants. Le PCC moyen pour causal et causal est respectivement de 0,806 et 0,797. , suivi du modèle Swin (le PCC moyen pour les cas non causals et causals est respectivement de 0,792 et 0,798) (Figure 2a)

Un résultat similaire a été obtenu par l'évaluation de l'indicateur STOI+ Les résultats La nature causale des modèles de décodage. a des implications significatives pour les applications d'interface cerveau-ordinateur (BCI) : les modèles causals utilisent uniquement les signaux neuronaux passés et actuels pour générer la parole, tandis que les modèles acausaux utilisent également les signaux neuronaux futurs. En utilisant un modèle non causal, cela n'est pas réalisable en temps réel. Par conséquent, les chercheurs se sont concentrés sur la comparaison des performances du même modèle lors de l'exécution d'opérations non causales et causales.

L'étude a révélé que même la version causale du modèle ResNet fonctionnait mieux que la version non causale. , et il n'y a pas de différence significative entre eux. De même, les performances des versions causales et non causales du modèle Swin sont similaires, mais les performances de la version causale du modèle LSTM sont nettement inférieures à celles de la version non causale. version, les chercheurs se concentreront donc sur les modèles ResNet et Swin à l'avenir.

Pour garantir que le cadre proposé dans cet article peut bien se généraliser à des mots invisibles, les chercheurs ont effectué une validation croisée plus stricte au niveau des mots, ce qui signifie que différents les essais du même mot n'apparaîtront pas dans l'ensemble d'entraînement et les tests en même temps

Comme le montre la figure 2b, les performances sur les mots invisibles sont comparables à la méthode expérimentale standard de l'article, indiquant que le modèle peut. décoder bien même s'il n'a pas été vu pendant la formation, ce qui est principalement dû à cet article. Le modèle construit effectue un décodage de phonème ou de parole de niveau similaire

En outre, les chercheurs démontrent les performances du décodeur causal ResNet au niveau d'un seul mot, en montrant les données de deux participants (taux d'échantillonnage à faible densité ECoG). Le spectrogramme décodé conserve avec précision la structure spectrale-temporelle du discours original (Figure 2c, d).

Les chercheurs ont également comparé les paramètres de parole prédits par le décodeur neuronal avec les paramètres codés par l'encodeur de parole (comme valeurs de référence). Les chercheurs ont montré la valeur PCC moyenne (N=48) de plusieurs paramètres de parole clés, y compris le poids sonore (). Utilisé pour distinguer les voyelles et les consonnes), le volume, la hauteur f0, le premier formant f1 et le deuxième formant f2. Une reconstruction précise de ces paramètres vocaux, en particulier la hauteur, le poids du son et les deux premiers formants, est essentielle pour obtenir un décodage et une reconstruction précis de la parole qui imite naturellement la voix du participant.

Les résultats de la recherche montrent que les modèles non causals et causals peuvent obtenir des résultats de décodage raisonnables, ce qui fournit des orientations positives pour les recherches et applications futures.

Étude sur le décodage vocal des signaux neuronaux du cerveau gauche et droit et le taux d'échantillonnage spatial

LIA aide la recherche sur linterface cerveau-ordinateur, la technologie révolutionnaire de décodage neuronal de la parole de lUniversité de New York, publiée dans la sous-journal Nature

Figure 3 : Comparaison des performances de décodage des modèles 3D ResNet et 3D Swin dans différents paramètres. (Source : article)

Les chercheurs ont ensuite comparé les résultats du décodage de la parole des hémisphères cérébraux gauche et droit. La plupart des études se concentrent sur l’hémisphère gauche du cerveau, responsable des fonctions de la parole et du langage. Cependant, on sait peu de choses sur la façon dont les informations linguistiques sont décodées à partir de l’hémisphère droit du cerveau. En réponse à cela, les chercheurs ont comparé les performances de décodage des hémisphères cérébraux gauche et droit des participants afin de vérifier la possibilité d'utiliser l'hémisphère cérébral droit pour la récupération de la parole.

Parmi les 48 sujets collectés dans l'étude, les signaux ECoG de 16 sujets ont été collectés à partir du cerveau droit. En comparant les performances des décodeurs ResNet et Swin, les chercheurs ont découvert que l'hémisphère droit peut également décoder la parole de manière stable (la valeur PCC de ResNet est de 0,790, la valeur PCC de Swin est de 0,798), ce qui est moins différent de l'effet de décodage de l'hémisphère gauche (comme illustré à la figure 3a).

Ce constat s’applique également à l’évaluation de STOI+. Cela signifie que pour les patients présentant des lésions de l’hémisphère gauche et une perte de capacité de langage, l’utilisation de signaux neuronaux de l’hémisphère droit pour restaurer le langage peut être une solution réalisable.

Ensuite, les chercheurs ont exploré l’impact de la densité d’échantillonnage des électrodes sur l’effet de décodage de la parole. Les études antérieures utilisaient principalement des grilles d'électrodes de densité plus élevée (0,4 mm), tandis que la densité des grilles d'électrodes couramment utilisées en pratique clinique est plus faible (DL 1 cm).

Cinq participants ont utilisé des grilles d'électrodes de type hybride (HB) (voir Figure 3b), qui sont principalement des échantillonnages à faible densité mais avec des électrodes supplémentaires incorporées. Les quarante-trois participants restants ont été échantillonnés à faible densité. Les performances de décodage de ces échantillons hybrides (HB) sont similaires à celles des échantillons traditionnels à faible densité (LD), mais fonctionnent légèrement mieux sur STOI+.

Les chercheurs ont comparé l'effet de l'utilisation d'électrodes de faible densité uniquement avec l'utilisation de toutes les électrodes mixtes pour le décodage et ont constaté que la différence entre les deux n'était pas significative (voir Figure 3d), ce qui indique que le modèle est capable d'échantillonner le cortex cérébral de différentes densités spatiales. Les informations vocales sont apprises, ce qui implique également que la densité d'échantillonnage couramment utilisée dans la pratique clinique pourrait être suffisante pour les futures applications d'interface cerveau-ordinateur.

Recherche sur la contribution des différentes zones cérébrales du cerveau gauche et droit au décodage de la parole

LIA aide la recherche sur linterface cerveau-ordinateur, la technologie révolutionnaire de décodage neuronal de la parole de lUniversité de New York, publiée dans la sous-journal Nature

Figure 4 : Analyse de la contribution. (Source : article)

Enfin, les chercheurs ont examiné la contribution des zones du cerveau liées à la parole dans le processus de décodage de la parole, ce qui constitue une référence importante pour l'implantation future de dispositifs de récupération de la parole dans les hémisphères gauche et droit du cerveau. Les chercheurs ont utilisé l’analyse d’occlusion pour évaluer la contribution de différentes régions du cerveau au décodage de la parole.

En bref, si une certaine zone est critique pour le décodage, alors bloquer le signal de l'électrode dans cette zone (c'est-à-dire mettre le signal à zéro) réduira la précision de la parole reconstruite (valeur PCC).

Avec cette méthode, les chercheurs ont mesuré la réduction de la valeur du PCC lorsque chaque zone était obstruée. En comparant les modèles causals et non causals des décodeurs ResNet et Swin, on constate que le cortex auditif contribue davantage au modèle non causal ; cela souligne que dans les applications de décodage de la parole en temps réel, des modèles causals doivent être utilisés car ; décodage de la parole en temps réel, nous ne pouvons pas exploiter les signaux de neurofeedback.

De plus, l'apport du cortex sensorimoteur, notamment de la zone abdominale, est similaire que ce soit dans l'hémisphère droit ou gauche, ce qui laisse penser qu'il pourrait être envisageable d'implanter des prothèses neurales dans l'hémisphère droit.

Conclusions et perspectives inspirantes

Les chercheurs ont développé un nouveau type de synthétiseur vocal différenciable qui peut utiliser un réseau neuronal convolutionnel léger pour coder la parole dans une série de paramètres vocaux interprétables (tels que la hauteur, le volume, les fréquences des formants, etc. ) et resynthétiser la parole via un synthétiseur vocal différentiable.

En mappant les signaux neuronaux sur ces paramètres de parole, les chercheurs ont construit un système de décodage de la parole neuronale hautement interprétable et applicable à des situations de petits volumes de données, et capable de générer une parole à consonance naturelle. Cette méthode est hautement reproductible entre les participants (48 personnes au total) et les chercheurs ont démontré avec succès l’efficacité du décodage causal à l’aide des architectures de convolution et de transformateur (3D Swin), toutes deux supérieures aux architectures récurrentes (LSTM).

Ce cadre peut gérer des densités d'échantillonnage spatial élevées et faibles et peut traiter les signaux EEG des hémisphères gauche et droit, montrant un fort potentiel de décodage de la parole.

La plupart des études précédentes n'ont pas pris en compte la causalité temporelle des opérations de décodage dans les applications d'interface cerveau-ordinateur en temps réel. De nombreux modèles non causals reposent sur des signaux de rétroaction sensorielle auditive. L'analyse des chercheurs a montré que le modèle non causal reposait principalement sur la contribution du gyrus temporal supérieur, alors que le modèle causal l'éliminait essentiellement. Les chercheurs pensent que la polyvalence des modèles non causals dans les applications BCI en temps réel est limitée en raison d’une dépendance excessive aux signaux de rétroaction.

Certaines méthodes tentent d'éviter le feedback lors de l'entraînement, comme par exemple le décodage du discours imaginé du sujet. Malgré cela, la plupart des études adoptent toujours des modèles causals et ne peuvent exclure les effets de rétroaction lors de la formation et de l'inférence. De plus, les réseaux de neurones récurrents largement utilisés dans la littérature sont généralement bidirectionnels, ce qui entraîne des comportements non causals et des retards de prédiction, tandis que nos expériences montrent que les réseaux récurrents formés de manière unidirectionnelle sont les plus performants.

Bien que l'étude n'ait pas testé le décodage en temps réel, les chercheurs ont atteint une latence inférieure à 50 millisecondes dans la synthèse de la parole à partir de signaux neuronaux, avec peu d'impact sur le retard auditif et permettant une production normale de la parole.

L'étude a examiné si une couverture à densité plus élevée pouvait améliorer les performances de décodage. Les chercheurs ont découvert que la couverture de grille à faible et haute densité permettait d'obtenir des performances de décodage élevées (voir Figure 3c). De plus, les chercheurs ont constaté que les performances de décodage utilisant toutes les électrodes n’étaient pas significativement différentes des performances utilisant uniquement des électrodes de faible densité (Figure 3d).

Cela prouve que tant que la couverture péritemporelle est suffisante, même chez les participants à faible densité, le décodeur ECoG proposé par les chercheurs peut extraire les paramètres de parole à partir de signaux neuronaux pour reconstruire la parole. Une autre découverte notable concerne la structure corticale de l’hémisphère droit et la contribution du cortex péritemporal droit au décodage de la parole. Bien que certaines études antérieures aient démontré une contribution possible de l'hémisphère droit au décodage des voyelles et des phrases, nos résultats fournissent la preuve d'une représentation phonologique robuste dans l'hémisphère droit.

Les chercheurs ont également mentionné certaines limites du modèle actuel, telles que le processus de décodage nécessitant des données d'entraînement à la parole associées à des enregistrements ECoG, qui pourraient ne pas être applicables aux patients aphasiques. À l’avenir, les chercheurs espèrent également développer des architectures modèles capables de gérer des données hors grille et de mieux utiliser les données EEG multi-patients et multimodales.

Le premier auteur de cet article : Xupeng Chen, Ran Wang, auteur correspondant : Adeen Flinker.

Soutien financier : National Science Foundation sous la subvention n° IIS-1912286, 2309057 (Y.W., A.F.) et National Institute of Health R01NS109367, R01NS115929, R01DC018805 (A.F.).

Pour plus de discussions sur la causalité dans le décodage neuronal de la parole, vous pouvez vous référer à un autre article des auteurs « Le traitement cortical de rétroaction et de rétroaction distribués prend en charge la production de la parole humaine » : https://www.pnas.org/doi /10.1073 /pnas.2300255120

Source : Communauté d'interface cerveau-ordinateur

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Repo: Comment relancer ses coéquipiers

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

R.E.P.O. Enregistrer l'emplacement du fichier: où est-il et comment le protéger?

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7334

Tutoriel Java

1627

Tutoriel CakePHP

1352

Tutoriel Laravel

1264

Tutoriel PHP

1209

Afficher plus

Related knowledge

Comment installer Deepseek Feb 19, 2025 pm 05:48 PM

Il existe de nombreuses façons d'installer Deepseek, notamment: Compiler à partir de Source (pour les développeurs expérimentés) en utilisant des packages précompilés (pour les utilisateurs de Windows) à l'aide de conteneurs Docker (pour le plus pratique, pas besoin de s'inquiéter de la compatibilité), quelle que soit la méthode que vous choisissez, veuillez lire Les documents officiels documentent soigneusement et les préparent pleinement à éviter des problèmes inutiles.

Résumé des FAQ pour une utilisation profonde Feb 19, 2025 pm 03:45 PM

Deepseekai Tool User Guide et FAQ Deepseek est un puissant outil intelligent AI. FAQ: La différence entre les différentes méthodes d'accès: il n'y a pas de différence de fonction entre la version Web, la version de l'application et les appels API, et l'application n'est qu'un wrapper pour la version Web. Le déploiement local utilise un modèle de distillation, qui est légèrement inférieur à la version complète de Deepseek-R1, mais le modèle 32 bits a théoriquement une capacité de version complète de 90%. Qu'est-ce qu'une taverne? SillyTavern est une interface frontale qui nécessite d'appeler le modèle AI via l'API ou le olllama. Qu'est-ce que la limite de rupture

Quels sont les outils d'IA ? Nov 29, 2024 am 11:11 AM

Les outils d'IA incluent : Doubao, ChatGPT, Gemini, BlenderBot, etc.

Quels sont les fonds de fiducie de cryptage en niveaux de gris? Mar 05, 2025 pm 12:33 PM

Investissement en niveaux de gris: le canal des investisseurs institutionnels pour entrer sur le marché des crypto-monnaies. La société a lancé plusieurs fiducies cryptographiques, ce qui a attiré une attention généralisée, mais l'impact de ces fonds sur les prix des jetons varie considérablement. Cet article présentera en détail certains des principaux fonds de fiducie de crypto de Graycale. Grayscale Major Crypto Trust Funds disponibles dans un investissement GrayScale GRAYS (fondée par DigitalCurrencyGroup en 2013) gère une variété de fonds fiduciaires d'actifs cryptographiques, fournissant des investisseurs institutionnels et des particuliers élevés avec des canaux d'investissement conformes. Ses principaux fonds comprennent: ZCash (Zec), Sol,

Alors que les principaux marchands entrent sur le marché de la cryptographie, quel impact sur les titres de château auront-ils sur l'industrie? Mar 04, 2025 pm 08:03 PM

L'entrée des principaux acteurs du marché Castle Securities dans Bitcoin Market Maker est un symbole de la maturité du marché Bitcoin et une étape clé pour les forces financières traditionnelles pour concurrencer le pouvoir de tarification des actifs. Le 25 février, selon Bloomberg, Citadel Securities cherche à devenir un fournisseur de liquidité pour les crypto-monnaies. La société vise à rejoindre la liste des fabricants de marché sur divers échanges, y compris les échanges exploités par CoinbaseGlobal, Binanceholdings et Crypto.com, ont déclaré des personnes familières avec l'affaire. Une fois approuvé par l'échange, la société prévoyait initialement de créer une équipe de fabricants de marchés en dehors des États-Unis. Ce mouvement n'est pas seulement un signe

Delphi Digital: Comment changer la nouvelle économie d'IA en analysant la nouvelle architecture Elizaos V2? Mar 04, 2025 pm 07:00 PM

ElizaOSV2: L'autonomisation de l'IA et de la direction de la nouvelle économie de WEB3. Cet article plongera dans les principales innovations d'ElizaOSV2 et comment elle façonne une économie future axée sur l'IA. Automatisation de l'IA: Aller exploiter indépendamment Elizaos était à l'origine un cadre d'IA axé sur l'automatisation Web3. La version V1 permet à l'IA d'interagir avec les contrats intelligents et les données de la blockchain, tandis que la version V2 atteint des améliorations de performances significatives. Au lieu d'exécuter simplement des instructions simples, l'IA peut gérer indépendamment les workflows, exploiter des affaires et développer des stratégies financières. Mise à niveau de l'architecture: amélioré un

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux Mar 12, 2025 pm 01:03 PM

Des chercheurs de l'Université de Shanghai Jiaotong, de Shanghai Ailab et de l'Université chinoise de Hong Kong ont lancé le projet open source Visual-RFT (visual d'amélioration), qui ne nécessite qu'une petite quantité de données pour améliorer considérablement les performances du gros modèle de langage visuel (LVLM). Visual-RFT combine intelligemment l'approche d'apprentissage en renforcement basée sur les règles de Deepseek-R1 avec le paradigme de relâchement de renforcement d'OpenAI (RFT), prolongeant avec succès cette approche du champ de texte au champ visuel. En concevant les récompenses de règles correspondantes pour des tâches telles que la sous-catégorisation visuelle et la détection d'objets, Visual-RFT surmonte les limites de la méthode Deepseek-R1 limitée au texte, au raisonnement mathématique et à d'autres domaines, fournissant une nouvelle façon de formation LVLM. Vis

Bitwise: les entreprises achètent un bitcoin une grande tendance négligée Mar 05, 2025 pm 02:42 PM

Observation hebdomadaire: les entreprises thésaurisation du Bitcoin - un changement de brassage que je souligne souvent certaines tendances du marché négligées dans des mémos hebdomadaires. Le mouvement de Microstrategy est un exemple brutal. Beaucoup de gens peuvent dire: "Microstrategy et Michaelsaylor sont déjà bien connus, à quoi allez-vous faire attention?" Cette vue est unilatérale. Des recherches approfondies sur l'adoption du bitcoin en tant qu'actif de réserve au cours des derniers mois montrent qu'il ne s'agit pas d'un cas isolé, mais d'une tendance majeure qui émerge. Je prédis qu'au cours des 12 à 18 prochains mois, des centaines d'entreprises suivront le pas et achèteront de grandes quantités de Bitcoin

See all articles