Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B-IA-php.cn

Table des matières

Moteur ASR de haute qualité

Démarrage à froid des données

Filtrage des données d'entreprise

Hybride ou E2E

Sélection de solutions de bout en bout

Solution ASR de haute qualité

[1] A Baevski, H Zhou, et al. wav2vec 2.0 : Un cadre pour l'apprentissage auto-supervisé des représentations de la parole

Maison

Périphériques technologiques

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

王林

Apr 15, 2023 am 10:40 AM

解码器技术语音识别

La technologie de reconnaissance vocale automatique (ASR) a été mise en œuvre à grande échelle dans des scénarios commerciaux connexes de Bilibili, tels que l'examen de la sécurité du contenu audio et vidéo, les sous-titres IA (côté C, must-cut, diffusion en direct S12, etc.), compréhension de la vidéo (recherche en texte intégral) )attendez.

De plus, le moteur ASR de Bilibili a également remporté la première place lors de la dernière évaluation à grande échelle du benchmark industriel SpeechIO (https://github.com/SpeechColab/Leaderboard) en novembre 2022 (https://github.com/ SpeechColab/Leaderboard#5-ranking), et l'avantage est plus évident dans l'ensemble de tests privés.

Classement de tous les ensembles de tests
Classement	Fabricant	Taux d'erreur
1	Station B	2,82%
2	Alibaba Cloud	2,85%
3	Y itu	3.16%
4	Microsoft	3,28%
5	Tencent	3,85%
6	iFlytek	4. 05%
7	VITESSE	5,19%
8	Baidu	8,14%

Sous-titres AI (face C chinoise et anglaise, must-cut, diffusion en direct S12, etc.)

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

Recherche en texte intégral

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

Cet article présentera le processus, nous avons accumulé et exploré des données et des algorithmes.

Moteur ASR de haute qualité

Un moteur ASR de haute qualité (rentable) adapté à la production industrielle, il doit avoir les caractéristiques suivantes :

	Explication
Haute précision	Haute précision et bonne robustesse dans des scénarios commerciaux pertinents
Haute performance	Industrie le déploiement Rial a une faible latence, une vitesse rapide et consomme ressources informatiques Moins
Haute évolutivité	Peut prendre en charge efficacement la personnalisation des itérations métier et répondre aux besoins de mise à jour rapide de l'entreprise

Ce qui suit présentera notre exploration et notre pratique associées dans les aspects ci-dessus, basées sur le scénario commercial de la station B.

Démarrage à froid des données

La tâche de reconnaissance vocale consiste à identifier complètement le contenu du texte à partir d'un morceau de discours (parole à texte).

Le système ASR qui répond aux besoins de la production industrielle moderne s'appuie sur une quantité importante et diversifiée de données d'entraînement. Ici, la « diversité » fait référence à des données non homogènes telles que l'environnement de l'intervenant, le contexte de la scène (terrain) et. l'accent de l'orateur.

Pour le scénario commercial de Bilibili, nous devons d'abord résoudre le problème du démarrage à froid des données d'entraînement vocal. Nous rencontrerons les défis suivants :

Démarrage à froid : il n'y a qu'une très petite quantité de données open source au niveau. début, et les données achetées correspondent au scénario commercial. Le degré est très faible.
Large gamme de scénarios commerciaux : Les scénarios commerciaux audio et vidéo de la Station B couvrent des dizaines de domaines, qui peuvent être considérés comme un domaine général et ont des exigences élevées en matière de « diversité » des données.
Mélange de chinois et d'anglais : la station B compte plus de jeunes utilisateurs et il existe davantage de vidéos de culture générale mélangées en chinois et en anglais.

Pour les problèmes ci-dessus, nous avons adopté les solutions de données suivantes :

Filtrage des données d'entreprise

Le site B a un petit nombre de sous-titres (sous-titres cc) soumis par les propriétaires ou les utilisateurs d'UP, mais il Il y a aussi quelques problèmes :

Les horodatages de début et de fin des phrases se trouvent souvent au milieu du premier et du dernier mot ou après quelques mots
Il n'y a pas de correspondance complète entre la voix et le texte ; il y a trop de mots, trop peu de mots, de commentaires ou de traductions, et il y a des interprétations basées sur le sens La situation de génération de sous-titres
Conversion numérique, comme les sous-titres en 2002 (prononciation réelle de 2002, 2002, etc.) ;

À cette fin, nous nous basons sur des données open source, des données de produits finis achetés et une petite quantité de données annotées. Former un modèle de base pour filtrer les données et utiliser le texte de sous-titre soumis pour former un modèle de sous-langage pour l'alignement du temps des phrases. et filtrage des sous-titres ;

Formation semi-supervisée

Ces dernières années, en raison des données, la puissance de calcul du GPU a considérablement augmenté. Le coût de l'amélioration et de l'annotation manuelle à grande échelle des données est trop élevé, et un un grand nombre de méthodes de formation non supervisées (wav2vec, HuBERT, data2vec, etc.) [1][2] et semi-supervisées ont vu le jour dans l'industrie.

Le site B contient une grande quantité de données commerciales non étiquetées. Parallèlement, nous avons également obtenu une grande quantité de données vidéo non étiquetées provenant d'autres sites Web. Nous avons utilisé une méthode de formation semi-supervisée appelée NST (Noisy Student Training) [3]. au début.

Étape initiale Près de 500 000 manuscrits ont été examinés selon la répartition sur le terrain et le volume de diffusion, et ont finalement généré environ 40 000 heures de données d'annotation automatiques. Après les 15 000 heures initiales de formation aux données d'annotation, la précision de la reconnaissance a été améliorée. environ 15 %, et la robustesse du modèle a été considérablement améliorée.

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

Figure 1

En utilisant des données open source, des données de soumission du site B, des données d'annotation manuelle et des données d'annotation automatique, nous avons initialement résolu le problème de démarrage à froid des données. Avec l'itération du modèle, nous pouvons filtrer davantage les données. données de domaine avec une mauvaise reconnaissance. ,

Cela forme un cycle positif. Après avoir initialement résolu le problème des données, nous nous concentrerons ci-dessous sur l’optimisation de l’algorithme du modèle.

Optimisation de l'algorithme de modèle

Historique du développement de la technologie ASR

Passons brièvement en revue l'histoire du développement de la reconnaissance vocale moderne, qui peut être grossièrement divisée en trois étapes :

La première étape commence De 1993 à 2009, la reconnaissance vocale est dans l'ère HMM-GMM, qui est passée d'une base de correspondance de modèles standard à des modèles statistiques. L'accent de la recherche est également passé du petit vocabulaire et des mots isolés au grand vocabulaire et au non. reconnaissance vocale continue spécifique. Le développement de la reconnaissance vocale a été relativement lent pendant une longue période depuis les années 1990, et le taux d'erreur de reconnaissance n'a pas diminué de manière significative.

La deuxième étape s'étend de 2009 à 2015 environ. Avec l'amélioration significative de la puissance de calcul des GPU, l'apprentissage profond a commencé à prendre de l'ampleur dans la reconnaissance vocale en 2009. Le cadre de reconnaissance vocale a commencé à se transformer en HMM-DNN et a commencé à entrer dans l'ère DNN. La précision de la reconnaissance vocale a été considérablement améliorée.

La troisième étape a lieu après 2015. En raison de l'essor de la technologie de bout en bout, le développement du CV, de la PNL et d'autres domaines de l'IA se favorise mutuellement. La reconnaissance vocale commence à utiliser des réseaux plus profonds et plus complexes, tout en utilisant des réseaux de bout en bout. une technologie de bout en bout pour améliorer encore considérablement les performances de la reconnaissance vocale dépasse même le niveau humain dans certaines conditions restreintes.

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

Figure 2

Solution technique B battle ASR

Introduction aux concepts importants

Pour faciliter la compréhension, voici une brève introduction à quelques concepts de base importants

Modélisation unité

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

Hybride ou E2E

La deuxième étape du cadre hybride basé sur un réseau neuronal HMM-DNN présente une énorme amélioration de la précision de la reconnaissance vocale par rapport à la première étape du système HMM-GMM. Cela a également été reconnu par tout le monde.

Cependant, la troisième phase de comparaison du système de bout en bout (E2E) avec la deuxième phase a également été controversée dans l'industrie pendant un certain temps [4] avec le développement de la technologie de l'IA, en particulier l'émergence des transformateurs. modèles associés, La capacité de représentation du modèle devient de plus en plus forte.

Dans le même temps, avec l'amélioration significative de la puissance de calcul du GPU, nous pouvons ajouter davantage de formation sur les données. La solution de bout en bout montre progressivement ses avantages, et de plus en plus d'entreprises choisissent un plan de bout en bout.

Nous comparons ici ces deux solutions basées sur le scénario commercial de Bilibili :

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

Figure 3

La figure 2 est un framework DNN-HMM typique. On peut voir que son pipeline est très long et dans différentes langues . nécessite une expertise professionnelle. Dictionnaire de prononciation,

Et le système de bout en bout de la figure 3 place tout cela dans un modèle de réseau neuronal. L'entrée du réseau neuronal est l'audio (ou les fonctionnalités), et la sortie est le résultat de la reconnaissance. nous voulons.

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

Figure 4

Avec le développement de la technologie, les avantages des systèmes de bout en bout en termes d'outils de développement, de communautés et de performances deviennent de plus en plus évidents :

Comparaison des outils et des communautés représentatifs

	Cadre hybride (hybride)	Cadre de bout en bout (E2E)
Représentatif ouvert outils sources et communautés	HTK, Kaldi	Espnet, Wenet, DeepSpeech, K2, etc.
Langages de programmation	C/C++, Shell	Python, Shell
Extensibilité		TensorFlow /Pytorch

Comparaison des performances

Le tableau suivant est le résultat optimal (CER) d'ensembles de données typiques basés sur des outils représentatifs :

Hybrid Framework (hy mariée) Framework de bout en bout (E2E) signifie outils KaldiEspnet signifie technologie tdnn+chain+rnnlm rescoring G igaSpeech14.84Aishell-17.43



10.80
4.72
WenetSpeech	12.83	8.80

En bref, en choisissant un système de bout en bout, par rapport au cadre hybride traditionnel, compte tenu de certaines ressources, nous pouvons développer un système ASR de haute qualité plus rapidement et mieux.

Bien sûr, sur la base du cadre hybride, si nous utilisons également des modèles tout aussi avancés et des décodeurs hautement optimisés, nous pouvons obtenir des résultats proches de bout en bout, mais nous devrons peut-être investir plusieurs fois la main-d'œuvre et les ressources pour développer et optimiser ce système.

Sélection de solutions de bout en bout

Bilibili dispose de centaines de milliers d'heures d'audio qui doivent être transcrites chaque jour, ce qui nécessite un débit et une vitesse élevés du système ASR. La précision de la génération de l'IA. Les exigences en matière de sous-titres sont également élevées et la couverture des scènes de la station B est également très étendue. Il est très important pour nous de choisir un système ASR raisonnable et efficace.

Système ASR idéal

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

Figure 5

Nous espérons construire un système ASR efficace basé sur le cadre de bout en bout pour résoudre les problèmes du scénario de la station B.

Comparaison des systèmes de bout en bout

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

Figure 6

La figure 4 représente les trois systèmes de bout en bout représentatifs [5], à savoir E2E-CTC, E2E-RNNT et E2E-AED. ce qui suit provient de Comparez les avantages et les inconvénients de chaque système sous divers aspects (plus le score est élevé, mieux c'est)

E2E-RNNT

E2E-CTC optimiséPrécision de la reconnaissanceEn temps réel (streaming) Coût et rapidité

6	5	6
3	5	5
4	3	5
Résolution rapide	3	3	6
Itération rapide et efficace	6	4	5

Comparaison de précision sans streaming (CER)

Ce qui précède sont les résultats de scènes de vie et de nourriture à la station B sur la base de 2 000 heures et 15 000 heures de données de formation vidéo respectivement. Chain et E2E-CTC utilisent le modèle de langage étendu formé avec le même corpus,

E2E-AED et E2E. -RNNT n'utilise pas l'extension. Le modèle de langage et le système de bout en bout sont basés sur le modèle Conformer.

Le deuxième tableau montre que la précision d'un seul système E2E-CTC n'est pas significativement plus faible que celle des autres systèmes de bout en bout, mais en même temps, le système E2E-CTC présente les avantages suivants :

Parce qu'il n'y a pas d'autorégression de la structure du réseau neuronal (décodeur AED et prédiction RNNT), le système E2E-CTC présente des avantages naturels en termes de streaming, de vitesse de décodage et de coût de déploiement
En termes de personnalisation commerciale, le système E2E-CTC ; Il est également plus facile de connecter en externe divers modèles de langage (nnlm et ngram). Cela rend sa stabilité de généralisation nettement meilleure que celle des autres systèmes de bout en bout dans des domaines généralement ouverts où la couverture des données est insuffisante.

Solution ASR de haute qualité

Cadre ASR évolutif de haute précision

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

Figure 7

Dans l'environnement de production de Bilibili, il a des exigences élevées en matière de vitesse, de précision et de consommation de ressources , il existe également des besoins de mises à jour et de personnalisation rapides dans différents scénarios (tels que les mots d'entité liés aux manuscrits, la personnalisation de jeux et d'événements sportifs populaires, etc.

Ici, nous adoptons généralement un système CTC de bout en bout et résolvons). le problème via des problèmes de personnalisation de l'évolutivité des décodeurs dynamiques. Ce qui suit se concentrera sur les travaux d’optimisation de la précision, de la vitesse et de l’évolutivité du modèle.

Formation discriminante CTC de bout en bout

Notre système utilise des caractères chinois plus une modélisation BPE anglaise Après une formation multitâche basée sur AED et CTC, nous ne retenons que la partie CTC, et nous effectuerons une formation discriminante plus tard. Nous adoptons un MMI sans réseau de bout Différences dans l'entraînement sexuel

1. Approche traditionnelle

a. Générez d'abord le treillis d'alignement et de décodage correspondant à tous les corpus d'entraînement sur le CPU

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B b. Pendant l'entraînement, chaque mini-lot calcule respectivement le numérateur et le treillis à partir du pré-généré ; alignement et treillis. Dénominateur et mise à jour du modèle

a. Formation discriminante mmi sans réseau basée sur le téléphone

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B

1. Modélisez directement les personnages et le BPE anglais de bout en bout, abandonnant la structure de transfert d'état hmm du téléphone

2. La granularité de la modélisation est grande, l'entrée de formation ne l'est pas ; approximativement tronqué, et le contexte est la phrase entière ;

Le tableau suivant est basé sur 15 000 heures de données. Une fois la formation CTC terminée, 3 000 heures sont sélectionnées pour une formation discriminante utilisant la confiance de décodage. Les résultats de la formation discriminante MMI sans réseau de bout en bout sont meilleurs que la formation DT traditionnelle, à l'exception de la précision. Avec l'amélioration, l'ensemble du processus de formation peut être complété dans le GPU tensorflow/pytorch. Ensemble de tests vidéo de la station B

DT traditionnel

	2000 heures	15000 heures
Modèle chaîne Kaldi+LM	13.7	--
E2E-AED	11.8	6.6
E2E-RNNT	12.4	--
E2E-CTC(gourmand)	13.1	7.1
E2E-CTC+LM optimisé	1 0.2	5.8
6.63
E2E LFMMI DT	6.13

Par rapport aux systèmes hybrides, les horodatages des résultats de décodage du système de bout en bout ne sont pas très précis. La formation AED ne s'aligne pas de manière monotone avec le temps. Le modèle formé par CTC est beaucoup plus précis que les horodatages AED, mais il existe également un problème de pointe. Chaque mot La durée est inexacte ;

Après un entraînement discriminant de bout en bout, la sortie du modèle deviendra plus plate et les limites d'horodatage des résultats de décodage seront plus précises

Décodeur CTC de bout en bout

;

Dans le développement de la technologie de reconnaissance vocale Dans le processus, qu'il s'agisse de la première étape basée sur GMM-HMM ou de la deuxième étape basée sur le cadre hybride DNN-HMM, le décodeur est un composant très important.

Les performances du décodeur déterminent directement la vitesse et la précision du système ASR final. L'expansion et la personnalisation des activités reposent également principalement sur des solutions de décodeur flexibles et efficaces. Les décodeurs traditionnels, qu'il s'agisse de décodeurs dynamiques ou de décodeurs statiques basés sur WFST, sont très complexes. Ils reposent non seulement sur de nombreuses connaissances théoriques, mais nécessitent également une conception en ingénierie logicielle professionnelle. Le développement d'un moteur de décodage traditionnel avec des performances supérieures nécessite non seulement une conception en ingénierie logicielle professionnelle. beaucoup de développement de main-d'œuvre au début, et les coûts de maintenance ultérieurs sont également très élevés.

Un décodeur WFST traditionnel typique doit compiler hmm, le contexte triphone, le dictionnaire et le modèle de langage dans un réseau unifié, à savoir HCLG, dans un espace de recherche de réseau FST unifié, ce qui peut améliorer la vitesse et la précision du décodage.

Avec la maturité de la technologie des systèmes de bout en bout, l'unité de modélisation du système de bout en bout a une plus grande granularité, comme les mots chinois ou les mots anglais, car la structure de transfert HMM traditionnelle, le contexte triphone et le dictionnaire de prononciation sont supprimés. , cela rend l'espace de recherche de décodage ultérieur beaucoup plus petit, nous choisissons donc un décodeur dynamique simple et efficace basé sur la recherche de faisceaux. Par rapport au décodeur WFST traditionnel, le décodeur dynamique de bout en bout a. les avantages suivants :

Occupe peu de ressources, généralement 1/5 des ressources de décodage WFST ;
Son faible degré de couplage facilite la personnalisation du business et l'intégration du décodage avec différents modèles de langage ; chaque modification ne nécessite pas de recompilation des ressources de décodage ;

Pratique de mise en œuvre de la technologie de reconnaissance vocale dans la station B Figure 8

Déploiement d'inférence de modèle

dans un cadre raisonnable et efficace ; Pour terminer le cadre ASR, la partie avec la plus grande quantité de calcul devrait être l'inférence du modèle de réseau neuronal, et cette partie à forte intensité de calcul peut utiliser pleinement la puissance de calcul du GPU. Nous optimisons le déploiement de l'inférence du modèle à partir de l'inférence. service, structure du modèle et quantification du modèle :

Le modèle utilise l'inférence demi-précision F16

Le modèle est converti en FasterTransformer[9], basé sur le transformateur hautement optimisé de nvidia
Utilisation de triton pour déployer automatiquement le modèle d'inférence ; regroupement de lots, améliorant pleinement l'efficacité d'utilisation du GPU ;
Sur un seul GPU T4 La vitesse est augmentée de 30 %, le débit est multiplié par 2 et 3 000 heures d'audio peuvent être transcrites en une heure

Résumé ;

Cet article présente principalement la mise en œuvre de la technologie de reconnaissance vocale dans la scène de Bilibili Comment résoudre le problème des données de formation à partir de zéro, la sélection de la solution technique globale, l'introduction et l'optimisation de chaque sous-. module, comprenant la formation du modèle, l'optimisation du décodeur et le déploiement de l'inférence de service, etc. À l'avenir, nous améliorerons encore l'expérience utilisateur dans les scénarios d'atterrissage pertinents, tels que l'utilisation de la technologie de mots chauds instantanés pour optimiser l'exactitude des mots d'entité pertinents au niveau du manuscrit, combinée à la technologie liée au streaming ASR, une prise en charge personnalisée plus efficace pour le réel ; transcription temporelle sous-titrée de jeux et d'événements sportifs.

Références

[1] A Baevski, H Zhou, et al. wav2vec 2.0 : Un cadre pour l'apprentissage auto-supervisé des représentations de la parole

[2] A Baevski, W Hsu, et al. Apprentissage auto-supervisé de la parole, de la vision et du langage

[3] Daniel S, Y Zhang, et al. Formation améliorée des étudiants bruyants pour la reconnaissance automatique de la parole

[4] C Lüscher, E Beck, et al. LibriSpeech : Hybride vs Attention - sans augmentation des données

[5] R Prabhavalkar, K Rao, et al, Une comparaison des modèles séquence à séquence pour la reconnaissance vocale

[6] D Povey, V Peddinti1, et al, Réseaux de neurones purement entraînés en séquence pour l'ASR basés sur MMI sans réseau

[7] H Xiang, Z Ou, MODÉLISATION ACOUSTIQUE EN UNE ÉTAPE BASÉE SUR CRF AVEC TOPOLOGIE CTC

[8] Z Chen, W Deng, et al, Décodage synchrone téléphonique avec réseau CTC

[9]

https://www.php.cn/link/2ea6241cf767c279cf1e80a790df1885

L'auteur de ce numéro : Deng Wei

Ingénieur senior en algorithmes

Responsable de la direction reconnaissance vocale chez Bilibili

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Will R.E.P.O. Vous avez un jeu croisé?

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7555

Tutoriel CakePHP

1383

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment reconnaître automatiquement la parole et générer des sous-titres dans un extrait de film Introduction à la méthode de génération automatique de sous-titres. Mar 14, 2024 pm 08:10 PM

Comment implémentons-nous certaines fonctions de sous-titres générés par la voix sur cette plateforme ? Lorsque nous réalisons des vidéos, afin d'avoir plus de qualité, ou lors de la narration de certaines histoires, nous devons ajouter nos sous-titres, afin que chacun puisse mieux comprendre les informations de certaines. des vidéos ci-dessus. Cela joue également un rôle dans l'expression, mais de nombreux utilisateurs ne sont pas très familiers avec la reconnaissance vocale automatique et la génération de sous-titres. Peu importe où ils se trouvent, nous pouvons facilement vous permettre de faire de meilleurs choix dans divers aspects, si vous l'aimez aussi, vous devez le faire. ne le manquez pas. Nous devons lentement comprendre certaines compétences fonctionnelles, etc., alors dépêchez-vous et jetez un œil avec l'éditeur, ne le manquez pas.

Comment mettre en œuvre un système de reconnaissance vocale en ligne à l'aide de WebSocket et JavaScript Dec 17, 2023 pm 02:54 PM

Comment utiliser WebSocket et JavaScript pour mettre en œuvre un système de reconnaissance vocale en ligne Introduction : Avec le développement continu de la technologie, la technologie de reconnaissance vocale est devenue une partie importante du domaine de l'intelligence artificielle. Le système de reconnaissance vocale en ligne basé sur WebSocket et JavaScript présente les caractéristiques d'une faible latence, d'un temps réel et d'une multiplateforme, et est devenu une solution largement utilisée. Cet article explique comment utiliser WebSocket et JavaScript pour implémenter un système de reconnaissance vocale en ligne.

Le papier Stable Diffusion 3 est enfin publié, et les détails architecturaux sont révélés. Cela aidera-t-il à reproduire Sora ? Mar 06, 2024 pm 05:34 PM

L'article de StableDiffusion3 est enfin là ! Ce modèle est sorti il y a deux semaines et utilise la même architecture DiT (DiffusionTransformer) que Sora. Il a fait beaucoup de bruit dès sa sortie. Par rapport à la version précédente, la qualité des images générées par StableDiffusion3 a été considérablement améliorée. Il prend désormais en charge les invites multithèmes, et l'effet d'écriture de texte a également été amélioré et les caractères tronqués n'apparaissent plus. StabilityAI a souligné que StableDiffusion3 est une série de modèles avec des tailles de paramètres allant de 800M à 8B. Cette plage de paramètres signifie que le modèle peut être exécuté directement sur de nombreux appareils portables, réduisant ainsi considérablement l'utilisation de l'IA.

Méthode détaillée pour désactiver la reconnaissance vocale dans le système WIN10 Mar 27, 2024 pm 02:36 PM

1. Entrez dans le panneau de configuration, recherchez l'option [Reconnaissance vocale] et activez-la. 2. Lorsque la page de reconnaissance vocale apparaît, sélectionnez [Options vocales avancées]. 3. Enfin, décochez [Exécuter la reconnaissance vocale au démarrage] dans la colonne Paramètres utilisateur de la fenêtre Propriétés vocales.

Avez-vous vraiment maîtrisé la conversion des systèmes de coordonnées ? Des enjeux multi-capteurs indispensables à la conduite autonome Oct 12, 2023 am 11:21 AM

Le premier article pilote et clé présente principalement plusieurs systèmes de coordonnées couramment utilisés dans la technologie de conduite autonome, et comment compléter la corrélation et la conversion entre eux, et enfin construire un modèle d'environnement unifié. L'objectif ici est de comprendre la conversion du véhicule en corps rigide de caméra (paramètres externes), la conversion de caméra en image (paramètres internes) et la conversion d'image en unité de pixel. La conversion de 3D en 2D aura une distorsion, une traduction, etc. Points clés : Le système de coordonnées du véhicule et le système de coordonnées du corps de la caméra doivent être réécrits : le système de coordonnées planes et le système de coordonnées des pixels Difficulté : la distorsion de l'image doit être prise en compte. La dé-distorsion et l'ajout de distorsion sont compensés sur le plan de l'image. 2. Introduction Il existe quatre systèmes de vision au total : système de coordonnées du plan de pixels (u, v), système de coordonnées d'image (x, y), système de coordonnées de caméra () et système de coordonnées mondiales (). Il existe une relation entre chaque système de coordonnées,

Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Feb 28, 2024 pm 07:20 PM

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! Mar 21, 2024 pm 05:21 PM

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

si rapide! Reconnaissez la parole vidéo en texte en quelques minutes seulement avec moins de 10 lignes de code Feb 27, 2024 pm 01:55 PM

Bonjour à tous, je m'appelle Kite. Il y a deux ans, le besoin de convertir des fichiers audio et vidéo en contenu texte était difficile à réaliser, mais il peut désormais être facilement résolu en quelques minutes seulement. On dit que pour obtenir des données de formation, certaines entreprises ont entièrement exploré des vidéos sur des plateformes vidéo courtes telles que Douyin et Kuaishou, puis ont extrait l'audio des vidéos et les ont converties sous forme de texte pour les utiliser comme corpus de formation pour les modèles Big Data. . Si vous devez convertir un fichier vidéo ou audio en texte, vous pouvez essayer cette solution open source disponible aujourd'hui. Par exemple, vous pouvez rechercher des moments précis où apparaissent des dialogues dans des programmes de cinéma et de télévision. Sans plus attendre, entrons dans le vif du sujet. Whisper est le Whisper open source d'OpenAI. Bien sûr, il est écrit en Python et ne nécessite que quelques packages d'installation simples.

See all articles