Maison Périphériques technologiques IA Exemples d'applications pratiques de la combinaison de fonctionnalités peu profondes et de fonctionnalités profondes

Exemples d'applications pratiques de la combinaison de fonctionnalités peu profondes et de fonctionnalités profondes

Jan 22, 2024 pm 05:00 PM
深度学习 计算机视觉 图像处理 réseau de neurones artificiels

Exemples dapplications pratiques de la combinaison de fonctionnalités peu profondes et de fonctionnalités profondes

L'apprentissage en profondeur a connu un grand succès dans le domaine de la vision par ordinateur, et l'une des avancées importantes est l'utilisation de réseaux de neurones convolutifs profonds (CNN) pour la classification d'images. Cependant, les CNN profonds nécessitent généralement de grandes quantités de données étiquetées et de ressources informatiques. Afin de réduire la demande en ressources informatiques et en données étiquetées, les chercheurs ont commencé à étudier comment fusionner des caractéristiques superficielles et des caractéristiques profondes pour améliorer les performances de classification des images. Cette méthode de fusion peut tirer parti de la grande efficacité de calcul des entités superficielles et de la forte capacité de représentation des entités profondes. En combinant les deux, les coûts de calcul et les exigences d’étiquetage des données peuvent être réduits tout en conservant une grande précision de classification. Cette méthode est particulièrement importante pour les scénarios d’application dans lesquels la quantité de données est faible ou les ressources informatiques limitées. Grâce à une étude approfondie de la méthode de fusion des caractéristiques peu profondes et des caractéristiques profondes, nous pouvons améliorer encore les performances des algorithmes de classification d'images et apporter davantage de percées dans la recherche et les applications dans le domaine de la vision par ordinateur.

Une méthode courante consiste à utiliser des modèles CNN en cascade. Le premier modèle CNN est utilisé pour extraire des caractéristiques superficielles, le deuxième modèle CNN est utilisé pour extraire des caractéristiques profondes, et enfin les sorties des deux modèles sont connectées pour améliorer la qualité. précision des résultats de la classification.

Ceci est un exemple d'utilisation d'un modèle CNN en cascade pour reconnaître des chiffres manuscrits. Le modèle utilise l'ensemble de données MNIST, qui comprend 60 000 images d'entraînement et 10 000 images de test, chaque taille d'image étant de 28 × 28 pixels.

Tout d'abord, nous définissons l'architecture du modèle. Nous utilisons deux modèles CNN pour extraire les fonctionnalités. Le premier modèle CNN contient deux couches convolutives et une couche de pooling maximale pour extraire les entités peu profondes. Le deuxième modèle CNN contient trois couches convolutives et une couche de pooling maximale pour extraire des fonctionnalités profondes. Ensuite, nous concaténons les sorties des deux modèles et ajoutons deux couches entièrement connectées pour la classification. Une telle architecture peut extraire des fonctionnalités riches et effectuer de meilleures tâches de classification.

import tensorflow as tf
from tensorflow.keras.layers import Input, Conv2D, MaxPooling2D, Flatten, Dense, Concatenate

# Define shallow CNN model
shallow_input = Input(shape=(28, 28, 1))
shallow_conv1 = Conv2D(32, (3, 3), activation='relu', padding='same')(shallow_input)
shallow_pool1 = MaxPooling2D((2, 2))(shallow_conv1)
shallow_conv2 = Conv2D(64, (3, 3), activation='relu', padding='same')(shallow_pool1)
shallow_pool2 = MaxPooling2D((2, 2))(shallow_conv2)
shallow_flat = Flatten()(shallow_pool2)
shallow_output = Dense(128, activation='relu')(shallow_flat)

# Define deep CNN model
deep_input = Input(shape=(28, 28, 1))
deep_conv1 = Conv2D(32, (3, 3), activation='relu', padding='same')(deep_input)
deep_pool1 = MaxPooling2D((2, 2))(deep_conv1)
deep_conv2 = Conv2D(64, (3, 3), activation='relu', padding='same')(deep_pool1)
deep_pool2 = MaxPooling2D((2, 2))(deep_conv2)
deep_conv3 = Conv2D(128, (3, 3), activation='relu', padding='same')(deep_pool2)
deep_pool3 = MaxPooling2D((2, 2))(deep_conv3)
deep_flat = Flatten()(deep_pool3)
deep_output = Dense(256, activation='relu')(deep_flat)

# Concatenate shallow and deep models
concatenate = Concatenate()([shallow_output, deep_output])
output = Dense(10, activation='softmax')(concatenate)

# Define the model
model = tf.keras.Model(inputs=[shallow_input, deep_input], outputs=output)
Copier après la connexion

Le modèle est ensuite compilé et entraîné. Étant donné que l'ensemble de données MNIST est un problème de classification multi-classes, la fonction de perte d'entropie croisée et l'optimiseur Adam sont utilisés pour compiler le modèle. Le modèle est formé sur l'ensemble de formation pour 100 époques, en utilisant 128 lots pour chaque époque.

# Compile the model
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Train the model
model.fit([x_train, x_train], y_train, batch_size=128, epochs=100, verbose=1, validation_data=([x_test, x_test], y_test))
Copier après la connexion

Enfin, évaluez les performances du modèle sur l'ensemble de test. Dans cet exemple, la précision du test du modèle CNN en cascade est de 99,2 %, soit environ 0,5 % de plus que la précision du test entraîné avec un seul modèle CNN, ce qui indique que la fusion de caractéristiques superficielles et de caractéristiques profondes peut en effet améliorer les performances de l'image. classification.

En bref, la fusion de caractéristiques superficielles et de caractéristiques profondes est une méthode efficace pour améliorer les performances de classification d'images. Cet exemple montre comment utiliser des modèles CNN en cascade pour reconnaître des chiffres manuscrits, où le premier modèle CNN extrait les caractéristiques superficielles, le deuxième modèle CNN extrait les caractéristiques profondes, puis les sorties des deux modèles sont concaténées pour la classification. Cette méthode est également largement utilisée dans de nombreuses autres tâches de classification d’images.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Au-delà d'ORB-SLAM3 ! SL-SLAM : les scènes de faible luminosité, de gigue importante et de texture faible sont toutes gérées Au-delà d'ORB-SLAM3 ! SL-SLAM : les scènes de faible luminosité, de gigue importante et de texture faible sont toutes gérées May 30, 2024 am 09:35 AM

Écrit précédemment, nous discutons aujourd'hui de la manière dont la technologie d'apprentissage profond peut améliorer les performances du SLAM (localisation et cartographie simultanées) basé sur la vision dans des environnements complexes. En combinant des méthodes d'extraction de caractéristiques approfondies et de correspondance de profondeur, nous introduisons ici un système SLAM visuel hybride polyvalent conçu pour améliorer l'adaptation dans des scénarios difficiles tels que des conditions de faible luminosité, un éclairage dynamique, des zones faiblement texturées et une gigue importante. Notre système prend en charge plusieurs modes, notamment les configurations étendues monoculaire, stéréo, monoculaire-inertielle et stéréo-inertielle. En outre, il analyse également comment combiner le SLAM visuel avec des méthodes d’apprentissage profond pour inspirer d’autres recherches. Grâce à des expériences approfondies sur des ensembles de données publiques et des données auto-échantillonnées, nous démontrons la supériorité du SL-SLAM en termes de précision de positionnement et de robustesse du suivi.

Comment utiliser la technologie IA pour restaurer d'anciennes photos (avec exemples et analyse de code) Comment utiliser la technologie IA pour restaurer d'anciennes photos (avec exemples et analyse de code) Jan 24, 2024 pm 09:57 PM

La restauration de photos anciennes est une méthode d'utilisation de la technologie de l'intelligence artificielle pour réparer, améliorer et améliorer de vieilles photos. Grâce à des algorithmes de vision par ordinateur et d’apprentissage automatique, la technologie peut identifier et réparer automatiquement les dommages et les imperfections des anciennes photos, les rendant ainsi plus claires, plus naturelles et plus réalistes. Les principes techniques de la restauration de photos anciennes incluent principalement les aspects suivants : 1. Débruitage et amélioration de l'image Lors de la restauration de photos anciennes, elles doivent d'abord être débruitées et améliorées. Des algorithmes et des filtres de traitement d'image, tels que le filtrage moyen, le filtrage gaussien, le filtrage bilatéral, etc., peuvent être utilisés pour résoudre les problèmes de bruit et de taches de couleur, améliorant ainsi la qualité des photos. 2. Restauration et réparation d'images Les anciennes photos peuvent présenter certains défauts et dommages, tels que des rayures, des fissures, une décoloration, etc. Ces problèmes peuvent être résolus par des algorithmes de restauration et de réparation d’images

Comprendre en un seul article : les liens et les différences entre l'IA, le machine learning et le deep learning Comprendre en un seul article : les liens et les différences entre l'IA, le machine learning et le deep learning Mar 02, 2024 am 11:19 AM

Dans la vague actuelle de changements technologiques rapides, l'intelligence artificielle (IA), l'apprentissage automatique (ML) et l'apprentissage profond (DL) sont comme des étoiles brillantes, à la tête de la nouvelle vague des technologies de l'information. Ces trois mots apparaissent fréquemment dans diverses discussions de pointe et applications pratiques, mais pour de nombreux explorateurs novices dans ce domaine, leurs significations spécifiques et leurs connexions internes peuvent encore être entourées de mystère. Alors regardons d'abord cette photo. On constate qu’il existe une corrélation étroite et une relation progressive entre l’apprentissage profond, l’apprentissage automatique et l’intelligence artificielle. Le deep learning est un domaine spécifique du machine learning, et le machine learning

Super fort! Top 10 des algorithmes de deep learning ! Super fort! Top 10 des algorithmes de deep learning ! Mar 15, 2024 pm 03:46 PM

Près de 20 ans se sont écoulés depuis que le concept d'apprentissage profond a été proposé en 2006. L'apprentissage profond, en tant que révolution dans le domaine de l'intelligence artificielle, a donné naissance à de nombreux algorithmes influents. Alors, selon vous, quels sont les 10 meilleurs algorithmes pour l’apprentissage profond ? Voici les meilleurs algorithmes d’apprentissage profond, à mon avis. Ils occupent tous une position importante en termes d’innovation, de valeur d’application et d’influence. 1. Contexte du réseau neuronal profond (DNN) : Le réseau neuronal profond (DNN), également appelé perceptron multicouche, est l'algorithme d'apprentissage profond le plus courant lorsqu'il a été inventé pour la première fois, jusqu'à récemment en raison du goulot d'étranglement de la puissance de calcul. années, puissance de calcul, La percée est venue avec l'explosion des données. DNN est un modèle de réseau neuronal qui contient plusieurs couches cachées. Dans ce modèle, chaque couche transmet l'entrée à la couche suivante et

Une étude de cas sur l'utilisation du modèle LSTM bidirectionnel pour la classification de texte Une étude de cas sur l'utilisation du modèle LSTM bidirectionnel pour la classification de texte Jan 24, 2024 am 10:36 AM

Le modèle LSTM bidirectionnel est un réseau neuronal utilisé pour la classification de texte. Vous trouverez ci-dessous un exemple simple montrant comment utiliser le LSTM bidirectionnel pour les tâches de classification de texte. Tout d'abord, nous devons importer les bibliothèques et modules requis : importosimportnumpyasnpfromkeras.preprocessing.textimportTokenizerfromkeras.preprocessing.sequenceimportpad_sequencesfromkeras.modelsimportSequentialfromkeras.layersimportDense,Em

AlphaFold 3 est lancé, prédisant de manière exhaustive les interactions et les structures des protéines et de toutes les molécules de la vie, avec une précision bien plus grande que jamais AlphaFold 3 est lancé, prédisant de manière exhaustive les interactions et les structures des protéines et de toutes les molécules de la vie, avec une précision bien plus grande que jamais Jul 16, 2024 am 12:08 AM

Editeur | Radis Skin Depuis la sortie du puissant AlphaFold2 en 2021, les scientifiques utilisent des modèles de prédiction de la structure des protéines pour cartographier diverses structures protéiques dans les cellules, découvrir des médicaments et dresser une « carte cosmique » de chaque interaction protéique connue. Tout à l'heure, Google DeepMind a publié le modèle AlphaFold3, capable d'effectuer des prédictions de structure conjointe pour des complexes comprenant des protéines, des acides nucléiques, de petites molécules, des ions et des résidus modifiés. La précision d’AlphaFold3 a été considérablement améliorée par rapport à de nombreux outils dédiés dans le passé (interaction protéine-ligand, interaction protéine-acide nucléique, prédiction anticorps-antigène). Cela montre qu’au sein d’un cadre unique et unifié d’apprentissage profond, il est possible de réaliser

Interprétation du concept de suivi de cible en vision par ordinateur Interprétation du concept de suivi de cible en vision par ordinateur Jan 24, 2024 pm 03:18 PM

Le suivi d'objets est une tâche importante en vision par ordinateur et est largement utilisé dans la surveillance du trafic, la robotique, l'imagerie médicale, le suivi automatique des véhicules et d'autres domaines. Il utilise des méthodes d'apprentissage profond pour prédire ou estimer la position de l'objet cible dans chaque image consécutive de la vidéo après avoir déterminé la position initiale de l'objet cible. Le suivi d'objets a un large éventail d'applications dans la vie réelle et revêt une grande importance dans le domaine de la vision par ordinateur. Le suivi d'objets implique généralement le processus de détection d'objets. Voici un bref aperçu des étapes de suivi des objets : 1. Détection d'objets, où l'algorithme classe et détecte les objets en créant des cadres de délimitation autour d'eux. 2. Attribuez une identification (ID) unique à chaque objet. 3. Suivez le mouvement des objets détectés dans des images tout en stockant les informations pertinentes. Types de cibles de suivi de cible

Comment utiliser les modèles hybrides CNN et Transformer pour améliorer les performances Comment utiliser les modèles hybrides CNN et Transformer pour améliorer les performances Jan 24, 2024 am 10:33 AM

Convolutional Neural Network (CNN) et Transformer sont deux modèles d'apprentissage en profondeur différents qui ont montré d'excellentes performances sur différentes tâches. CNN est principalement utilisé pour les tâches de vision par ordinateur telles que la classification d'images, la détection de cibles et la segmentation d'images. Il extrait les caractéristiques locales de l'image via des opérations de convolution et effectue une réduction de dimensionnalité des caractéristiques et une invariance spatiale via des opérations de pooling. En revanche, Transformer est principalement utilisé pour les tâches de traitement du langage naturel (NLP) telles que la traduction automatique, la classification de texte et la reconnaissance vocale. Il utilise un mécanisme d'auto-attention pour modéliser les dépendances dans des séquences, évitant ainsi le calcul séquentiel dans les réseaux neuronaux récurrents traditionnels. Bien que ces deux modèles soient utilisés pour des tâches différentes, ils présentent des similitudes dans la modélisation des séquences.

See all articles