L'intégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois l'effet de compression sans perte-IA-php.cn

Table des matières

Introduction

Modèle

01 La composition morphémique d'un mot

02 Représentation compressée d'incorporations de mots sous la forme de tenseurs intriqués

03 Représentation de compression intégrant des mots tenseurs améliorés par la morphologie

Maison

Périphériques technologiques

L'intégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois l'effet de compression sans perte

王林

May 17, 2023 pm 04:01 PM

参数方法

Introduction

La représentation d'intégration de mots est la base de diverses tâches de traitement du langage naturel telles que la traduction automatique, la réponse aux questions, la classification de texte, etc. Elle représente généralement 20 à 90 % du total des paramètres du modèle. Le stockage et l'accès à ces intégrations nécessitent une grande quantité d'espace, ce qui n'est pas propice au déploiement et à l'application de modèles sur des appareils aux ressources limitées. Pour résoudre ce problème, cet article propose la Méthode de compression d'intégration de mots MorphTE. MorphTE combine les puissantes capacités de compression des opérations de produits tensoriels avec une connaissance préalable de la morphologie du langage pour obtenir une compression élevée des paramètres d'incorporation de mots (plus de 20 fois) tout en conservant les performances du modèle.

Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte

Lien papier : https://arxiv.org/abs/2210.15379
Code source ouvert : https://github.com/bigganbing/Fairseq_MorphTE

Modèle

La méthode de compression d'intégration de mots MorphTE proposée dans cet article divise d'abord les mots en les plus petites unités ayant une signification sémantique - les morphèmes, et entraîne une représentation vectorielle de basse dimension pour chaque morphème, puis utilise des produits tensoriels pour réaliser le quantum de faible dimension. vecteurs de morphèmes dimensionnels L'état intriqué est représenté mathématiquement pour obtenir une représentation de mots de grande dimension.

01 La composition morphémique d'un mot

En linguistique, un morphème est la plus petite unité ayant des fonctions sémantiques ou grammaticales spécifiques. Pour des langues comme l'anglais, un mot peut être divisé en unités plus petites de morphèmes telles que des racines et des affixes. Par exemple, « méchamment » peut être divisé en « un » pour la négation, « gentil » pour quelque chose comme « amical » et « ly » pour un adverbe. Pour le chinois, un caractère chinois peut également être divisé en unités plus petites telles que des radicaux. Par exemple, « MU » peut être divisé en « 氵 » et « 木 » qui représentent l'eau.

Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte

Bien que les morphèmes contiennent de la sémantique, ils peuvent également être partagés entre des mots pour relier différents mots. De plus, un nombre limité de morphèmes peuvent être combinés pour former un plus grand nombre de mots.

02 Représentation compressée d'incorporations de mots sous la forme de tenseurs intriqués

Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte

Travail connexe Word2ket utilise un produit tensoriel pour représenter un seul mot incorporé sous la forme d'une forme tensorielle intriquée de plusieurs vecteurs de faible dimension. La formule est la suivante. :

Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte

où , r est le rang, n est l'ordre, représente le produit tensoriel. Word2ket n'a besoin que de stocker et d'utiliser ces vecteurs de faible dimension pour créer des vecteurs de mots de haute dimension, obtenant ainsi une réduction efficace des paramètres. Par exemple, lorsque r = 2 et n = 3, un vecteur de mots d'une dimension de 512 peut être obtenu par deux groupes de trois produits tensoriels vectoriels de basse dimension d'une dimension de 8 dans chaque groupe. de paramètres est réduit de 512 à 48 .

03 Représentation de compression intégrant des mots tenseurs améliorés par la morphologie

Grâce au produit tenseur, Word2ket peut obtenir une compression de paramètres évidente. Cependant, il est généralement difficile d'obtenir des performances de pré-compression dans des tâches plus complexes telles que la compression haute puissance et la machine. traduction. Étant donné que les vecteurs de basse dimension sont les unités de base qui composent les tenseurs d'intrication, et que les morphèmes sont les unités de base qui composent les mots. Cette étude considère l'introduction des connaissances linguistiques et propose MorphTE, qui entraîne des vecteurs morphèmes de basse dimension et utilise le produit tensoriel des vecteurs morphèmes contenus dans le mot pour construire la représentation d'intégration de mot correspondante.

Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte

Plus précisément, utilisez d'abord l'outil de segmentation de morphèmes pour segmenter les mots de la liste de vocabulaire V. Les morphèmes de tous les mots formeront une liste de morphèmes M, et le nombre de morphèmes sera nettement inférieur au nombre de mots ( ).

Pour chaque mot, construisez son vecteur d'index de morphème, qui pointe vers la position du morphème contenu dans chaque mot dans la table des morphèmes. Les vecteurs d'index morphème de tous les mots forment une matrice d'index morphème de Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte , où n est l'ordre de MorphTE.

Pour le jème mot Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte dans le vocabulaire, utilisez son vecteur d'index de morphème #🎜🎜 ## 🎜🎜# Indexez le vecteur de morphème correspondant à partir de r groupes de matrices d'incorporation de morphèmes paramétrées et effectuez une représentation tensorielle intriquée via un produit tensoriel pour obtenir l'incorporation de mots correspondante. Le processus est formalisé comme suit : Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte #🎜 🎜##🎜🎜. #

De la manière ci-dessus, MophTE peut injecter des connaissances linguistiques préalables basées sur les morphèmes dans la représentation d'incorporation de mots, tandis que les vecteurs morphèmes sont utilisés dans différents Le partage entre les mots peut explicitement établir des connexions entre les mots. De plus, le nombre et les dimensions vectorielles des morphèmes sont bien inférieurs à la taille et à la dimension du vocabulaire, et MophTE parvient à compresser les paramètres d'incorporation de mots sous les deux angles. Par conséquent, MophTE est capable d’obtenir une compression de haute qualité des représentations d’incorporation de mots. Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte

Expérience

Cet article mène principalement des expériences sur les tâches de traduction, de questions et réponses dans différentes langues et les intégrations de mots associées basées sur la décomposition. Méthodes de compression sont comparés.

Comme vous pouvez le voir sur le tableau, MorphTE peut s'adapter à différentes langues comme l'anglais, l'allemand, Italien, etc. Avec un taux de compression plus de 20 fois, MorphTE est capable de conserver l'effet du modèle d'origine, alors que presque toutes les autres méthodes de compression montrent une diminution de l'effet. De plus, MorphTE fonctionne mieux que les autres méthodes de compression sur différents ensembles de données avec un taux de compression plus de 40 fois. Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte

De même, sur la tâche de questions et réponses de WikiQA et la tâche de raisonnement en langage naturel de SNLI, MorphTE a réalisé respectivement 81 fois et. Taux de compression 38 fois, tout en conservant l'effet du modèle. Lintégration de mots représente-t-elle une proportion trop importante de paramètres ? Méthode MorphTE 20 fois leffet de compression sans perte

Conclusion

MorphTE combine une connaissance a priori du langage morphologique et la puissante capacité de compression des produits tensoriels pour obtenir une compression d'intégrations de mots de haute qualité. Des expériences sur différents langages et tâches montrent que MorphTE peut atteindre une compression de 20 à 80 fois les paramètres d'intégration de mots sans endommager l'effet du modèle. Cela vérifie que l'introduction de connaissances linguistiques basées sur les morphèmes peut améliorer l'apprentissage des représentations compressées des incorporations de mots. Bien que MorphTE ne modélise actuellement que les morphèmes, il peut en fait être étendu dans un cadre général d'amélioration de la compression de l'intégration de mots qui modélise explicitement des connaissances linguistiques plus a priori telles que les prototypes, les parties du discours, la capitalisation, etc., pour améliorer encore la compression express de l'intégration de mots.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7531

Tutoriel CakePHP

1379

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment écrire un roman dans l'application Tomato Free Novel Partagez le tutoriel sur la façon d'écrire un roman dans l'application Tomato Novel Mar 28, 2024 pm 12:50 PM

Tomato Novel est un logiciel de lecture de romans très populaire. Nous avons souvent de nouveaux romans et bandes dessinées à lire dans Tomato Novel. De nombreux amis souhaitent également gagner de l'argent de poche et éditer le contenu de leur roman. Je veux écrire dans du texte. Alors, comment pouvons-nous y écrire le roman ? Mes amis ne le savent pas, alors allons ensemble sur ce site. Prenons le temps de regarder une introduction à la façon d'écrire un roman. Partagez le didacticiel du roman Tomato sur la façon d'écrire un roman. 1. Ouvrez d'abord l'application de roman gratuite Tomato sur votre téléphone mobile et cliquez sur Personal Center - Writer Center 2. Accédez à la page Tomato Writer Assistant - cliquez sur Créer un nouveau livre. à la fin du roman.

Comment entrer dans le bios sur la carte mère Colorful ? Apprenez-vous deux méthodes Mar 13, 2024 pm 06:01 PM

Les cartes mères colorées jouissent d'une grande popularité et d'une part de marché élevée sur le marché intérieur chinois, mais certains utilisateurs de cartes mères colorées ne savent toujours pas comment accéder au BIOS pour les paramètres ? En réponse à cette situation, l'éditeur vous a spécialement proposé deux méthodes pour accéder au bios coloré de la carte mère. Venez l'essayer ! Méthode 1 : utilisez la touche de raccourci de démarrage du disque U pour accéder directement au système d'installation du disque U. La touche de raccourci de la carte mère Colorful pour démarrer le disque U en un seul clic est ESC ou F11. Tout d'abord, utilisez Black Shark Installation Master pour créer un Black. Disque de démarrage Shark U, puis allumez l'ordinateur lorsque vous voyez l'écran de démarrage, appuyez continuellement sur la touche ESC ou F11 du clavier pour accéder à une fenêtre de sélection de la séquence d'éléments de démarrage. Déplacez le curseur à l'endroit où "USB. " s'affiche, puis

Comment récupérer des contacts supprimés sur WeChat (un tutoriel simple vous explique comment récupérer des contacts supprimés) May 01, 2024 pm 12:01 PM

Malheureusement, les gens suppriment souvent certains contacts accidentellement pour certaines raisons. WeChat est un logiciel social largement utilisé. Pour aider les utilisateurs à résoudre ce problème, cet article explique comment récupérer les contacts supprimés de manière simple. 1. Comprendre le mécanisme de suppression des contacts WeChat. Cela nous offre la possibilité de récupérer les contacts supprimés. Le mécanisme de suppression des contacts dans WeChat les supprime du carnet d'adresses, mais ne les supprime pas complètement. 2. Utilisez la fonction intégrée « Récupération du carnet de contacts » de WeChat. WeChat fournit une « Récupération du carnet de contacts » pour économiser du temps et de l'énergie. Les utilisateurs peuvent récupérer rapidement les contacts précédemment supprimés grâce à cette fonction. 3. Accédez à la page des paramètres WeChat et cliquez sur le coin inférieur droit, ouvrez l'application WeChat « Moi » et cliquez sur l'icône des paramètres dans le coin supérieur droit pour accéder à la page des paramètres.

Comment définir la taille de la police sur le téléphone mobile (ajustez facilement la taille de la police sur le téléphone mobile) May 07, 2024 pm 03:34 PM

La définition de la taille de la police est devenue une exigence de personnalisation importante à mesure que les téléphones mobiles deviennent un outil important dans la vie quotidienne des gens. Afin de répondre aux besoins des différents utilisateurs, cet article présentera comment améliorer l'expérience d'utilisation du téléphone mobile et ajuster la taille de la police du téléphone mobile grâce à des opérations simples. Pourquoi avez-vous besoin d'ajuster la taille de la police de votre téléphone mobile - L'ajustement de la taille de la police peut rendre le texte plus clair et plus facile à lire - Adapté aux besoins de lecture des utilisateurs d'âges différents - Pratique pour les utilisateurs malvoyants qui souhaitent utiliser la taille de la police fonction de configuration du système de téléphonie mobile - Comment accéder à l'interface des paramètres du système - Dans Rechercher et entrez l'option "Affichage" dans l'interface des paramètres - recherchez l'option "Taille de la police" et ajustez-la. application - téléchargez et installez une application prenant en charge l'ajustement de la taille de la police - ouvrez l'application et entrez dans l'interface des paramètres appropriée - en fonction de l'individu

Résumé des méthodes pour obtenir les droits d'administrateur dans Win11 Mar 09, 2024 am 08:45 AM

Un résumé de la façon d'obtenir les droits d'administrateur Win11 Dans le système d'exploitation Windows 11, les droits d'administrateur sont l'une des autorisations très importantes qui permettent aux utilisateurs d'effectuer diverses opérations sur le système. Parfois, nous pouvons avoir besoin d'obtenir des droits d'administrateur pour effectuer certaines opérations, telles que l'installation de logiciels, la modification des paramètres du système, etc. Ce qui suit résume quelques méthodes pour obtenir les droits d'administrateur Win11, j'espère que cela pourra vous aider. 1. Utilisez les touches de raccourci. Dans le système Windows 11, vous pouvez ouvrir rapidement l'invite de commande via les touches de raccourci.

Le secret de l'éclosion des œufs de dragon mobiles est révélé (étape par étape pour vous apprendre à réussir l'éclosion des œufs de dragon mobiles) May 04, 2024 pm 06:01 PM

Les jeux mobiles font désormais partie intégrante de la vie des gens avec le développement de la technologie. Il a attiré l'attention de nombreux joueurs avec sa jolie image d'œuf de dragon et son processus d'éclosion intéressant, et l'un des jeux qui a beaucoup attiré l'attention est la version mobile de Dragon Egg. Pour aider les joueurs à mieux cultiver et faire grandir leurs propres dragons dans le jeu, cet article vous présentera comment faire éclore des œufs de dragon dans la version mobile. 1. Choisissez le type d'œuf de dragon approprié. Les joueurs doivent choisir soigneusement le type d'œuf de dragon qu'ils aiment et qui leur conviennent, en fonction des différents types d'attributs et de capacités d'œuf de dragon fournis dans le jeu. 2. Améliorez le niveau de la machine d'incubation. Les joueurs doivent améliorer le niveau de la machine d'incubation en accomplissant des tâches et en collectant des accessoires. Le niveau de la machine d'incubation détermine la vitesse d'éclosion et le taux de réussite de l'éclosion. 3. Collectez les ressources nécessaires à l'éclosion. Les joueurs doivent être dans le jeu.

Explication détaillée de la méthode de requête de version Oracle Mar 07, 2024 pm 09:21 PM

Explication détaillée de la méthode de requête de version Oracle Oracle est l'un des systèmes de gestion de bases de données relationnelles les plus populaires au monde. Il offre des fonctions riches et des performances puissantes et est largement utilisé dans les entreprises. Dans le processus de gestion et de développement de bases de données, il est très important de comprendre la version de la base de données Oracle. Cet article présentera en détail comment interroger les informations de version de la base de données Oracle et donnera des exemples de code spécifiques. Interrogez la version de base de données de l'instruction SQL dans la base de données Oracle en exécutant une simple instruction SQL

Maîtrisez rapidement : comment ouvrir deux comptes WeChat sur les téléphones mobiles Huawei révélé ! Mar 23, 2024 am 10:42 AM

Dans la société actuelle, les téléphones portables sont devenus un élément indispensable de nos vies. En tant qu'outil important pour notre communication, notre travail et notre vie quotidienne, WeChat est souvent utilisé. Cependant, il peut être nécessaire de séparer deux comptes WeChat lors du traitement de différentes transactions, ce qui nécessite que le téléphone mobile prenne en charge la connexion à deux comptes WeChat en même temps. En tant que marque nationale bien connue, les téléphones mobiles Huawei sont utilisés par de nombreuses personnes. Alors, quelle est la méthode pour ouvrir deux comptes WeChat sur les téléphones mobiles Huawei ? Dévoilons le secret de cette méthode. Tout d'abord, vous devez utiliser deux comptes WeChat en même temps sur votre téléphone mobile Huawei. Le moyen le plus simple est de le faire.

See all articles