Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer-AI-php.cn

Tujuh tahun yang lalu, kertas kerja "Perhatian adalah semua yang anda perlukan" mencadangkan seni bina transformer, menumbangkan keseluruhan bidang pembelajaran mendalam.

Kini, semua model utama adalah berdasarkan seni bina transformer, tetapi prinsip kerja dalaman transformer masih menjadi misteri yang tidak dapat diselesaikan.

Tahun lepas, Llion Jones, salah seorang pengarang kertas transformer, mengumumkan penubuhan syarikat kecerdasan buatan Sakana AI. Baru-baru ini, Sakana AI menerbitkan kertas kerja bertajuk "Lapisan Transformer sebagai Pelukis", yang meneroka aliran maklumat dalam transformer terlatih dan menjalankan satu siri eksperimen pada model transformer beku penyahkod sahaja dan pengekod sahaja. Ambil perhatian bahawa kajian ini tidak melakukan sebarang jenis penalaan halus pada model pra-latihan.

Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer

Alamat kertas: https://arxiv.org/pdf/2407.09298v1

Kajian ini percaya bahawa mekanisme dalaman transformer (terutamanya lapisan tengah) boleh difahami dengan analogi kepada saluran paip lukisan pelukis.

Saluran paip lukisan biasanya menghantar kanvas (input) kepada beberapa pelukis. Sesetengah pelukis pandai melukis burung, manakala yang lain pandai melukis roda. Setiap pelukis menerima kanvas daripada pelukis di bawahnya, dan kemudian ia memutuskan sama ada untuk menambah beberapa sapuan pada lukisan itu, atau hanya menyerahkannya kepada pelukis di atasnya (menggunakan sambungan sisa).

Analogi ini bukan teori yang ketat, tetapi alat untuk memikirkan lapisan transformer. Diilhamkan oleh analogi ini, kajian itu menguji dan mengesahkan beberapa hipotesis:

Adakah semua lapisan menggunakan ruang perwakilan yang sama?
Adakah semua lapisan perlu?
Adakah semua lapisan tengah menjalankan fungsi yang sama?
Adakah susunan lapisan penting?
Bolehkah lapisan ini berjalan selari?
Untuk beberapa tugas, adakah pesanan lebih penting daripada faktor lain?
Adakah gelung membantu selari lapisan?
varian yang manakah mempunyai impak paling rendah pada prestasi model?

Kajian ini menjalankan satu siri eksperimen pada LLM pra-latihan, yang termasuk percubaan dengan variasi pada strategi pelaksanaan transformer standard dan mengukur perubahan ini pada pelbagai penanda aras untuk model penyahkod sahaja (Llama) dan pengekod sahaja (BERT) kesan ke atas prestasi model.

Adakah semua lapisan menggunakan ruang perwakilan yang sama?

Untuk menjawab sama ada lapisan berbeza menggunakan ruang perwakilan yang sama, penulis menguji sama ada Transformer teguh apabila melangkau lapisan tertentu atau menukar susunan lapisan bersebelahan. Sebagai contoh, dalam Llama2-7B, lapisan 6 biasanya mengharapkan untuk menerima output lapisan 5. Jika lapisan 6 diberi output lapisan 4, adakah ia akan bertindak "bencana"?

Dalam Rajah 2, kita dapat melihat bahawa, kecuali untuk beberapa lapisan pertama dan terakhir, lapisan Llama2-7B agak teguh untuk melompat lapisan atau beralih.

Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer

Percubaan ini menunjukkan bahawa lapisan tengah berkongsi ruang perwakilan dan mempunyai ruang perwakilan yang berbeza daripada "lapisan persisian" (lapisan pertama dan terakhir). Untuk menguji lagi hipotesis ini, penulis mengikuti kajian terdahulu dan mengukur persamaan kosinus purata antara pengaktifan keadaan tersembunyi pada lapisan model yang berbeza dalam garis dasar (Llama2-7B, Llama2-13B dan BERT-Large). Rajah 3 menunjukkan ketekalan antara semua lapisan perantaraan.

Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer

Ini menunjukkan bahawa model mungkin mempunyai tiga ruang perwakilan berbeza lapisan "permulaan", "tengah" dan "akhir". Jawapan kepada soalan 1: Ya, lapisan perantaraan nampaknya berkongsi ruang perwakilan yang sama.

Adakah semua lapisan perlu?

Untuk menguji lebih lanjut sama ada ruang ubah hala lapisan perantaraan benar-benar dikongsi (selain mempunyai persamaan kosinus yang rapat), kajian ini cuba "melangkau lapisan", iaitu menghantar output lapisan Nth terus ke N +Lapisan Mth (di mana M > 1), dengan itu "melangkau" lapisan M − 1, seperti yang ditunjukkan dalam Rajah 1a. Percubaan adalah untuk melihat sama ada lapisan N + M dapat memahami pengaktifan lapisan N walaupun ia hanya dilatih pada input daripada lapisan N + M − 1 . Rajah 4 menunjukkan bahawa kedua-dua Llama2-7B dan BERT-Large mengalami kemerosotan prestasi sederhana pada banyak penanda aras. Menjawab soalan 2, adakah semua lapisan perlu:

Tidak, sekurang-kurangnya beberapa lapisan tengah boleh dialih keluar tanpa kegagalan bencana.

Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer

Adakah semua lapisan tengah menjalankan fungsi yang sama?

Jika semua lapisan tengah berkongsi ruang perwakilan yang sama, adakah ini bermakna lapisan tengah yang lain adalah berlebihan? Untuk menguji ini, penyelidik menjalankan semula percubaan "langkau" dari subseksyen sebelumnya, menggantikan pemberat lapisan tengah dengan pemberat lapisan tengah, dengan berkesan menggelung T - 2N pada setiap lapisan yang digantikan. dengan T ialah jumlah bilangan lapisan (32 lapisan untuk Llama2-7B dan 24 lapisan untuk BERT-Large).

Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer

Comme le montre la figure 5, on peut observer qu'à mesure que le nombre de couches remplacées augmente, le score du modèle dans le test de référence diminue rapidement. Comme le montre la figure 11 ci-dessous, cette méthode de remplacement des couches est pire que toute autre méthode essayée par les chercheurs. Par conséquent, les chercheurs ont conclu que les couches intermédiaires remplissent des fonctions différentes et qu’il n’est pas possible de partager les poids entre les couches intermédiaires.

Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer

L'ordre des couches est-il important ?

Des expériences précédentes ont montré que les couches intermédiaires partagent un espace de représentation mais sont responsables de différentes fonctions dans cet espace. La prochaine question à aborder est de savoir ce que signifie l’ordre de ces fonctions. Afin de résoudre ce problème, les chercheurs ont conçu deux séries d’expériences. Tout d’abord, exécutez les couches intermédiaires dans l’ordre inverse de celui dans lequel elles ont été formées. Plus précisément, prenez la sortie de la T - Nème couche, entrez-la dans la T - N - 1ème couche, puis entrez la sortie de cette couche dans la T - N - 2ème couche, et ainsi de suite, jusqu'à la Nème couche, et puis envoyez la sortie de cette couche à la couche T - N suivante. Dans une deuxième série d’expériences, les chercheurs ont analysé les couches intermédiaires dans un ordre aléatoire et en ont fait la moyenne sur 10 valeurs de départ.

Les figures 6 et 7 montrent les résultats de l'exécution des couches intermédiaires respectivement dans un ordre inverse et aléatoire, le modèle montrant une tendance à la baisse progressive sur tous les ensembles de tests de base. Cela montre également que même si l'ordre des calques revêt une certaine importance pour le modèle, les calques peuvent toujours fonctionner même si l'ordre est modifié.

Plus intéressant encore, mélanger aléatoirement l'ordre des calques fonctionne mieux que de faire exactement l'inverse. Cela peut être dû au fait que le mélange aléatoire de l'ordre préserve certaines des relations d'origine entre les couches (c'est-à-dire que la couche i vient après la couche j, où i > j), tandis que l'inverse complet rompt complètement ces relations.

Ces couches peuvent-elles fonctionner en parallèle ?

Pour vérifier que l'existence des couches elles-mêmes est plus importante que l'ordre d'exécution, les chercheurs ont conçu une expérience pour exécuter les couches intermédiaires en parallèle et envoyer leurs résultats moyens aux N couches finales.

Comme le montre la figure 8, les performances du modèle dans tous les tests de référence montrent une légère tendance à la baisse. Cependant, cette tendance ne s'applique pas aux problèmes de mots mathématiques dans GSM8K.

Les résultats expérimentaux montrent que cette méthode est efficace dans la plupart des cas, mais certains problèmes mathématiques complexes ne sont pas bien traités. Cette méthode de traitement parallèle est pire que le saut de couches, mais pas aussi efficace que l'exécution des couches dans l'ordre inverse. Sur cette base, les chercheurs ont conclu que la couche d'opérations parallèles est réalisable dans les cas généraux, mais que pour les problèmes mathématiques nécessitant une compréhension logique séquentielle, cette méthode peut ne pas convenir.

Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer

Pour certaines tâches, l'ordre est-il plus important que d'autres facteurs ?

Pour la plupart des modèles « modernisés », ils ont tendance à montrer la tendance à la baisse la plus forte lorsqu'ils sont confrontés à des références de raisonnement abstrait (ARC) ou de raisonnement mathématique (GSM8K). Ce phénomène peut provenir du fait que les tâches de raisonnement étape par étape sont beaucoup plus sensibles à l'ordre des niveaux du modèle que les tâches de bon sens qui reposent principalement sur la compréhension sémantique. Contrairement aux tâches qui peuvent être accomplies par la seule compréhension de la sémantique, les tâches de raisonnement nécessitent que le modèle saisisse à la fois la structure et le sens. Cette observation est cohérente avec l'hypothèse selon laquelle le modèle peut effectuer un certain degré d'inférence dépendant de l'ordre au cours d'une seule session de traitement.

Les chercheurs ont utilisé une métaphore pour illustrer : si vous peignez un collage composé de nombreux éléments différents, alors l'ordre des peintures n'est peut-être pas si important, mais si vous peignez une scène architecturale précise, alors l'ordre de chaque trait ; L'ordre devient très important. Sur cette base, les chercheurs ont conclu que les tâches mathématiques et de raisonnement dépendent davantage de l’ordre des couches du modèle, tandis que pour les tâches qui reposent principalement sur la compréhension sémantique, l’impact de l’ordre est relativement faible.

Les boucles aident-elles à paralléliser entre les couches ?

Suite à la métaphore de la peinture dans la section précédente, lorsqu'un peintre peint un tableau, il ne peint pas tout au début, mais peint d'abord une partie, comme la carrosserie de la voiture, puis ajoute d'autres choses en fonction de cette partie . , comme les roues. Dans le modèle d'IA, les calques sont ce qu'on appelle des peintres, et le traitement des informations est la peinture. Si les informations correctes sont obtenues en premier, la carrosserie de la voiture est dessinée en premier, ils peuvent alors mieux terminer leur travail et contribuer au travail. peinture. Ajoutez des roues.

Pour le transformateur, lorsqu'elle reçoit l'entrée appropriée, la couche ne peut contribuer qu'à la propagation vers l'avant, plutôt que de "faire passer" l'entrée via la connexion résiduelle. Si tel est le cas, l'itération des couches parallèles de l'expérience précédente devrait améliorer davantage les performances du modèle que l'exécution des couches parallèles une seule fois. Sur cette base, les chercheurs ont testé cela en introduisant la sortie moyenne de la couche parallèle dans la même couche pendant un nombre fixe d'itérations.

La figure 9 montre le résultat de la boucle 3 fois de la couche parallèle. Les résultats de la parallélisation de la boucle 3 fois sont nettement meilleurs qu'une seule itération (couche parallèle). Lorsque la couche de départ N est définie sur 15 (pour le modèle Llama2-7B) ou 11 (pour le modèle BERT), qui se trouve à l'extrême gauche de chaque boîtier, une seule couche est affectée. Dans ce cas particulier, l’effet de paralléliser la boucle trois fois équivaut à simplement répéter trois fois la couche intermédiaire. Dans le même temps, les performances de la couche parallèle à ce stade ne peuvent pas être distinguées de celles du modèle complet.

Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer

Les chercheurs ont également répété la même expérience avec différents nombres d'itérations. La figure 10 montre les performances de Llama2-7B en fonction du nombre de couches de parallélisation M et du nombre d'itérations. Le numéro d’itération le plus performant pour chaque M est marqué d’un cadre rouge. Le nombre optimal d'itérations évolue à peu près linéairement avec le nombre de couches parallélisées, sauf pour M=29 et M=31 (où presque toutes les couches sont parallélisées). Les chercheurs ont donc conclu que le nombre optimal d’itérations est proportionnel au nombre de couches de parallélisation.

Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer

Comment ajuster les calques avec le moins d'impact sur les performances du modèle ?

Enfin, dans la figure 11, les chercheurs ont comparé les « transformations » de Transformer dans toutes les expériences, montrant la médiane ou la moyenne de tous les points de repère sur un graphique.

Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer

La duplication intermédiaire – remplacer la couche intermédiaire par le même nombre de copies de la couche intermédiaire – a donné les pires résultats, tombant rapidement à des performances de base aléatoires. En revanche, le parallélisme des boucles et l’ordre aléatoire des couches ont un impact minime. Par conséquent, les chercheurs ont conclu que la duplication d’une seule couche a l’impact le plus grave. La randomisation de l'ordre des couches et le parallélisme des boucles ont un impact minimal.

Ces expériences montrent globalement une légère dégradation des performances, mais les chercheurs ne savent toujours pas pourquoi ces couches peuvent maintenir un certain degré de robustesse sous la plupart des perturbations. Cette question doit être explorée plus en détail dans les recherches futures.

Veuillez consulter le document original pour plus de détails.

^{Lien de référence : https://arxiv.org/pdf/2407.09298v1}

Atas ialah kandungan terperinci Lapan soalan dan lapan jawapan untuk memahami kerja dalaman Transformer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!