IntaLink : une nouvelle technologie NLL distincte des grands modèles-javaDidacticiel-php.cn

Maison

Java

javaDidacticiel

IntaLink : une nouvelle technologie NLL distincte des grands modèles

Susan Sarandon

Oct 31, 2024 pm 09:05 PM

IntaLink: A New NLL Technology Distinct from Large Models

IntaLink : une nouvelle technologie NL2SQL distincte des grands modèles

Joyau caché

Scénarios d'application étendus d'IntaLink

Examen de fond : Dans des articles précédents, il a été mentionné que "l'objectif d'IntaLink est de réaliser une liaison automatisée de données dans le domaine de l'intégration de données". D'après la discussion, il ressort clairement qu'IntaLink aborde la question de la liaison automatique de « données relationnelles et de tables multiples ».

Maintenant, discutons si cette question a de larges scénarios d'application ou s'il s'agit simplement d'une pseudo-proposition sans exigence pratique.

01 Les données relationnelles restent l'un des actifs de données les plus importants

Bien que les grands modèles, les plateformes Big Data et d'autres technologies puissent utiliser divers types d'informations, notamment des documents, des images, de l'audio et de la vidéo, comme l'IA générative multimodale capable de produire des vidéos et de faciliter les interactions vocales, les résultats sont souvent ouverts. -terminé et subjectif, conduisant parfois à des « hallucinations ». Ainsi, même si leur utilisation à titre de référence ou d'assistance est acceptable, dans certains environnements de travail rigoureux, nous ne pouvons pas nous fier à ces informations ou à ces grands modèles pour accomplir des tâches. Dans des secteurs comme la banque, la finance, les transports, le commerce, la comptabilité, la production et l'énergie, les données métiers de base doivent être gérées à l'aide de données relationnelles structurées.

02 La construction de données est inévitable et distribuée

(1) Le paradigme de conception des bases de données relationnelles exige que les données soient raisonnablement divisées pour éviter une redondance importante. Si les données générées pendant la phase de construction contiennent beaucoup de redondance, non seulement la charge de travail de collecte de données est dupliquée, mais la cohérence des données est également difficile à assurer. D'un autre point de vue, si toutes les données associées sont stockées dans une seule table, mais que les éléments de données proviennent de différentes sources commerciales, avec des collecteurs de données et des temps de génération différents, la conservation de ces enregistrements de données devient impossible. Ainsi, la construction des données organisera intrinsèquement les données en fonction de l'orientation objet et des activités commerciales, conduisant à leur répartition sur différentes tables.
(2) Les données doivent provenir de plusieurs systèmes. Puisque la construction des technologies de l’information ne s’effectue pas d’un seul coup, il y aura inévitablement une séquence de développements. Même au sein d’un même système, les délais de mise en œuvre peuvent varier. De plus, différents scénarios d'application nécessitent des choix technologiques différents ; par exemple, les données commerciales, les données en temps réel et les informations de journal peuvent être obtenues grâce à diverses technologies, ce qui rend les données intrinsèquement multi-sources.

03 L'intégration est le moyen le plus efficace de libérer de la valeur des données

Les données doivent être intégrées pour l'application. La demande d’applications d’intégration de données présente diverses possibilités. Par exemple, l'intégration des données de production et des données de planification peut évaluer l'état d'avancement du plan ; l'intégration des données de production et des données de vente peut identifier les retards de produits ou l'exécution des livraisons de commandes ; et l'intégration des données de production avec les données financières peut évaluer les coûts de production et la rentabilité. Par conséquent, l'intégration des données est le moyen le plus efficace de maximiser la valeur des données et de renforcer les processus métier.

En résumé, l'application d'intégration de données relationnelles restera pendant longtemps l'un des scénarios d'application de données les plus importants. Tant que ce scénario existera, IntaLink aura une large adaptabilité.

Comparaison des méthodes d'intégration de données IntaLink et Large Model

T2SQL (Text to SQL) et NL2SQL (Natural Language to SQL) génèrent automatiquement les requêtes de données requises via la saisie de texte ou de langage naturel. Les termes T2SQL et NL2SQL décrivent essentiellement le même concept : utiliser la technologie de l'IA pour transformer la compréhension sémantique en méthodes d'exploitation des données, ce qui est la même idée mais avec des terminologies différentes. Il s’agit d’une direction de recherche dans les applications des données. Ces dernières années, avec l’émergence des technologies de grands modèles, ce domaine a connu des progrès significatifs. J'ai recherché des rapports techniques d'Alibaba et de Tencent et essayé des projets open source comme DB-GPT. Ces technologies sont largement similaires, du moins dans leur logique technique sous-jacente, tandis que l'approche d'IntaLink est totalement différente.

Laissons de côté pour l’instant la logique technique sous-jacente et procédons à une analyse comparative basée sur les méthodes de mise en œuvre :

1. L'utilisation de la technologie des grands modèles pour les requêtes de données automatiques nécessite une formation sur les données

Supposons que nous ayons un ensemble de tables nommées T1, T2, ..., Tn, chacune contenant plusieurs éléments de données étiquetés C1, C2, ..., Cn, avec un nombre variable d'éléments par table. Considérons un ensemble de données simulé pour le tableau T1 comme suit :

C1	C2	C3	C4	C5	C6
Orange	5	3	3	2	1

De ce seul contenu, nous ne pouvons tirer aucune information utile. Nous ne savons pas exactement la signification des données ci-dessus. Simulons deux significations pour les données :

Fruit Type	Warehouse No.	Shelf No.	Stock	Shelf Life	Warehouse Manager ID
Orange	5	3	3	2	1

Hotel Name	Warehouse Hotness Ranking	Star Rating	Years in Business	Remaining Rooms	Discount Available
Orange	5	3	3	2	1

Nous ne nous attarderons pas sur la validité de ces jeux de données ni sur l'existence de tels tableaux. Cependant, il est évident que sans comprendre la signification des tableaux et des éléments de données, les données ne peuvent pas être appliquées. On ne peut pas lier les besoins des applications de données aux données elles-mêmes, et encore moins discuter d'opérations de données plus complexes.

À l'aide d'un ensemble de données pour tester NL2SQL, illustrons le modèle d'application de la technologie des grands modèles dans ce domaine.

L'ensemble de données Spider est un ensemble de données T2S pour les requêtes multi-bases de données, multi-tables et à un seul tour et est reconnu comme le classement d'évaluation inter-domaines à grande échelle le plus difficile. Il a été proposé par l'Université de Yale en 2018, annoté par onze étudiants de Yale. L'ensemble de données contient dix mille cent quatre-vingt-une questions en langage naturel et cinq mille six cent quatre-vingt-treize instructions SQL, couvrant plus de deux cents bases de données dans cent trente-huit domaines différents. Sept mille questions sont utilisées pour la formation, mille trente-quatre pour le développement et deux mille cent quarante-sept pour les tests. En d’autres termes, en fournissant des questions accompagnées de leurs réponses correspondantes (SQL), le grand modèle apprend à utiliser les données. Par souci de simplicité, nous pouvons condenser la logique comme suit :

Question 1 : Combien de rouges à lèvres sont en stock ?
Réponse 1 : sélectionnez le montant de l'entrepôt où good_name='lipstick' et color='red'

Après avoir entraîné le modèle avec un tel ensemble de données, nous pouvons poser la question test suivante :

Question test : Combien de rouges à lèvres bleus y a-t-il en stock ?
Réponse de sortie : sélectionnez le montant de l'entrepôt où good_name='lipstick' et color='blue'

De là, nous voyons que NL2SQL met l'accent sur la dérivation de requêtes SQL possibles basées sur une compréhension sémantique et contextuelle, en s'appuyant sur un ensemble de données entraîné.

Méthode d'intégration de données d'IntaLink

L'intégration des données d'IntaLink n'exige pas que les utilisateurs fournissent des données de formation. Les relations entre les données sont générées via un modèle d'analyse des relations inter-tables. Cette génération de relations ne nécessite pas de comprendre la signification réelle des tableaux et des éléments de données, mais est dérivée d'un ensemble de méthodes qui analysent les valeurs caractéristiques des données pour déduire des associations entre les tableaux. Ci-dessous, nous illustrons l'établissement de relations inter-tables à l'aide de deux exemples de tables.

Tab_1

Name	Student_ID	CLASS	Age	Sex
Zhang San	2021_0001	2021_01	19	Male
Li Si	2021_0002	2021_01	18	Female
Wang Wu	2021_0003	2021_01	19	Male

Tab_2

Student_ID	Course	Grade	Rank
2021_0001	Math	135	18
2021_0001	Chinese	110	23
2021_0002	Math	120	25
2021_0002	Chinese	125	10

Dans Tab_1, le Student_ID correspond au Student_ID dans Tab_2, partageant les mêmes valeurs caractéristiques. Par conséquent, pour lier ces deux tables, la condition Tab_1.Student_ID = Tab_2.Student_ID est vraie. Cette analyse des liens inter-tables nécessite la prise en compte de nombreux facteurs. Dans IntaLink, nous reproduisons la base de données mémoire des valeurs caractéristiques des données en tant qu'outil d'analyse, en utilisant un ensemble de méthodes analytiques optimisées pour produire des résultats d'analyse des relations inter-tables. En raison de la complexité du contenu impliqué, nous ne développerons pas davantage ici. Un article séparé discutera de la logique de mise en œuvre.

Différences entre IntaLink et les technologies de grands modèles dans la mise en œuvre de NL2SQL

1) Il n'est pas nécessaire de préparer un ensemble de questions de formation pour le grand modèle ; les relations sont plutôt dérivées de l’analyse des données. Par conséquent, IntaLink peut être appliqué à un large éventail de données. Plus il est possible d'intégrer de données, plus ses avantages sont grands.
2) Se concentre sur l'intégration des données, en particulier la génération de conditions relationnelles lors de l'intégration, sans se concentrer sur les méthodes d'utilisation des données. Remarque : L'intégration des données concerne l'établissement de relations entre plusieurs tables, tandis que les méthodes d'utilisation des données peuvent varier, telles que la sommation, le comptage, la moyenne, les valeurs minimales et maximales, etc. NL2SQL sélectionne les méthodes d'exploitation des données appropriées en fonction de la sémantique, comme SUM, COUNT, AVG, MIN, MAX, etc.
3) Haute précision : en excluant les problèmes de qualité des données, les conditions relationnelles générées par IntaLink peuvent théoriquement atteindre une précision de cent pour cent.

Combinaison potentielle d'IntaLink et des technologies de grands modèles

Les technologies de grands modèles excellent dans la compréhension sémantique et le contenu génératif, tandis qu'IntaLink présente des avantages dans l'analyse des associations de données avec une charge de travail initiale inférieure et une plus grande précision. Idéalement, les technologies de grands modèles pourraient être intégrées pour comprendre les exigences de saisie des utilisateurs, en convertissant ces informations en tableaux et éléments de données nécessaires, qu'IntaLink générerait ensuite pour les ensembles de données, suivis par le grand modèle générant les résultats souhaités (par exemple, des rapports, des graphiques, etc.) pour la présentation de l'utilisateur.

Rejoignez la communauté IntaLink !

Nous serions ravis que vous fassiez partie du voyage IntaLink ! Connectez-vous avec nous et contribuez à notre projet :

? Dépôt GitHub : IntaLink

? Rejoignez notre communauté Discord

Faites partie de la révolution open source et aidez-nous à façonner l'avenir de l'intégration intelligente des données !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

4 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1672

Tutoriel CakePHP

1428

Tutoriel Laravel

1333

Tutoriel PHP

1277

Tutoriel C#

1257

Afficher plus

Related knowledge

Le logiciel de sécurité de l'entreprise entraîne-t-il l'exécution de l'application? Comment dépanner et le résoudre? Apr 19, 2025 pm 04:51 PM

Dépannage et solutions au logiciel de sécurité de l'entreprise qui fait que certaines applications ne fonctionnent pas correctement. De nombreuses entreprises déploieront des logiciels de sécurité afin d'assurer la sécurité des réseaux internes. ...

Comment convertir les noms en nombres pour implémenter le tri et maintenir la cohérence en groupes? Apr 19, 2025 pm 11:30 PM

Solutions pour convertir les noms en nombres pour implémenter le tri dans de nombreux scénarios d'applications, les utilisateurs peuvent avoir besoin de trier en groupe, en particulier en un ...

Comment simplifier les problèmes de cartographie des champs dans l'amarrage du système à l'aide de mapstruct? Apr 19, 2025 pm 06:21 PM

Le traitement de la cartographie des champs dans l'amarrage du système rencontre souvent un problème difficile lors de l'exécution d'amarrage du système: comment cartographier efficacement les champs d'interface du système a ...

Comment Intellij Idea identifie-t-elle le numéro de port d'un projet de démarrage de printemps sans publier un journal? Apr 19, 2025 pm 11:45 PM

Commencez le printemps à l'aide de la version IntelliJideaultimate ...

Comment obtenir élégamment des noms de variables de classe d'entité pour créer des conditions de requête de base de données? Apr 19, 2025 pm 11:42 PM

Lorsque vous utilisez MyBatis-Plus ou d'autres cadres ORM pour les opérations de base de données, il est souvent nécessaire de construire des conditions de requête en fonction du nom d'attribut de la classe d'entité. Si vous manuellement à chaque fois ...

Comment convertir en toute sécurité les objets Java en tableaux? Apr 19, 2025 pm 11:33 PM

Conversion des objets et des tableaux Java: Discussion approfondie des risques et des méthodes correctes de la conversion de type de distribution De nombreux débutants Java rencontreront la conversion d'un objet en un tableau ...

Plateforme de commerce électronique SKU et conception de la base de données SPU: comment prendre en compte à la fois les attributs définis par l'utilisateur et les produits sans attribution? Apr 19, 2025 pm 11:27 PM

Explication détaillée de la conception des tables SKU et SPU sur les plates-formes de commerce électronique Cet article discutera des problèmes de conception de la base de données de SKU et SPU dans les plateformes de commerce électronique, en particulier comment gérer les ventes définies par l'utilisateur ...

Comment utiliser la solution Redis Cache pour réaliser efficacement les exigences de la liste de classement des produits? Apr 19, 2025 pm 11:36 PM

Comment la solution de mise en cache Redis réalise-t-elle les exigences de la liste de classement des produits? Pendant le processus de développement, nous devons souvent faire face aux exigences des classements, comme l'affichage d'un ...

See all articles