IntaLink : une nouvelle technologie NLL distincte des grands modèles
IntaLink : une nouvelle technologie NL2SQL distincte des grands modèles
Joyau caché
Scénarios d'application étendus d'IntaLink
Examen de fond : Dans des articles précédents, il a été mentionné que "l'objectif d'IntaLink est de réaliser une liaison automatisée de données dans le domaine de l'intégration de données". D'après la discussion, il ressort clairement qu'IntaLink aborde la question de la liaison automatique de « données relationnelles et de tables multiples ».
Maintenant, discutons si cette question a de larges scénarios d'application ou s'il s'agit simplement d'une pseudo-proposition sans exigence pratique.
01 Les données relationnelles restent l'un des actifs de données les plus importants
Bien que les grands modèles, les plateformes Big Data et d'autres technologies puissent utiliser divers types d'informations, notamment des documents, des images, de l'audio et de la vidéo, comme l'IA générative multimodale capable de produire des vidéos et de faciliter les interactions vocales, les résultats sont souvent ouverts. -terminé et subjectif, conduisant parfois à des « hallucinations ». Ainsi, même si leur utilisation à titre de référence ou d'assistance est acceptable, dans certains environnements de travail rigoureux, nous ne pouvons pas nous fier à ces informations ou à ces grands modèles pour accomplir des tâches. Dans des secteurs comme la banque, la finance, les transports, le commerce, la comptabilité, la production et l'énergie, les données métiers de base doivent être gérées à l'aide de données relationnelles structurées.
02 La construction de données est inévitable et distribuée
(1) Le paradigme de conception des bases de données relationnelles exige que les données soient raisonnablement divisées pour éviter une redondance importante. Si les données générées pendant la phase de construction contiennent beaucoup de redondance, non seulement la charge de travail de collecte de données est dupliquée, mais la cohérence des données est également difficile à assurer. D'un autre point de vue, si toutes les données associées sont stockées dans une seule table, mais que les éléments de données proviennent de différentes sources commerciales, avec des collecteurs de données et des temps de génération différents, la conservation de ces enregistrements de données devient impossible. Ainsi, la construction des données organisera intrinsèquement les données en fonction de l'orientation objet et des activités commerciales, conduisant à leur répartition sur différentes tables.
(2) Les données doivent provenir de plusieurs systèmes. Puisque la construction des technologies de l’information ne s’effectue pas d’un seul coup, il y aura inévitablement une séquence de développements. Même au sein d’un même système, les délais de mise en œuvre peuvent varier. De plus, différents scénarios d'application nécessitent des choix technologiques différents ; par exemple, les données commerciales, les données en temps réel et les informations de journal peuvent être obtenues grâce à diverses technologies, ce qui rend les données intrinsèquement multi-sources.
03 L'intégration est le moyen le plus efficace de libérer de la valeur des données
Les données doivent être intégrées pour l'application. La demande d’applications d’intégration de données présente diverses possibilités. Par exemple, l'intégration des données de production et des données de planification peut évaluer l'état d'avancement du plan ; l'intégration des données de production et des données de vente peut identifier les retards de produits ou l'exécution des livraisons de commandes ; et l'intégration des données de production avec les données financières peut évaluer les coûts de production et la rentabilité. Par conséquent, l'intégration des données est le moyen le plus efficace de maximiser la valeur des données et de renforcer les processus métier.
En résumé, l'application d'intégration de données relationnelles restera pendant longtemps l'un des scénarios d'application de données les plus importants. Tant que ce scénario existera, IntaLink aura une large adaptabilité.
Comparaison des méthodes d'intégration de données IntaLink et Large Model
T2SQL (Text to SQL) et NL2SQL (Natural Language to SQL) génèrent automatiquement les requêtes de données requises via la saisie de texte ou de langage naturel. Les termes T2SQL et NL2SQL décrivent essentiellement le même concept : utiliser la technologie de l'IA pour transformer la compréhension sémantique en méthodes d'exploitation des données, ce qui est la même idée mais avec des terminologies différentes. Il s’agit d’une direction de recherche dans les applications des données. Ces dernières années, avec l’émergence des technologies de grands modèles, ce domaine a connu des progrès significatifs. J'ai recherché des rapports techniques d'Alibaba et de Tencent et essayé des projets open source comme DB-GPT. Ces technologies sont largement similaires, du moins dans leur logique technique sous-jacente, tandis que l'approche d'IntaLink est totalement différente.
Laissons de côté pour l’instant la logique technique sous-jacente et procédons à une analyse comparative basée sur les méthodes de mise en œuvre :
1. L'utilisation de la technologie des grands modèles pour les requêtes de données automatiques nécessite une formation sur les données
Supposons que nous ayons un ensemble de tables nommées T1, T2, ..., Tn, chacune contenant plusieurs éléments de données étiquetés C1, C2, ..., Cn, avec un nombre variable d'éléments par table. Considérons un ensemble de données simulé pour le tableau T1 comme suit :
C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
De ce seul contenu, nous ne pouvons tirer aucune information utile. Nous ne savons pas exactement la signification des données ci-dessus. Simulons deux significations pour les données :
Fruit Type | Warehouse No. | Shelf No. | Stock | Shelf Life | Warehouse Manager ID |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Hotel Name | Warehouse Hotness Ranking | Star Rating | Years in Business | Remaining Rooms | Discount Available |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Nous ne nous attarderons pas sur la validité de ces jeux de données ni sur l'existence de tels tableaux. Cependant, il est évident que sans comprendre la signification des tableaux et des éléments de données, les données ne peuvent pas être appliquées. On ne peut pas lier les besoins des applications de données aux données elles-mêmes, et encore moins discuter d'opérations de données plus complexes.
À l'aide d'un ensemble de données pour tester NL2SQL, illustrons le modèle d'application de la technologie des grands modèles dans ce domaine.
L'ensemble de données Spider est un ensemble de données T2S pour les requêtes multi-bases de données, multi-tables et à un seul tour et est reconnu comme le classement d'évaluation inter-domaines à grande échelle le plus difficile. Il a été proposé par l'Université de Yale en 2018, annoté par onze étudiants de Yale. L'ensemble de données contient dix mille cent quatre-vingt-une questions en langage naturel et cinq mille six cent quatre-vingt-treize instructions SQL, couvrant plus de deux cents bases de données dans cent trente-huit domaines différents. Sept mille questions sont utilisées pour la formation, mille trente-quatre pour le développement et deux mille cent quarante-sept pour les tests. En d’autres termes, en fournissant des questions accompagnées de leurs réponses correspondantes (SQL), le grand modèle apprend à utiliser les données. Par souci de simplicité, nous pouvons condenser la logique comme suit :
- Question 1 : Combien de rouges à lèvres sont en stock ?
- Réponse 1 : sélectionnez le montant de l'entrepôt où good_name='lipstick' et color='red'
Après avoir entraîné le modèle avec un tel ensemble de données, nous pouvons poser la question test suivante :
- Question test : Combien de rouges à lèvres bleus y a-t-il en stock ?
- Réponse de sortie : sélectionnez le montant de l'entrepôt où good_name='lipstick' et color='blue'
De là, nous voyons que NL2SQL met l'accent sur la dérivation de requêtes SQL possibles basées sur une compréhension sémantique et contextuelle, en s'appuyant sur un ensemble de données entraîné.
Méthode d'intégration de données d'IntaLink
L'intégration des données d'IntaLink n'exige pas que les utilisateurs fournissent des données de formation. Les relations entre les données sont générées via un modèle d'analyse des relations inter-tables. Cette génération de relations ne nécessite pas de comprendre la signification réelle des tableaux et des éléments de données, mais est dérivée d'un ensemble de méthodes qui analysent les valeurs caractéristiques des données pour déduire des associations entre les tableaux. Ci-dessous, nous illustrons l'établissement de relations inter-tables à l'aide de deux exemples de tables.
Tab_1
Name | Student_ID | CLASS | Age | Sex |
---|---|---|---|---|
Zhang San | 2021_0001 | 2021_01 | 19 | Male |
Li Si | 2021_0002 | 2021_01 | 18 | Female |
Wang Wu | 2021_0003 | 2021_01 | 19 | Male |
Tab_2
Student_ID | Course | Grade | Rank |
---|---|---|---|
2021_0001 | Math | 135 | 18 |
2021_0001 | Chinese | 110 | 23 |
2021_0002 | Math | 120 | 25 |
2021_0002 | Chinese | 125 | 10 |
Dans Tab_1, le Student_ID correspond au Student_ID dans Tab_2, partageant les mêmes valeurs caractéristiques. Par conséquent, pour lier ces deux tables, la condition Tab_1.Student_ID = Tab_2.Student_ID est vraie. Cette analyse des liens inter-tables nécessite la prise en compte de nombreux facteurs. Dans IntaLink, nous reproduisons la base de données mémoire des valeurs caractéristiques des données en tant qu'outil d'analyse, en utilisant un ensemble de méthodes analytiques optimisées pour produire des résultats d'analyse des relations inter-tables. En raison de la complexité du contenu impliqué, nous ne développerons pas davantage ici. Un article séparé discutera de la logique de mise en œuvre.
Différences entre IntaLink et les technologies de grands modèles dans la mise en œuvre de NL2SQL
- 1) Il n'est pas nécessaire de préparer un ensemble de questions de formation pour le grand modèle ; les relations sont plutôt dérivées de l’analyse des données. Par conséquent, IntaLink peut être appliqué à un large éventail de données. Plus il est possible d'intégrer de données, plus ses avantages sont grands.
- 2) Se concentre sur l'intégration des données, en particulier la génération de conditions relationnelles lors de l'intégration, sans se concentrer sur les méthodes d'utilisation des données. Remarque : L'intégration des données concerne l'établissement de relations entre plusieurs tables, tandis que les méthodes d'utilisation des données peuvent varier, telles que la sommation, le comptage, la moyenne, les valeurs minimales et maximales, etc. NL2SQL sélectionne les méthodes d'exploitation des données appropriées en fonction de la sémantique, comme SUM, COUNT, AVG, MIN, MAX, etc.
- 3) Haute précision : en excluant les problèmes de qualité des données, les conditions relationnelles générées par IntaLink peuvent théoriquement atteindre une précision de cent pour cent.
Combinaison potentielle d'IntaLink et des technologies de grands modèles
Les technologies de grands modèles excellent dans la compréhension sémantique et le contenu génératif, tandis qu'IntaLink présente des avantages dans l'analyse des associations de données avec une charge de travail initiale inférieure et une plus grande précision. Idéalement, les technologies de grands modèles pourraient être intégrées pour comprendre les exigences de saisie des utilisateurs, en convertissant ces informations en tableaux et éléments de données nécessaires, qu'IntaLink générerait ensuite pour les ensembles de données, suivis par le grand modèle générant les résultats souhaités (par exemple, des rapports, des graphiques, etc.) pour la présentation de l'utilisateur.
Rejoignez la communauté IntaLink !
Nous serions ravis que vous fassiez partie du voyage IntaLink ! Connectez-vous avec nous et contribuez à notre projet :
? Dépôt GitHub : IntaLink
? Rejoignez notre communauté Discord
Faites partie de la révolution open source et aidez-nous à façonner l'avenir de l'intégration intelligente des données !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Dépannage et solutions au logiciel de sécurité de l'entreprise qui fait que certaines applications ne fonctionnent pas correctement. De nombreuses entreprises déploieront des logiciels de sécurité afin d'assurer la sécurité des réseaux internes. ...

Solutions pour convertir les noms en nombres pour implémenter le tri dans de nombreux scénarios d'applications, les utilisateurs peuvent avoir besoin de trier en groupe, en particulier en un ...

Le traitement de la cartographie des champs dans l'amarrage du système rencontre souvent un problème difficile lors de l'exécution d'amarrage du système: comment cartographier efficacement les champs d'interface du système a ...

Commencez le printemps à l'aide de la version IntelliJideaultimate ...

Lorsque vous utilisez MyBatis-Plus ou d'autres cadres ORM pour les opérations de base de données, il est souvent nécessaire de construire des conditions de requête en fonction du nom d'attribut de la classe d'entité. Si vous manuellement à chaque fois ...

Conversion des objets et des tableaux Java: Discussion approfondie des risques et des méthodes correctes de la conversion de type de distribution De nombreux débutants Java rencontreront la conversion d'un objet en un tableau ...

Explication détaillée de la conception des tables SKU et SPU sur les plates-formes de commerce électronique Cet article discutera des problèmes de conception de la base de données de SKU et SPU dans les plateformes de commerce électronique, en particulier comment gérer les ventes définies par l'utilisateur ...

Comment la solution de mise en cache Redis réalise-t-elle les exigences de la liste de classement des produits? Pendant le processus de développement, nous devons souvent faire face aux exigences des classements, comme l'affichage d'un ...
