Joyau caché
Examen de fond : Dans des articles précédents, il a été mentionné que "l'objectif d'IntaLink est de réaliser une liaison automatisée de données dans le domaine de l'intégration de données". D'après la discussion, il ressort clairement qu'IntaLink aborde la question de la liaison automatique de « données relationnelles et de tables multiples ».
Maintenant, discutons si cette question a de larges scénarios d'application ou s'il s'agit simplement d'une pseudo-proposition sans exigence pratique.
Bien que les grands modèles, les plateformes Big Data et d'autres technologies puissent utiliser divers types d'informations, notamment des documents, des images, de l'audio et de la vidéo, comme l'IA générative multimodale capable de produire des vidéos et de faciliter les interactions vocales, les résultats sont souvent ouverts. -terminé et subjectif, conduisant parfois à des « hallucinations ». Ainsi, même si leur utilisation à titre de référence ou d'assistance est acceptable, dans certains environnements de travail rigoureux, nous ne pouvons pas nous fier à ces informations ou à ces grands modèles pour accomplir des tâches. Dans des secteurs comme la banque, la finance, les transports, le commerce, la comptabilité, la production et l'énergie, les données métiers de base doivent être gérées à l'aide de données relationnelles structurées.
(1) Le paradigme de conception des bases de données relationnelles exige que les données soient raisonnablement divisées pour éviter une redondance importante. Si les données générées pendant la phase de construction contiennent beaucoup de redondance, non seulement la charge de travail de collecte de données est dupliquée, mais la cohérence des données est également difficile à assurer. D'un autre point de vue, si toutes les données associées sont stockées dans une seule table, mais que les éléments de données proviennent de différentes sources commerciales, avec des collecteurs de données et des temps de génération différents, la conservation de ces enregistrements de données devient impossible. Ainsi, la construction des données organisera intrinsèquement les données en fonction de l'orientation objet et des activités commerciales, conduisant à leur répartition sur différentes tables.
(2) Les données doivent provenir de plusieurs systèmes. Puisque la construction des technologies de l’information ne s’effectue pas d’un seul coup, il y aura inévitablement une séquence de développements. Même au sein d’un même système, les délais de mise en œuvre peuvent varier. De plus, différents scénarios d'application nécessitent des choix technologiques différents ; par exemple, les données commerciales, les données en temps réel et les informations de journal peuvent être obtenues grâce à diverses technologies, ce qui rend les données intrinsèquement multi-sources.
Les données doivent être intégrées pour l'application. La demande d’applications d’intégration de données présente diverses possibilités. Par exemple, l'intégration des données de production et des données de planification peut évaluer l'état d'avancement du plan ; l'intégration des données de production et des données de vente peut identifier les retards de produits ou l'exécution des livraisons de commandes ; et l'intégration des données de production avec les données financières peut évaluer les coûts de production et la rentabilité. Par conséquent, l'intégration des données est le moyen le plus efficace de maximiser la valeur des données et de renforcer les processus métier.
En résumé, l'application d'intégration de données relationnelles restera pendant longtemps l'un des scénarios d'application de données les plus importants. Tant que ce scénario existera, IntaLink aura une large adaptabilité.
T2SQL (Text to SQL) et NL2SQL (Natural Language to SQL) génèrent automatiquement les requêtes de données requises via la saisie de texte ou de langage naturel. Les termes T2SQL et NL2SQL décrivent essentiellement le même concept : utiliser la technologie de l'IA pour transformer la compréhension sémantique en méthodes d'exploitation des données, ce qui est la même idée mais avec des terminologies différentes. Il s’agit d’une direction de recherche dans les applications des données. Ces dernières années, avec l’émergence des technologies de grands modèles, ce domaine a connu des progrès significatifs. J'ai recherché des rapports techniques d'Alibaba et de Tencent et essayé des projets open source comme DB-GPT. Ces technologies sont largement similaires, du moins dans leur logique technique sous-jacente, tandis que l'approche d'IntaLink est totalement différente.
Laissons de côté pour l’instant la logique technique sous-jacente et procédons à une analyse comparative basée sur les méthodes de mise en œuvre :
Supposons que nous ayons un ensemble de tables nommées T1, T2, ..., Tn, chacune contenant plusieurs éléments de données étiquetés C1, C2, ..., Cn, avec un nombre variable d'éléments par table. Considérons un ensemble de données simulé pour le tableau T1 comme suit :
C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
De ce seul contenu, nous ne pouvons tirer aucune information utile. Nous ne savons pas exactement la signification des données ci-dessus. Simulons deux significations pour les données :
Fruit Type | Warehouse No. | Shelf No. | Stock | Shelf Life | Warehouse Manager ID |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Hotel Name | Warehouse Hotness Ranking | Star Rating | Years in Business | Remaining Rooms | Discount Available |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Nous ne nous attarderons pas sur la validité de ces jeux de données ni sur l'existence de tels tableaux. Cependant, il est évident que sans comprendre la signification des tableaux et des éléments de données, les données ne peuvent pas être appliquées. On ne peut pas lier les besoins des applications de données aux données elles-mêmes, et encore moins discuter d'opérations de données plus complexes.
À l'aide d'un ensemble de données pour tester NL2SQL, illustrons le modèle d'application de la technologie des grands modèles dans ce domaine.
L'ensemble de données Spider est un ensemble de données T2S pour les requêtes multi-bases de données, multi-tables et à un seul tour et est reconnu comme le classement d'évaluation inter-domaines à grande échelle le plus difficile. Il a été proposé par l'Université de Yale en 2018, annoté par onze étudiants de Yale. L'ensemble de données contient dix mille cent quatre-vingt-une questions en langage naturel et cinq mille six cent quatre-vingt-treize instructions SQL, couvrant plus de deux cents bases de données dans cent trente-huit domaines différents. Sept mille questions sont utilisées pour la formation, mille trente-quatre pour le développement et deux mille cent quarante-sept pour les tests. En d’autres termes, en fournissant des questions accompagnées de leurs réponses correspondantes (SQL), le grand modèle apprend à utiliser les données. Par souci de simplicité, nous pouvons condenser la logique comme suit :
Après avoir entraîné le modèle avec un tel ensemble de données, nous pouvons poser la question test suivante :
De là, nous voyons que NL2SQL met l'accent sur la dérivation de requêtes SQL possibles basées sur une compréhension sémantique et contextuelle, en s'appuyant sur un ensemble de données entraîné.
L'intégration des données d'IntaLink n'exige pas que les utilisateurs fournissent des données de formation. Les relations entre les données sont générées via un modèle d'analyse des relations inter-tables. Cette génération de relations ne nécessite pas de comprendre la signification réelle des tableaux et des éléments de données, mais est dérivée d'un ensemble de méthodes qui analysent les valeurs caractéristiques des données pour déduire des associations entre les tableaux. Ci-dessous, nous illustrons l'établissement de relations inter-tables à l'aide de deux exemples de tables.
Tab_1
Name | Student_ID | CLASS | Age | Sex |
---|---|---|---|---|
Zhang San | 2021_0001 | 2021_01 | 19 | Male |
Li Si | 2021_0002 | 2021_01 | 18 | Female |
Wang Wu | 2021_0003 | 2021_01 | 19 | Male |
Tab_2
Student_ID | Course | Grade | Rank |
---|---|---|---|
2021_0001 | Math | 135 | 18 |
2021_0001 | Chinese | 110 | 23 |
2021_0002 | Math | 120 | 25 |
2021_0002 | Chinese | 125 | 10 |
Dans Tab_1, le Student_ID correspond au Student_ID dans Tab_2, partageant les mêmes valeurs caractéristiques. Par conséquent, pour lier ces deux tables, la condition Tab_1.Student_ID = Tab_2.Student_ID est vraie. Cette analyse des liens inter-tables nécessite la prise en compte de nombreux facteurs. Dans IntaLink, nous reproduisons la base de données mémoire des valeurs caractéristiques des données en tant qu'outil d'analyse, en utilisant un ensemble de méthodes analytiques optimisées pour produire des résultats d'analyse des relations inter-tables. En raison de la complexité du contenu impliqué, nous ne développerons pas davantage ici. Un article séparé discutera de la logique de mise en œuvre.
Les technologies de grands modèles excellent dans la compréhension sémantique et le contenu génératif, tandis qu'IntaLink présente des avantages dans l'analyse des associations de données avec une charge de travail initiale inférieure et une plus grande précision. Idéalement, les technologies de grands modèles pourraient être intégrées pour comprendre les exigences de saisie des utilisateurs, en convertissant ces informations en tableaux et éléments de données nécessaires, qu'IntaLink générerait ensuite pour les ensembles de données, suivis par le grand modèle générant les résultats souhaités (par exemple, des rapports, des graphiques, etc.) pour la présentation de l'utilisateur.
Nous serions ravis que vous fassiez partie du voyage IntaLink ! Connectez-vous avec nous et contribuez à notre projet :
? Dépôt GitHub : IntaLink
? Rejoignez notre communauté Discord
Faites partie de la révolution open source et aidez-nous à façonner l'avenir de l'intégration intelligente des données !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!