Verstecktes Juwel
Hintergrundrückblick: In früheren Artikeln wurde erwähnt, dass „das Ziel von IntaLink darin besteht, eine automatisierte Datenverknüpfung im Bereich der Datenintegration zu erreichen.“ Aus der Diskussion geht klar hervor, dass IntaLink das Problem der automatischen Verknüpfung von „relationalen Daten und mehreren Tabellen“ anspricht.
Lassen Sie uns nun diskutieren, ob dieses Thema breite Anwendungsszenarien hat oder ob es sich lediglich um einen Pseudovorschlag ohne praktischen Bedarf handelt.
Obwohl große Modelle, Big-Data-Plattformen und andere Technologien verschiedene Arten von Informationen nutzen können, darunter Dokumente, Bilder, Audio und Video, wie z. B. multimodale generative KI, die Videos produzieren und Sprachinteraktionen ermöglichen kann, sind die Ergebnisse oft offen -endet und subjektiv, was gelegentlich zu „Halluzinationen“ führt. Obwohl es akzeptabel ist, sie als Referenz oder Unterstützung zu verwenden, können wir uns in bestimmten anspruchsvollen Arbeitsumgebungen nicht auf diese Informationen oder große Modelle verlassen, um Aufgaben zu erledigen. In Sektoren wie Banken, Finanzen, Transport, Handel, Buchhaltung, Produktion und Energie müssen Kerngeschäftsdaten mithilfe strukturierter relationaler Daten verwaltet werden.
(1) Das Designparadigma relationaler Datenbanken erfordert eine sinnvolle Aufteilung der Daten, um erhebliche Redundanz zu vermeiden. Wenn die während der Konstruktionsphase generierten Daten viele Redundanzen enthalten, verdoppelt sich nicht nur der Datenerfassungsaufwand, sondern es ist auch schwierig, die Datenkonsistenz sicherzustellen. Aus einer anderen Perspektive: Wenn alle zugehörigen Daten in einer einzigen Tabelle gespeichert sind, die Datenelemente jedoch aus unterschiedlichen Geschäftsquellen mit unterschiedlichen Datensammlern und Generierungszeiten stammen, wird die Pflege solcher Datensätze unmöglich. Daher organisiert die Datenkonstruktion Daten von Natur aus basierend auf Objektorientierung und Geschäftsaktivitäten, was zu ihrer Verteilung auf verschiedene Tabellen führt.
(2) Daten müssen aus mehreren Systemen stammen. Da der Aufbau der Informationstechnologie nicht auf einmal abgeschlossen wird, wird es zwangsläufig zu einer Abfolge von Entwicklungen kommen. Selbst innerhalb desselben Systems kann es zu Abweichungen bei den Implementierungszeitplänen kommen. Darüber hinaus erfordern unterschiedliche Anwendungsszenarien unterschiedliche technologische Entscheidungen; Beispielsweise können Geschäftsdaten, Echtzeitdaten und Protokollinformationen durch verschiedene Technologien realisiert werden, wodurch Daten von Natur aus aus mehreren Quellen stammen.
Daten müssen für die Anwendung integriert werden. Die Nachfrage nach Datenintegrationsanwendungen hat verschiedene Möglichkeiten. Durch die Integration von Produktionsdaten und Planungsdaten kann beispielsweise der Status der Planerfüllung beurteilt werden; Durch die Integration von Produktionsdaten und Verkaufsdaten können Produktrückstände oder die Erfüllung von Auftragslieferungen ermittelt werden. Durch die Integration von Produktionsdaten mit Finanzdaten können Produktionskosten und Rentabilität bewertet werden. Daher ist die Datenintegration der effektivste Weg, den Datenwert zu maximieren und Geschäftsprozesse zu stärken.
Zusammenfassend lässt sich sagen, dass die Integrationsanwendung relationaler Daten noch lange eines der wichtigsten Datenanwendungsszenarien bleiben wird. Solange dieses Szenario besteht, wird IntaLink eine breite Anpassungsfähigkeit haben.
T2SQL (Text to SQL) und NL2SQL (Natural Language to SQL) generieren automatisch die erforderlichen Datenabfragen durch Text- oder natürliche Spracheingabe. Die Begriffe T2SQL und NL2SQL beschreiben im Wesentlichen dasselbe Konzept: die Nutzung von KI-Technologie zur Umwandlung semantischen Verständnisses in Datenoperationsmethoden, was der gleichen Idee, aber mit unterschiedlichen Terminologien entspricht. Dies ist eine Forschungsrichtung in Datenanwendungen. In den letzten Jahren hat dieser Bereich mit dem Aufkommen großer Modelltechnologien erhebliche Fortschritte gemacht. Ich habe technische Berichte von Alibaba und Tencent recherchiert und Open-Source-Projekte wie DB-GPT ausprobiert. Diese Technologien sind zumindest in ihrer zugrunde liegenden technischen Logik weitgehend ähnlich, während der Ansatz von IntaLink völlig unterschiedlich ist.
Lassen Sie uns zunächst die zugrunde liegende technische Logik beiseite lassen und eine vergleichende Analyse basierend auf Implementierungsmethoden durchführen:
Angenommen, wir haben eine Reihe von Tabellen mit den Namen T1, T2, ..., Tn, die jeweils mehrere Datenelemente mit den Bezeichnungen C1, C2, ..., Cn enthalten, wobei die Anzahl der Elemente pro Tabelle unterschiedlich ist. Betrachten Sie einen simulierten Datensatz für Tabelle T1 wie folgt:
C1 | C2 | C3 | C4 | C5 | C6 |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Aus diesem Inhalt allein können wir keine nützlichen Informationen ableiten. Wir sind uns über die Bedeutung der oben genannten Daten im Unklaren. Lassen Sie uns zwei Bedeutungen für die Daten simulieren:
Fruit Type | Warehouse No. | Shelf No. | Stock | Shelf Life | Warehouse Manager ID |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Hotel Name | Warehouse Hotness Ranking | Star Rating | Years in Business | Remaining Rooms | Discount Available |
---|---|---|---|---|---|
Orange | 5 | 3 | 3 | 2 | 1 |
Wir gehen nicht weiter auf die Gültigkeit dieser Datensätze oder die Existenz solcher Tabellen ein. Es ist jedoch offensichtlich, dass die Daten nicht angewendet werden können, ohne die Bedeutung der Tabellen und Datenelemente zu verstehen. Man kann die Anforderungen von Datenanwendungen nicht mit den Daten selbst verknüpfen, geschweige denn komplexere Datenoperationen diskutieren.
Anhand eines Datensatzes zum Testen von NL2SQL veranschaulichen wir das Anwendungsmuster der Großmodelltechnologie in diesem Bereich.
Der Spider-Datensatz ist ein T2S-Datensatz für Abfragen mit mehreren Datenbanken, mehreren Tabellen und einer Runde und gilt als die anspruchsvollste Bestenliste für die domänenübergreifende Bewertung in großem Maßstab. Es wurde 2018 von der Yale University vorgeschlagen und von elf Yale-Studenten kommentiert. Der Datensatz enthält zehntausendeinhunderteinundachtzig Fragen in natürlicher Sprache und fünftausendsechshundertdreiundneunzig SQL-Anweisungen und deckt über zweihundert Datenbanken in einhundertachtunddreißig verschiedenen Domänen ab. Siebentausend Fragen werden für das Training verwendet, eintausendvierunddreißig für die Entwicklung und zweitausendeinhundertsiebenundvierzig für Tests. Mit anderen Worten: Durch die Bereitstellung von Fragen zusammen mit den entsprechenden Antworten (SQL) lernt das große Modell, die Daten zu nutzen. Der Einfachheit halber können wir die Logik wie folgt zusammenfassen:
Nachdem wir das Modell mit einem solchen Datensatz trainiert haben, können wir die folgende Testfrage stellen:
Daraus sehen wir, dass NL2SQL den Schwerpunkt auf die Ableitung möglicher SQL-Abfragen legt, die auf semantischem und kontextuellem Verständnis basieren und sich auf einen trainierten Datensatz stützen.
Für die Datenintegration von IntaLink müssen Benutzer keine Trainingsdaten bereitstellen. Die Beziehungen zwischen Daten werden durch ein Modell zur Beziehungsanalyse zwischen Tabellen generiert. Diese Beziehungsgenerierung erfordert kein Verständnis der tatsächlichen Bedeutung der Tabellen und Datenelemente, sondern wird durch eine Reihe von Methoden abgeleitet, die die charakteristischen Werte der Daten analysieren, um Zusammenhänge zwischen Tabellen abzuleiten. Nachfolgend veranschaulichen wir die Einrichtung von Beziehungen zwischen Tabellen anhand von zwei Beispieltabellen.
Tab_1
Name | Student_ID | CLASS | Age | Sex |
---|---|---|---|---|
Zhang San | 2021_0001 | 2021_01 | 19 | Male |
Li Si | 2021_0002 | 2021_01 | 18 | Female |
Wang Wu | 2021_0003 | 2021_01 | 19 | Male |
Tab_2
Student_ID | Course | Grade | Rank |
---|---|---|---|
2021_0001 | Math | 135 | 18 |
2021_0001 | Chinese | 110 | 23 |
2021_0002 | Math | 120 | 25 |
2021_0002 | Chinese | 125 | 10 |
In Tab_1 stimmt die Student_ID mit der Student_ID in Tab_2 überein und weist dieselben Merkmalswerte auf. Um diese beiden Tabellen zu verknüpfen, gilt daher die Bedingung Tab_1.Student_ID = Tab_2.Student_ID. Diese Analyse der Verknüpfung zwischen Tabellen erfordert die Berücksichtigung zahlreicher Faktoren. In IntaLink replizieren wir die Speicherdatenbank für Datenmerkmalswerte als Analysetool und verwenden dabei eine Reihe optimierter Analysemethoden, um Ergebnisse der Beziehungsanalyse zwischen Tabellen zu erstellen. Aufgrund der Komplexität des Inhalts wird hier nicht näher darauf eingegangen. In einem separaten Artikel wird die Implementierungslogik erläutert.
Große Modelltechnologien zeichnen sich durch semantisches Verständnis und generativen Inhalt aus, während IntaLink Vorteile bei der Datenassoziationsanalyse mit geringerem Vorabaufwand und höherer Genauigkeit bietet. Idealerweise könnten große Modelltechnologien integriert werden, um die Benutzereingabeanforderungen zu verstehen und diese Informationen in die erforderlichen Datentabellen und -elemente umzuwandeln, die IntaLink dann für Datensätze generieren würde, woraufhin das große Modell die gewünschten Ergebnisse generiert (z. B. Berichte, Diagramme usw.). usw.) zur Benutzerpräsentation.
Wir würden uns freuen, wenn Sie Teil der IntaLink-Reise sein würden! Vernetzen Sie sich mit uns und tragen Sie zu unserem Projekt bei:
? GitHub-Repository: IntaLink
? Treten Sie unserer Discord-Community bei
Seien Sie Teil der Open-Source-Revolution und helfen Sie uns, die Zukunft der intelligenten Datenintegration zu gestalten!
Das obige ist der detaillierte Inhalt vonIntaLink: Eine neue NLL-Technologie, die sich von großen Modellen unterscheidet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!