Als der „Krieg der Götter“ in Großmodellen begann, trat ein fatales Problem auf, das die Benutzer, die es ausprobierten, unerträglich machte. Bei vielen groß angelegten Modellen gibt es ein häufiges Problem, nämlich „ernsthaft Unsinn zu reden“. Dies wird oft als „KI-Illusion“ bezeichnet. Wie macht man also große Modelle genauer, intelligenter und weniger unnötig? Neben Modellgerüsten, Daten und Algorithmen gibt es auch eine Schlüsselanwendung, und das sind Vektordatenbanken!
Hinter dem Rechenzentrum
Es gibt viele verschiedene Interpretationen der Beziehung zwischen Vektordatenbanken und großen Modellen und ihrer Bedeutung. Anschaulicher ausgedrückt: Wenn ein großes Modell mit einem Gehirn verglichen wird, das leicht zu vergessen ist, dann entspricht die Vektordatenbank dem darin enthaltenen „Hippocampus“, der hauptsächlich für Funktionen wie Speicherung und Richtungsgedächtnis verantwortlich ist . Aus anatomischer Sicht führt die Entfernung des Hippocampus einer Person dazu, dass sie die Fähigkeit zum Langzeitgedächtnis verliert und Informationen wie Geräusche, Licht, Geschmack usw. nicht mehr wahrnehmen kann.
Um es ganz klar auszudrücken: Der Hauptgrund für Halluzinationen bei großen Modellen ist, dass die Vektordatenbank großer Modelle nicht leistungsfähig genug ist. Daher können große Modelle nur Antworten aus etablierten Daten finden. Die Ergebnisse der Schlussfolgerung sind oft verallgemeinert , was das Erlebnis stark beeinflusst. Ob ein großes Modell intelligent ist oder nicht, hängt daher davon ab, ob die Vektordatenbank leistungsstark ist. Dies ist auch der Hauptgrund, warum sich Tencent Cloud beim Aufbau eines AGI-„Rechenzentrums“ auf Vektordatenbanken konzentriert.
Manche Leute denken vielleicht: Wenn ich die Datenplanungsfunktionen auf Rechenzentrumsebene verbessere, können herkömmliche relationale Datenbanken dies dann auch unterstützen? Die Realität ist jedoch, dass Unternehmen, die große Modelle erstellen und verwenden, zunächst große Datenmengen sicher und effizient mit dem großen Modell verbinden müssen. Von den vielen komplexen Daten sind nur 20 % für relationale Datenbanken geeignet und die restlichen 80 % sind strukturierte Daten Es handelt sich dabei alles um unstrukturierte Daten wie Texte, Bilder, Videos und Audios. Die Vektordatenbank kann komplexe unstrukturierte Daten in mehrdimensionale logische Koordinatenwerte verarbeiten und mit großen Modellen verbinden. Die Datenverarbeitungseffizienz ist zehnmal höher als bei herkömmlichen Datenbanken.
Gleichzeitig kann die Vektordatenbank auch als externe Wissensdatenbank verwendet werden, um großen Modellen die neuesten, genauesten und umfassendsten Informationen bereitzustellen, effizient auf Fragen und Antworten in Echtzeit zu reagieren und eine langfristige Nutzung großer Modelle zu ermöglichen Speicher, um eine Fragmentierung während des Chats zu vermeiden. Auf diese Weise ist es einfacher zu verstehen, dass Vektordatenbanken und große Modelle die besten Partner sind.
Professionelle Vektordatenbank im Vergleich zum herkömmlichen Datenbank-Vektor-Plug-in
Tatsächlich sind führende Unternehmen bereits auf dem Weg der Innovation, da Vektordatenbanken die Hauptquelle für große Modelle sind. Nach vorläufigen Statistiken arbeiten bereits mehr als 50 Hersteller an Vektordatenbanken. Aus technischer Sicht ist es hauptsächlich in zwei Kategorien unterteilt: Die eine ist eine professionelle vektornative Datenbank, die von Anfang an für Vektoren entwickelt wurde und Vektordatenstrukturen speichern, entsperren und abfragen kann. Die andere ist eine traditionelle Datenbank Es wurde ein Vektor-Plugin hinzugefügt, um den Vektorabruf zu ermöglichen.
Eine vergleichende Analyse zeigt, dass beide Methoden ihre eigenen Anwendungsszenarien haben. Wenn ein Unternehmen beispielsweise gerade erst anfängt, die Datenmenge nicht groß ist und Sie keine neue Datenbank einführen möchten, können Sie die traditionelle Datenbank + Vektor wählen Plug-in-Methode. Wenn das Unternehmen jedoch über große Datenmengen verfügt, intelligentere große Modelle erstellen möchte und höhere Anforderungen an Leistung und zukünftige Entwicklung stellt, ist die Wahl eines professionellen Vektordatenbankprodukts wie Tencent Cloud offensichtlich besser geeignet.
Aus Anwendungssicht von Vektordatenbanken gibt es noch weiteres Potenzial. Derzeit nutzen viele Unternehmen Vektordatenbanken, um Schwachstellen wie die Illusion großer Modelle und die Wissenserweiterung zu beheben. Zukünftige Entwicklungen beschränken sich jedoch nicht nur auf diese Funktionen, sondern können auch eine bessere Leistung bei der Bildabfrage erzielen. Sie können beispielsweise Fotos auf Ihrem Telefon abfragen, ähnlich einer Bildsuchmaschine, bei der es sich eigentlich um eine Vektorabfrage handelt
Professionelle Vektordatenbanken können herkömmliche Datenbanken nicht ersetzen, insbesondere in großen Szenarien. Herkömmliche relationale Datenbanken und Vektordatenbanken können gemeinsam entwickelt werden und sich gegenseitig ergänzen. Vektordatenbanken verwenden vektorisierte Daten, um die Anforderungen großer Datenmengen, Abrufe mit geringer Latenz und hoher Parallelität, Fuzzy-Matching und andere Felder zu erfüllen, die mit herkömmlichen relationalen Datenbanken nur schwer zu handhaben sind. Vektordatenbanken unterstützen nur neue Datentypen und speichern keine Originaldaten, während herkömmliche Datenbanken traditionelle Datentypen wie numerische Werte, Zeichenfolgen und Zeit unterstützen. Der von herkömmlichen Datenbanken unterstützte Datenumfang ist relativ klein und kann nur bis zu 100 Millionen Daten unterstützen, während Vektordatenbanken große Datenmengen unterstützen können, wobei das Endergebnis bei 100 Milliarden Daten liegt. Die Abfragemethode herkömmlicher Datenbanken ist eine präzise Suche, die die Bedingungen entweder erfüllt oder nicht erfüllt, während Vektordatenbanken Näherungssuchen verwenden, bei denen die Abfragestruktur und die Eingabebedingungen so ähnlich wie möglich sein müssen und die Anforderungen an die Rechenleistung gleich sind auch höher. Anwendungen der oberen Ebene können einen einheitlichen API-Ansatz verwenden, der besser für die Bereitstellung und Verwendung umfangreicher Anwendungen der künstlichen Intelligenz geeignet ist
Intelligente Evolution
Große Modelle fangen nicht bei Null an, ebenso wenig wie Vektordatenbanken. Wie ist die Vektordatenbank entstanden? Das Tencent Cloud Database-Team hat einmal gründlich nachgedacht!
Luo Yun, stellvertretender General Manager von Tencent Cloud Database, glaubt, dass die Essenz eines großen Modells nicht ein unendlich großer Speicherkörper sein sollte, sondern eine Plattform mit intelligenten Rechenfunktionen, die die zugrunde liegenden Rechenfähigkeiten nutzt, die bisher nur durch Programmierung zugänglich waren Bei der Planung natürlicher Sprachen sollte dies eine aufregende Besonderheit sein. Obwohl ich aufgeregt war, dachte ich noch einmal ruhig darüber nach, ob es im Zuge der digitalen Transformation durch den Menschen noch andere Möglichkeiten gibt. Was genau ist der technische Kern der AGI-Ära? Zusammenfassend lässt sich sagen, dass die intelligente Zirkulation der zugrunde liegenden Daten der goldene Schlüssel zur Nutzung des Rechenzentrums ist!
Wenn Unternehmen heutzutage über allgemeine intelligente Rechenfunktionen verfügen, können wir die zugrunde liegenden Daten schnell im Dateisystem speichern und Tabellendaten in relationalen Datenbanken, KV-Daten in nicht relationalen Datenbanken usw. aufrufen intelligent zirkulieren und vernetzen. Wenn Sie jedoch möchten, dass Daten mit Menschen kommunizieren, reicht es nicht aus, über eine Computerplattform zu verfügen. Sie benötigen auch eine intelligente Datenplattform, die die Daten mithilfe natürlicher Sprache extrahieren und dann zur Berechnung an das große Modell übergeben kann Dieses Ziel, Vektordatenbank Es wird zu einem wichtigen Knotenpunkt.
Da die Vektordatenbank so wichtig ist, wie sollten wir durch intelligente Upgrades mit der Datenplattform kommunizieren, die auf der traditionellen Datenbankerfahrung basiert? Genau das ist die Spezialität von Tencent Cloud Database! Auf dem Tencent Cloud Vector Database Technology Summit gab Tencent Cloud bekannt, dass es in Zusammenarbeit mit einer Drittorganisation einen Test abgeschlossen hat, der beweist, dass die Tencent Cloud Vector Database Hunderte Milliarden Daten unterstützen und die Abfragerate pro Sekunde erheblich steigern kann 5 Millionen. Spitzenkapazität
Derzeit hat die Tencent Cloud Vector Database bereits eine große Anzahl von Benutzern, darunter Unternehmen wie Baichuan Intelligence, TAL und SalesEasy. Kürzlich haben sie mit Baichuan einen AGI-Startplan erstellt und 4 Millionen Token für Vektordatenbankinstanzen und große Baichuan2-Modelle verschenkt.
Durch Kerntechnologien wie Einbettung, Vektorindizierung, verteilte Systemarchitektur und Hardwarebeschleunigung kann die Tencent Cloud Vector Database spezifische Probleme in Text, Bildern, Videos, einschließlich Biopharmazeutika, Risikokontrolle, Audio, multimodalen und anderen umfassenden Szenarien, effektiv lösen . Beispiel: Verwenden Sie die Einbettungstechnologie, um hochdimensionale Daten (z. B. Text, Bilder, Audio) auf niedrigdimensionalen Raum abzubilden, dh Bilder, Töne und Text in Vektoren umzuwandeln, um sie darzustellen, und speichern Sie diese Vektoren, um einen Vektor zu bilden Datenbank zur Realisierung des Einbettungsprozesses. Zu den Methoden gehören neuronale Netze, LSH (lokalitätssensitiver Hashing-Algorithmus) usw.
Tencent engagiert sich seit 2019 für die Verbesserung der Funktionen von Vektordatenbanken und führt Unternehmen in die AGI-Ära. Bis heute hat Tencent Cloud Dienste für mehr als 40 interne Kunden bereitgestellt und täglich mehr als 160 Milliarden Vektordatenabrufe unterstützt. Gleichzeitig bietet Tencent Cloud auch Dienstleistungen für 1.000 externe Kunden an, und die Wachstumsrate ist erstaunlich
Mit Blick auf die Zukunft beschleunigt AGI seine Entwicklung, was Überraschungen und Herausforderungen mit sich bringt. Tencent Cloud Database wird weiterhin Innovationen erforschen und vorantreiben. „Road to AGI, Together on the Path“ – dieser Satz fasst den aktuellen Stand des technischen Teams von Tencent Cloud perfekt zusammen!
Das obige ist der detaillierte Inhalt vonHunderte Milliarden extrem große Vektordatenbanken beschleunigen die Entwicklung der KI. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!