首頁 科技週邊 人工智慧 千億級超大規模向量資料庫正加速AI進化

千億級超大規模向量資料庫正加速AI進化

Nov 24, 2023 pm 08:46 PM
向量資料庫 ai進化 超大規模

在大型模型展開「諸神之戰」時,出現了一個致命的問題,讓那些嘗試的使用者無法忍受。許多大型模型都存在一個普遍的問題,即“一本正經地胡說八道”,這就是我們常說的“AI幻覺”。那麼,如何讓大型模型變得更準確、更聰明,而不是胡言亂語呢?除了模型框架、資料和演算法之外,還有一個關鍵的應用,那就是向量資料庫!

千億級超大規模向量資料庫正加速AI進化

資料中樞背後

#關於向量資料庫與大模型的關係以及其重要性,有多種不同的解讀。一個比較形象的說法是,如果將大模型比喻為一個容易遺忘的大腦,那麼向量資料庫就相當於其中的“海馬體”,主要負責儲存和定向記憶等功能。從解剖學的角度來看,如果將一個人的海馬區切除,該人將失去長時記憶的能力,並無法感知聲音、光線、味覺等訊息

說穿了,大模型之所以有幻覺,根本原因是大模型的向量資料庫不夠強大,導致大模型只能從既定的資料中找出答案,推理的結果常常泛泛而談,或者胡誅,極度影響體驗。所以,大模型聰明與否,要看向量資料庫是否給力,這也是騰訊雲為什麼發力向量資料庫,建構AGI「資料中樞」的根本原因。

有人可能會想:我在資料中台層級提升資料調度能力,傳統關聯式資料庫也可以支援呀?但現實情況是,企業在搭建和使用大模型時,首先需要把海量資料安全、有效率地接入大模型,在諸多複雜資料中,適合關係型資料庫的結構化資料僅有20%,其餘80%都是文字、圖像、視訊、音訊等非結構化的資料。而向量資料庫可以把複雜的非結構化資料處理成多維邏輯的座標值,與大模型進行連接,資料處理的效率比傳統資料庫提升10倍。

同時,向量資料庫也可以作為外部知識庫向大模型傳遞最新、最準確、最全面的信息,高效應對即時問答,並且讓大模型擁有長期記憶,避免聊天時的斷片。如此一來,向量資料庫與大模型是最 佳搭檔的說法,就比較容易理解了。

專業向量資料庫VS傳統資料庫向量外掛程式

事實上,把向量資料庫當作大模型背後的主要賽道,領先企業已經走在創新旅程中了。初步統計,致力於向量資料庫的廠商已經有50多家。而從具體的技術路線來看,主要分兩大類:一類是專業的向量原生資料庫,從誕生開始就為向量設計,可以做向量資料結構的儲存、解鎖、查詢;另一類是傳統資料庫上加了一個向量插件,使其能夠支援向量的檢索。

比較分析,兩種方式各有應用場景,例如:企業剛開始時候,資料量不大,不想引進新資料庫,那就可以選擇傳統資料庫 向量外掛的方式。但如果企業資料量較大,想建立更聰明的大模型,對效能和未來發展有更高要求,那麼就選擇像騰訊雲這樣專業的向量資料庫產品,顯然會更適合。

在向量資料庫的應用角度來看,還存在著更多的潛力。目前,許多企業正在使用向量資料庫來解決大型模型的虛幻感以及知識增強等方面的弱點。然而,未來的發展不僅限於這些能力,還可以在影像查詢方面有更出色的表現。例如,可以對手機中的照片進行查詢,類似於圖像搜尋引擎,這實際上也是一種向量查詢

專業向量資料庫並不能取代傳統資料庫,尤其是在大型場景下。傳統關係型資料庫和向量資料庫可以相互協同發展、相互補充。向量資料庫透過向量化資料來滿足傳統關係型資料庫難以處理的大規模資料、低時延高並發檢索、模糊匹配等領域的需求。向量資料庫只支援新的資料類型,並不儲存原始數據,而傳統資料庫支援數值、字串、時間等傳統資料類型。傳統資料庫支援的數據規模相對較小,最多只能支撐1億個數據,而向量資料庫可以支撐大規模的數據,底線是千億個數據。傳統資料庫的查詢方式為精確查找,要麼符合條件,要麼不符合;而向量資料庫則是近似查找,查詢結構和輸入條件要盡量相似,對運算能力要求也更高。上層應用程式可以使用統一的API方式,更適合大規模人工智慧應用程式的部署和使用

智能進化

大模型並不是從零開始,向量資料庫也不是。那麼,向量資料庫到底是怎麼發展起來的呢?騰訊雲端資料庫團隊曾經有過深刻的思考!

騰訊雲資料庫副總經理羅雲認為,大模型的本質不應該是一個無限大的存儲體,而是一個帶有智算能力的平台,將之前只有程式語言才能觸達的底層運算能力,用自然語言去調度,這應該是一個令人興奮的奇點。興奮之餘再次冷靜思考,人類在完成數位化改造過程中,除了運算平台,還有其他的可能性嗎?到底什麼才是AGI時代的技術核心?總結發現,底層資料的智慧化流通才是撬動資料中樞的金鑰匙!

如今,當企業有了通用的智慧運算能力後,底層的資料可以快速流動起來,我們可以把檔案存在檔案系統,我們可以呼叫關聯式資料庫裡面的表格資料、非關係型裡面的KV數據,所有資料都可以透過智慧化的方式流通和連動。但要讓資料和人類對話,光有運算平台還不夠,還要有一個智慧資料平台,可以用自然語言把資料取出來,然後交給大模型去計算,而要達成這樣的目的,向量資料庫就成為一個重要的樞紐。

既然向量資料庫如此重要,我們該如何透過智慧化升級,在傳統資料庫經驗基礎上與資料平台對話呢?這正是騰訊雲資料庫的專長!在騰訊雲向量資料庫技術高峰會上,騰訊雲宣布與第三方機構合作完成了一項測試,證明騰訊雲向量資料庫可以支援千億級規模的數據,並且顯著提高了每秒查詢率,達到了500萬的峰值能力

目前,騰訊雲向量資料庫已經有大量用戶,包括百川智慧、好未來、銷售易等公司。最近,他們和百川一起做了個 AGI 啟航計劃,贈送向量資料庫實例及 Baichuan2 大模型 400 萬的 Tokens。

透過Embedding、向量索引、分散式系統架構、硬體加速等核心技術,騰訊雲向量資料庫可以有效解決文字、圖像、視頻,包括生物製藥、風控、音頻、多模態等廣闊場景的特定問題。例如:利用Embedding技術將高維度的資料(例如文字、 圖片、 音訊)映射到低維度空間,即把圖片、聲音和文字轉換為向量來表示,將這些向量儲存起來就構成向量資料庫,而實現Embedding過程的方法包括神經網路、 LSH(局部敏感雜湊演算法)等。

騰訊從2019年開始致力於提升向量資料庫的能力,引領企業業務邁向AGI時代。至今,騰訊雲端已為40多家內部客戶提供服務,每天支援的向量資料檢索次數超過了1,600億次。同時,騰訊雲也為1,000家外部客戶提供服務,成長速度可謂驚人

放眼未來,AGI正在加速演化,這中間有驚喜,也有挑戰。騰訊雲端資料庫將一如既往,不斷探索,引領創新。 「Road to AGI,Together on the Path」—這句話完美地概括了騰訊雲端技術團隊的當前狀態!

以上是千億級超大規模向量資料庫正加速AI進化的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1318
25
PHP教程
1269
29
C# 教程
1248
24
開始使用Meta Llama 3.2 -Analytics Vidhya 開始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

10個生成AI編碼擴展,在VS代碼中,您必須探索 10個生成AI編碼擴展,在VS代碼中,您必須探索 Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

AV字節:Meta&#039; llama 3.2,Google的雙子座1.5等 AV字節:Meta&#039; llama 3.2,Google的雙子座1.5等 Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? Apr 13, 2025 am 10:18 AM

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

視覺語言模型(VLMS)的綜合指南 視覺語言模型(VLMS)的綜合指南 Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

3種運行Llama 3.2的方法-Analytics Vidhya 3種運行Llama 3.2的方法-Analytics Vidhya Apr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya Apr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

See all articles