首頁 科技週邊 人工智慧 千億級超大規模向量資料庫正加速AI進化

千億級超大規模向量資料庫正加速AI進化

Nov 24, 2023 pm 08:46 PM
向量資料庫 ai進化 超大規模

在大型模型展開「諸神之戰」時,出現了一個致命的問題,讓那些嘗試的使用者無法忍受。許多大型模型都存在一個普遍的問題,即“一本正經地胡說八道”,這就是我們常說的“AI幻覺”。那麼,如何讓大型模型變得更準確、更聰明,而不是胡言亂語呢?除了模型框架、資料和演算法之外,還有一個關鍵的應用,那就是向量資料庫!

千億級超大規模向量資料庫正加速AI進化

資料中樞背後

#關於向量資料庫與大模型的關係以及其重要性,有多種不同的解讀。一個比較形象的說法是,如果將大模型比喻為一個容易遺忘的大腦,那麼向量資料庫就相當於其中的“海馬體”,主要負責儲存和定向記憶等功能。從解剖學的角度來看,如果將一個人的海馬區切除,該人將失去長時記憶的能力,並無法感知聲音、光線、味覺等訊息

說穿了,大模型之所以有幻覺,根本原因是大模型的向量資料庫不夠強大,導致大模型只能從既定的資料中找出答案,推理的結果常常泛泛而談,或者胡誅,極度影響體驗。所以,大模型聰明與否,要看向量資料庫是否給力,這也是騰訊雲為什麼發力向量資料庫,建構AGI「資料中樞」的根本原因。

有人可能會想:我在資料中台層級提升資料調度能力,傳統關聯式資料庫也可以支援呀?但現實情況是,企業在搭建和使用大模型時,首先需要把海量資料安全、有效率地接入大模型,在諸多複雜資料中,適合關係型資料庫的結構化資料僅有20%,其餘80%都是文字、圖像、視訊、音訊等非結構化的資料。而向量資料庫可以把複雜的非結構化資料處理成多維邏輯的座標值,與大模型進行連接,資料處理的效率比傳統資料庫提升10倍。

同時,向量資料庫也可以作為外部知識庫向大模型傳遞最新、最準確、最全面的信息,高效應對即時問答,並且讓大模型擁有長期記憶,避免聊天時的斷片。如此一來,向量資料庫與大模型是最 佳搭檔的說法,就比較容易理解了。

專業向量資料庫VS傳統資料庫向量外掛程式

事實上,把向量資料庫當作大模型背後的主要賽道,領先企業已經走在創新旅程中了。初步統計,致力於向量資料庫的廠商已經有50多家。而從具體的技術路線來看,主要分兩大類:一類是專業的向量原生資料庫,從誕生開始就為向量設計,可以做向量資料結構的儲存、解鎖、查詢;另一類是傳統資料庫上加了一個向量插件,使其能夠支援向量的檢索。

比較分析,兩種方式各有應用場景,例如:企業剛開始時候,資料量不大,不想引進新資料庫,那就可以選擇傳統資料庫 向量外掛的方式。但如果企業資料量較大,想建立更聰明的大模型,對效能和未來發展有更高要求,那麼就選擇像騰訊雲這樣專業的向量資料庫產品,顯然會更適合。

在向量資料庫的應用角度來看,還存在著更多的潛力。目前,許多企業正在使用向量資料庫來解決大型模型的虛幻感以及知識增強等方面的弱點。然而,未來的發展不僅限於這些能力,還可以在影像查詢方面有更出色的表現。例如,可以對手機中的照片進行查詢,類似於圖像搜尋引擎,這實際上也是一種向量查詢

專業向量資料庫並不能取代傳統資料庫,尤其是在大型場景下。傳統關係型資料庫和向量資料庫可以相互協同發展、相互補充。向量資料庫透過向量化資料來滿足傳統關係型資料庫難以處理的大規模資料、低時延高並發檢索、模糊匹配等領域的需求。向量資料庫只支援新的資料類型,並不儲存原始數據,而傳統資料庫支援數值、字串、時間等傳統資料類型。傳統資料庫支援的數據規模相對較小,最多只能支撐1億個數據,而向量資料庫可以支撐大規模的數據,底線是千億個數據。傳統資料庫的查詢方式為精確查找,要麼符合條件,要麼不符合;而向量資料庫則是近似查找,查詢結構和輸入條件要盡量相似,對運算能力要求也更高。上層應用程式可以使用統一的API方式,更適合大規模人工智慧應用程式的部署和使用

智能進化

大模型並不是從零開始,向量資料庫也不是。那麼,向量資料庫到底是怎麼發展起來的呢?騰訊雲端資料庫團隊曾經有過深刻的思考!

騰訊雲資料庫副總經理羅雲認為,大模型的本質不應該是一個無限大的存儲體,而是一個帶有智算能力的平台,將之前只有程式語言才能觸達的底層運算能力,用自然語言去調度,這應該是一個令人興奮的奇點。興奮之餘再次冷靜思考,人類在完成數位化改造過程中,除了運算平台,還有其他的可能性嗎?到底什麼才是AGI時代的技術核心?總結發現,底層資料的智慧化流通才是撬動資料中樞的金鑰匙!

如今,當企業有了通用的智慧運算能力後,底層的資料可以快速流動起來,我們可以把檔案存在檔案系統,我們可以呼叫關聯式資料庫裡面的表格資料、非關係型裡面的KV數據,所有資料都可以透過智慧化的方式流通和連動。但要讓資料和人類對話,光有運算平台還不夠,還要有一個智慧資料平台,可以用自然語言把資料取出來,然後交給大模型去計算,而要達成這樣的目的,向量資料庫就成為一個重要的樞紐。

既然向量資料庫如此重要,我們該如何透過智慧化升級,在傳統資料庫經驗基礎上與資料平台對話呢?這正是騰訊雲資料庫的專長!在騰訊雲向量資料庫技術高峰會上,騰訊雲宣布與第三方機構合作完成了一項測試,證明騰訊雲向量資料庫可以支援千億級規模的數據,並且顯著提高了每秒查詢率,達到了500萬的峰值能力

目前,騰訊雲向量資料庫已經有大量用戶,包括百川智慧、好未來、銷售易等公司。最近,他們和百川一起做了個 AGI 啟航計劃,贈送向量資料庫實例及 Baichuan2 大模型 400 萬的 Tokens。

透過Embedding、向量索引、分散式系統架構、硬體加速等核心技術,騰訊雲向量資料庫可以有效解決文字、圖像、視頻,包括生物製藥、風控、音頻、多模態等廣闊場景的特定問題。例如:利用Embedding技術將高維度的資料(例如文字、 圖片、 音訊)映射到低維度空間,即把圖片、聲音和文字轉換為向量來表示,將這些向量儲存起來就構成向量資料庫,而實現Embedding過程的方法包括神經網路、 LSH(局部敏感雜湊演算法)等。

騰訊從2019年開始致力於提升向量資料庫的能力,引領企業業務邁向AGI時代。至今,騰訊雲端已為40多家內部客戶提供服務,每天支援的向量資料檢索次數超過了1,600億次。同時,騰訊雲也為1,000家外部客戶提供服務,成長速度可謂驚人

放眼未來,AGI正在加速演化,這中間有驚喜,也有挑戰。騰訊雲端資料庫將一如既往,不斷探索,引領創新。 「Road to AGI,Together on the Path」—這句話完美地概括了騰訊雲端技術團隊的當前狀態!

以上是千億級超大規模向量資料庫正加速AI進化的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

最佳AI藝術生成器(免費付款)創意項目 最佳AI藝術生成器(免費付款)創意項目 Apr 02, 2025 pm 06:10 PM

本文回顧了AI最高的藝術生成器,討論了他們的功能,對創意項目的適用性和價值。它重點介紹了Midjourney是專業人士的最佳價值,並建議使用Dall-E 2進行高質量的可定製藝術。

開始使用Meta Llama 3.2 -Analytics Vidhya 開始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

最佳AI聊天機器人比較(Chatgpt,Gemini,Claude&更多) 最佳AI聊天機器人比較(Chatgpt,Gemini,Claude&更多) Apr 02, 2025 pm 06:09 PM

本文比較了諸如Chatgpt,Gemini和Claude之類的頂級AI聊天機器人,重點介紹了其獨特功能,自定義選項以及自然語言處理和可靠性的性能。

頂級AI寫作助理來增強您的內容創建 頂級AI寫作助理來增強您的內容創建 Apr 02, 2025 pm 06:11 PM

文章討論了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的寫作助手,重點介紹了其獨特的內容創建功能。它認為Jasper在SEO優化方面表現出色,而AI工具有助於保持音調的組成

向員工出售AI策略:Shopify首席執行官的宣言 向員工出售AI策略:Shopify首席執行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

AV字節:Meta' llama 3.2,Google的雙子座1.5等 AV字節:Meta' llama 3.2,Google的雙子座1.5等 Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

構建AI代理的前7個代理抹布系統 構建AI代理的前7個代理抹布系統 Mar 31, 2025 pm 04:25 PM

2024年見證了從簡單地使用LLM進行內容生成的轉變,轉變為了解其內部工作。 這種探索導致了AI代理的發現 - 自主系統處理任務和最少人工干預的決策。 Buildin

選擇最佳的AI語音生成器:評論的頂級選項 選擇最佳的AI語音生成器:評論的頂級選項 Apr 02, 2025 pm 06:12 PM

本文評論了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高級AI語音生成器,重點介紹其功能,語音質量和滿足不同需求的適用性。

See all articles