實施穩健的AI治理以實現數據民主化
GenAI的出現加快了人們釋放資料潛力的步伐,為獲取新見解和更好決策提供了機會。然而,要實現更廣泛的數據訪問,需要一種完善的數據治理策略。那些能夠在數據民主化和嚴格數據治理之間取得平衡的企業,將透過釋放獨特的數據驅動洞察力而在市場上脫穎而出。
根據Gartner的數據,到2026年,超過80%的企業將使用GenAI API和模型,或在生產中部署啟用GenAI的應用程序,而去年這一比例不到5%。 GenAI的自然語言介面允許非技術用戶,從部門負責人到第一線工作人員,更輕鬆地存取和使用資料。這在獲取資訊和技能方面創造了公平的競爭環境,Gartner稱這是「本十年最具顛覆性的趨勢之一」。
如果公司要避免隱私、安全和資料品質方面的風險增加,以這種方式實現資料民主化就會使強有力的治理變得更加關鍵,這意味著準確地知道你擁有什麼數據、駐留在哪裡、誰有權存取這些數據以及每種類型的用戶被允許如何使用這些數據,但一個企業如何在不壓制創新的情況下實施全面控制?
在更高層級上,推崇的方法是將資料整合到一個綜合的儲存庫中,讓不同團隊和工作小組可以方便、安全地分享這個儲存庫。透過統一數據,企業能夠實現集中管理,並擴大對數據的存取範圍,同時最大程度地減少複雜性並優化成本。這種集中儲存資料的方法有助於確保資料的一致性和準確性,避免資料重複和不一致性所帶來的問題。此外,這也有助於提高資料的安全性和保護隱私,因為可以更容易實施存取控制和監控措施。因此,建立一個統一的資料儲存庫對企業來說是非常重要的,
在實際操作中,這可能會帶來一些挑戰,因為資料主權法規要求某些資料必須儲存在特定的國家或地區。面對這種情況,企業需要努力消除資料孤島,並在其資料平台上實施一致的治理架構。
此外,一些特定的方法和技術有助於確保企業能夠維持有效的治理,同時在GenAI擴大資料存取的同時保持安全。這些方法包括基本的治理實踐,適用於各種環境,但隨著GenAI推動資料存取進一步民主化,這些實踐變得特別關鍵。
針對隱私和法規遵循的精細控制
隨著員工對資料的存取量增加,資料外洩和個人識別資訊(PII)被未授權使用者存取的風險也在增加。因此,實施嚴格的存取控制策略以及使用匿名化和身分識別技術對於確保合規性和防止資料被不當存取至關重要。
在我們分析雪花資料雲趨勢的新《資料趨勢2024》報告中,我們注意到治理功能的使用顯著增加,這些功能在提供對資料的精細控制的同時,也適當地將其提供給更多的用戶,用於更多的用例,例如,在截至2024年1月31日的12個月中,應用的掩碼或行訪問策略的使用量與去年同期相比增加了98% ,同時,分配了遮罩策略的列數成長了97%。
然而,值得注意的是,針對受策略保護的物件執行的查詢總數上升了142%,這個數字意義重大,因為它表明良好的資料治理不是說「不」和限制資料使用。儘管看到越來越多的治理透過使用標籤和屏蔽政策,但報告指出,使用這些數據所做的工作量正在迅速上升。
在某些情況下,員工可能希望檢查他們不能被授予直接存取權限的資料集,在這種情況下,差異隱私是一項強大的技術,因為它允許使用者透過查看資料集內的模式來共享和探索資料集,而不會洩露任何個人用戶的PII。更進一步,數據淨化室允許多方在不向彼此披露原始數據的情況下就數據進行協作,數據淨化室通常用於在不同企業之間共享數據,但我們正在看到內部使用的技術來滿足日益增長的監管和隱私需求,它可以成為在GenAI介面環境中探索PII資料的有效技術。
一致、協調的安全性
安全應該建構在資料平台的結構中,而不是試圖稍後為個別資料集和使用者固定它,支援對話介面的技術不應該複製資料上的身份和其他核心權限,這將導致脆弱的設定。如果兩個或多個系統都在追蹤誰可以存取哪些數據,則出錯和未經授權存取的可能性會大大增加。
在保護GenAI用例的資料方面發揮關鍵作用的技術包括持續的風險監控和保護、基於角色的存取控制(RBAC)和細粒度授權策略。基於角色的標記和基於標記的遮罩策略允許你透過將遮罩策略指派給標記,然後在一個或多個資料庫物件上設定該標記,從而在列層級保護資料。
資料孤島是良好治理的敵人
將資料的副本或片段儲存在不同的系統中,使得追蹤誰可以存取哪些資訊以及保持存取和控制策略的一致性變得極其困難,這就是為什麼資料孤島是強大治理的敵人。
資料孤島也使得很難確保員工查詢的是最新、最準確的數據,這可能會導致代價高昂的錯誤。為了透過GenAI實現對資料的廣泛訪問,企業需要一個單一的真實來源,以確保所有員工都在查看相同的信息,並且可以在所有資料中全面應用和更新控制和策略。
確保資料品質以獲得準確的結果
即使你消除了孤島並擁有適當的權限,也不能保證員工存取的資訊是正確的,資料品質架構是基於應用於表中特定列或一組列的可配置資料品質規則,可以幫助檢測品質問題並確保準確的資訊。
此外,到目前為止,我們都知道,GenAI有時會產生幻覺,並產生實際上沒有根據的答案,這對於企業使用來說是不可接受的。企業可以透過將大型語言模型(LLM)與他們知道值得信任的資料來源結合來解決這個問題,例如內部客戶資料庫或來自可信任第三方提供者的經過審查的資料集。
這些受信任的資料來源可以使用需要LLM自訂(如微調)或不需要LLM自訂(如即時工程或檢索增強生成(RAG))的製程合併。無論是哪種情況,這些技術都有助於確保員工收到準確、高品質的結果,同時遵守內部雲端環境中內建的治理標準。
資料存取和通用搜尋的威力
GenAI治理的一個重要面向是讓員工很容易找到合適的資料集和資料產品來幫助他們進行分析,人工智慧如此強大的一個原因是,它允許員工在不通過中央團隊的情況下與數據交互,但這需要這些員工知道他們可以獲得什麼數據,以及如何找到這些數據。
搜尋功能提供了這一功能,允許用戶查找和查詢資料集和資料產品,這項搜尋功能本身可以由LLM提供支持,使資料搜尋更加直觀-這是我們在Snowflake開發的,作為我們通用搜尋的一部分。
治理是資料民主化的基礎
#商業使用者渴望更廣泛地利用他們組織的數據,而GenAI最終使這成為可能。多虧了LLMS和自然語言處理,財務、人力資源、銷售和營運等領域的員工現在可以針對自己的角色制定問題,並獲得他們做出更明智決策所需的答案。
但要滿足企業的安全和法規遵循需求,這只能在具有強大治理的環境中發生,治理越強,你的員工就越能自由地瀏覽數據,而不會給公司帶來額外的風險,GenAI為真正的數據民主化打開了大門,而良好的治理是使其成為可能的基礎。
以上是實施穩健的AI治理以實現數據民主化的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。
