Apache Atlas是Hadoop社群為解決Hadoop生態系統的元資料治理問題而產生的開源項目,它為Hadoop叢集提供了包括資料分類、集中策略引擎、資料血緣、安全和生命週期管理在內的元資料治理核心能力。
Apache Atlas是Apache基金會的孵化項目,是Hadoop生態圈的資料治理和元資料框架(Data Governance and Metadata framework)。 Atlas是一套核心基礎治理服務的集合,具有很好的伸縮性和可擴展性,能夠滿足企業對Hadoop生態系統的多樣性需求,並能和企業的數據生態系統整合。
Apache Atlas的架構如下圖所示:
#核心特性
Apache Atlas為Hadoop的元資料治理提供了以下特性:
1、資料分類
● 為元資料匯入或定義業務導向的分類註釋
● 定義,註釋,以及自動擷取數據集與底層元素之間的關係
● 導出元資料到第三方系統
#2、集中審計
● 擷取與所有應用,流程以及與資料互動的安全存取資訊
● 擷取執行,步驟,活動等操作的資訊
3、搜尋與血緣
● 預先定義的導航路徑用來探索資料分類以及審計資訊
● 基於文本的搜尋特性來快速和準確的定位相關聯的資料和審計事件
● 對資料集血緣關係的可視化瀏覽使用戶可以下鑽到操作,安全以及與資料起源相關的資訊
4、安全性與策略引擎
● 基於資料分類模式,屬性以及角色的運行時合理合規策略
● 基於分類-預測的高階策略定義以防止資料推導
● 基於cell的屬性和值的行/列層級的masking
以上是Apache Atlas是什麼意思的詳細內容。更多資訊請關注PHP中文網其他相關文章!