負責任的機器學習--「玻璃盒」方法
譯者 | 崔皓
審校 | 孫淑娟
#開篇
機器學習並不是一項深奧的技術。正如在複雜的深度神經網路中多參數和超參數的方法只是認知計算的一種表現形式,看起來也沒有那麼深奧。
還有其他一些機器學習的種類(有些涉及深度神經網路),這類機器學習的模型結果、模型的確定以及影響模型的複雜性都表現得非常透明。
所有這些都取決於組織對其資料來源的理解程度。
換句話說,需要了解從模型訓練資料到生產資料模型過程中的一切。這也是解釋、改進和改進其結果不可或缺的部分。透過這種方式讓組織大幅提升模型的商業價值。
更重要的是,也進一步提高了這項技術的公平性、問責性和透明度,對於整個社會而言也更加可靠、更加完善。
Databricks行銷副總裁Joel Minnick承認:「這就是為什麼您需要對資料的上游和下游進行細粒度的了解,以便能夠負責任地進行機器學習。」
為數據沿襲編制目錄
針對模型的資料訓練與資料產生會涉及資料來源、資料轉換、資料整合等多項技術。在成熟的資料目錄方案中,可以實現資料的即時捕獲,因此可以隨時監控進度從而了解模型的執行進度。 「它能讓我清楚了解在模型中使用數據的上下文情況。同時,你還可以知道,這些數據是從哪裡來的?我們從中獲得了哪些其他數據?它是什麼時候產生的?這樣我就可以更好地理解我應該如何使用這些數據”,數據科學家Minnick 如是說。
「資料沿襲」(記錄資料來源、移動、處理過程)由元資料組成,而資料目錄則用來儲存有關資料集。目錄還使用戶能夠將標籤和其他描述符作為附加元數據,其可以幫助追溯數據來源和建立數據信任。正如 Minnick 所描述的“資料沿襲”可以產生“API 驅動的服務”,透過這些服務連接一系列平台(包括資料科學家平台、資料工程師平台和終端用戶平台)。
資料治理:為資料科學而生
資料訓練和資料操作的可追溯性提升會影響到機器學習模型結果,而模型結果又和資料科學領域中的資料治理息息相關。因此,資料治理和創建、部署模型的資料科學平台存在著千絲萬縷的聯繫。 「技能管理表格和文件,又能管理筆記本,同時還可以管理儀錶板。這是管理生產和消費數據的現代方式。」Minnick 評論道。 對於在筆記本中建立模型的資料科學家和透過儀表板監控輸出結果的資料科學家來說,對上述說法深以為然。
清晰且透明
儘管如此,簡單地透過 API 連接資料科學工具平台,從而獲取「資料沿襲」只是透明利用機器學習的一個面向。為了達到改進模型的輸出目的,還需要透過資料沿襲中確定的內容來對輸出模型進行校準。例如,如何讓可追溯性模型數據使數據科學家「能夠理解一旦一些數據出現問題,就可以分離出這部分數據,」Minnick 指出。
從邏輯上講,可以利用這些知識來了解為什麼特定資料類型存在問題,從而修正它們或透過完全刪除它們來提高模型的準確性。根據Minnick 的說法,越來越多的組織正意識到將「資料沿襲」應用到模型結果的好處,「部分原因是機器學習和人工智慧在當今各個行業的興起。它變得越來越普遍。去年,當我們發布AutoML 產品時,就是使用了「玻璃盒」來代表對資料來源的透明。」
法規後果以及其他
一些組織也利用「資料沿襲」提供的自適應認知運算模型的能力,來增強其法規遵循能力。金融、醫療保健等行業受到高度監管,要求公司清楚說明他們是如何為客戶做出決策的。數據追溯為建立機器學習模型和理解模型結果創建了一張路線圖——這對監管機構的合規性非常寶貴。
這些資訊也有助於內部審計,使公司能夠了解他們在哪些監管領域失職,以便可以糾正問題以防止違規。 「能夠向監管機構展示非常精細的數據沿襲訊息,不僅是跨表格,而且可以在廣泛的組織的任何地方使用這些數據,這非常重要,」Minnick 斷言。當這項優勢與資料來源提高模型準確性的想法不謀而合,這種方法很可能將成為部署該技術的最佳實踐。
譯者介紹
崔皓,51CTO社群編輯,資深架構師,擁有18年的軟體開發與架構經驗,10年分散式架構經驗。曾任惠普技術專家。樂於分享,寫了許多熱門科技文章,閱讀量超過60萬。 《分散式架構原理與實務》作者。
原文標題:#A “Glass Box” Approach to Responsible Machine Learning#,作者:Jelani Harper
以上是負責任的機器學習--「玻璃盒」方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

譯者|李睿審校|重樓人工智慧(AI)和機器學習(ML)模型如今變得越來越複雜,這些模型產生的產出是黑盒子-無法向利害關係人解釋。可解釋性人工智慧(XAI)致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題,確保他們理解這些模型實際上是如何做出決策的,並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧(XAI)技術,以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度:為了讓人工智慧系統被廣泛接受和信任,使用者需要了解決策是如何做出的

上週,在內部的離職潮和外部的口誅筆伐之下,OpenAI可謂是內憂外患:-侵權寡姐引發全球熱議-員工簽署“霸王條款”被接連曝出-網友細數奧特曼“七宗罪」闢謠:根據Vox獲取的洩漏資訊和文件,OpenAI的高級領導層,包括Altman在內,非常了解這些股權回收條款,並且簽署了它們。除此之外,還有一個嚴峻而迫切的問題擺在OpenAI面前——AI安全。最近,五名與安全相關的員工離職,其中包括兩名最著名的員工,「超級對齊」團隊的解散讓OpenAI的安全問題再次被置於聚光燈下。 《財星》雜誌報道稱,OpenA

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的
