機器學習如何為臨床試驗業務節省數百萬美元
作為一家大型臨床試驗服務提供者,WCG對許多藥物和醫療設備的市場路徑具有相當大的影響。但作為30多家前獨立的公司的集合體,很難獲得支持這些服務的一致數據。這就是Tamr的數據掌握解決方案提供幫助的地方。
作為臨床服務組織,WCG代表製藥公司和設備製造商處理臨床試驗的所有方面,從人力資源和IT到患者參與和道德審查,為默克和羅氏等製藥巨頭以及數以千計的中小型製藥新創公司和研究集團提供關鍵服務,這些公司尋求獲得監管機構對新藥和設備的批准。
該公司唯一沒有提供的服務就是進行實際試驗。 「我們不這麼做。」該公司的技術長兼數據長阿特‧莫拉萊斯(Art Morales)說。
在過去十年中,WCG透過收購35家公司,在臨床試驗產業建立了有利可圖的利基市場。每一家公司——其中一些已經有50多年的歷史——都專門處理臨床試驗過程的某些方面。這些公司開發了他們自己的客製化軟體應用程式來自動化他們的各種業務流程,提供了非常有價值的智慧財產權來源。
從每個獨立業務的角度來看,擁有不同的系統很有意義,但這對WCG構成了挑戰,WCG希望對所有子公司的營運保持一致的看法。
該公司最初試圖以人工解決資料不一致的問題。一個大約5到10人的團隊工作了兩年,根除了35家子公司使用的不同系統中存在的拼字錯誤、重複條目和其他資料錯誤。經過清理的標準化資料儲存在運行在雲端的WCG資料倉儲中,在那裡可以使用各種強大的分析引擎對資料進行分析。
「我們遇到的一個大問題是,你如何確定一個『節點』在不同的組織中是同一個『節點』?」莫拉萊斯解釋。 「在某些系統中,可能有地址,也可能沒有地址,也可能地址拼字不正確。有些資料可能只是缺失了,真的有很多不確定性。」
#由於這種不確定性和需要逐一決定,手工掌握數據的過程是乏味和耗時的。該公司花費了數百萬美元來掌握數據,但數據仍有不一致。
莫拉萊斯意識到應該有更好的辦法。他從Tamr那裡聽說了一個資料掌握工具,它使用機器學習來自動識別大型資料集中的已知實體。
基於機器學習的資料掌握
Tamr是一個資料品質工具,誕生於八年前,源自麻省理工學院著名電腦科學家Mike Stonebraker進行的學術研究。
據曾長期擔任Qlik高管、現為Tamr首席產品官的安東尼·戴頓(Anthony Deighton)稱,Stonebraker認為,機器學習對於解決長期存在的數據質量問題是必要的,這些問題在大數據規模下會加劇。
多年來,解決這個難題的規定解決方案一直是主資料管理(MDM)專案。不再依賴每個單獨的系統來確保所有的事情都是正確的,單獨的資料系統將擁有指向已知的資料副本的指標——可以稱之為「黃金唱片」。
金唱片的方法可以解決問題,至少他們是這麼認為的。然而,一旦遇到現實,再周密的計畫也有化為塵土的風險。這正是傳統MDM所發生的情況。
依靠人類來清理和管理資料是徒勞無功的。這是行不通的。
Stonebraker對這個問題的深刻見解是使用機器學習來對資料進行分類,就像谷歌在早期互聯網上使用機器學習來自動對網站進行分類一樣,這打敗了雅虎(Yahoo)手動管理網路的努力。
透過訓練機器來辨識業務系統中的實體,Tamr找到了一種自動建立黃金唱片的方法。團隊得出的一個關鍵結論是,當人們被要求用有限的一組選項來確認一致性時,要比同時使用幾十個或數百個選項做得好得多。
臨床上黃金唱片
WCG的Tamr試驗於2021年5月開始。經過一段時間的訓練,Tamr軟體觀察並學習員工如何處理資料差異。
WCG的一組員工與Tamr一起檢查和清理資料倉儲中的所有資料來源。該軟體識別了“集群”,即兩個或兩個以上的術語,它們在不同的應用程式中表示相同的東西,並作為黃金記錄加載在WCG的雲端資料倉儲中。
在將資料載入到資料倉儲之前,每個資料來源都要透過Tamr運行。資料來源的大小從大約50,000筆記錄到超過100萬筆記錄不等,每個實體可能有200列左右。問題不在於數量,而在於複雜性。除了將數據掌握流程加快約4倍之外,Tamr工具還產生了更標準化的數據,這意味著業務營運的清晰度更高。
「當你清理資料時,現在你可以使用更乾淨的資料來獲得更好的營運洞察力。」莫拉萊斯說。 「我們可以透過Salesforce和我們的應用程式進行匹配,以知道這些是正確的東西。以前,如果資料沒有被清洗乾淨,你會匹配50%。現在我們可以匹配80%。因此,使用我們正在做的事情有非常明顯的操作好處。」
Tamr不能成功地將所有實體匹配到集群中,仍然有一些邊緣情況需要人類的專業知識。在這些情況下,軟體會讓操作員知道它對配對的信心很低。但根據莫拉萊斯的說法,Tamr非常擅長找到明顯的匹配。他說,從第一天起,準確率約為95%。
「你必須接受任何資料掌握項目都會出現不匹配。會出現第一類和第二類錯誤,」他說。 「如果你能從....追蹤這些錯誤的來源就很好了。因為人類也會犯下同樣的錯誤。」
此外,Tamr還有助於WCG更好地理解其數據。
莫拉萊斯說,該公司的手動數據掌握方法總共花費了數百萬美元,而Tamr的費用不到100萬美元。數據品質的改善更難量化,但可以說是更重要的。
以上是機器學習如何為臨床試驗業務節省數百萬美元的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

本文將介紹如何透過學習曲線來有效辨識機器學習模型中的過度擬合和欠擬合。欠擬合和過擬合1、過擬合如果一個模型對資料進行了過度訓練,以至於它從中學習了噪聲,那麼這個模型就被稱為過擬合。過度擬合模型非常完美地學習了每一個例子,所以它會錯誤地分類一個看不見的/新的例子。對於一個過度擬合的模型,我們會得到一個完美/接近完美的訓練集分數和一個糟糕的驗證集/測試分數。略有修改:"過擬合的原因:用一個複雜的模型來解決一個簡單的問題,從資料中提取雜訊。因為小資料集作為訓練集可能無法代表所有資料的正確表示。"2、欠擬合如

1950年代,人工智慧(AI)誕生。當時研究人員發現機器可以執行類似人類的任務,例如思考。後來,在1960年代,美國國防部資助了人工智慧,並建立了實驗室進行進一步開發。研究人員發現人工智慧在許多領域都有用武之地,例如太空探索和極端環境中的生存。太空探索是對宇宙的研究,宇宙涵蓋了地球以外的整個宇宙空間。太空被歸類為極端環境,因為它的條件與地球不同。要在太空中生存,必須考慮許多因素,並採取預防措施。科學家和研究人員認為,探索太空並了解一切事物的現狀有助於理解宇宙的運作方式,並為潛在的環境危機

通俗來說,機器學習模型是一種數學函數,它能夠將輸入資料映射到預測輸出。更具體地說,機器學習模型是一種透過學習訓練數據,來調整模型參數,以最小化預測輸出與真實標籤之間的誤差的數學函數。在機器學習中存在多種模型,例如邏輯迴歸模型、決策樹模型、支援向量機模型等,每種模型都有其適用的資料類型和問題類型。同時,不同模型之間存在著許多共通性,或者說有一條隱藏的模型演化的路徑。將聯結主義的感知機為例,透過增加感知機的隱藏層數量,我們可以將其轉化為深度神經網路。而對感知機加入核函數的話就可以轉換為SVM。這一

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,

譯者|李睿審校|重樓人工智慧(AI)和機器學習(ML)模型如今變得越來越複雜,這些模型產生的產出是黑盒子-無法向利害關係人解釋。可解釋性人工智慧(XAI)致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題,確保他們理解這些模型實際上是如何做出決策的,並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧(XAI)技術,以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度:為了讓人工智慧系統被廣泛接受和信任,使用者需要了解決策是如何做出的
