如何克服安全障礙去解鎖醫療數據
醫療保健產業是資料最豐富的產業之一,但由於嚴格的隱私和安全法律,資料科學家無法利用這些資料做太多事情。但現在,由於雲端運算中強大的安全設定和隱私保護分析技術的使用,Providence健康公司開始解開資料科學家的“手銬”,並在大醫療資料上展開創新。
Providence健康與服務公司擁有52家醫院、1000多家診所和約12萬名員工,是美國最大的醫療保健集團之一。與大多數醫療保健公司一樣,Providence健康公司採取措施維護病患資料的完整性。畢竟,沒有人想要違反HIPAA(Health Insurance Portability and Accountability Act 健康保險攜帶和責任法案/醫療電子交換法案),每違反一次就要罰款5萬美元。
在這家總部位於華盛頓倫頓(Renton)的公司著手更新其資料分析架構時,安全性問題是他們最關心的問題,首先是將老舊的SQL Server資料倉儲到微軟Azure雲上。 Providence的數據科學總監林賽·米科表示,該公司在2019年底與Databricks和其他公司合作建立新的數據環境時,採取了額外的預防措施,以確保對數據保持嚴格的控制。
「Providence為安全雲設定了一個獨特的高標準,」米科說。 「與我合作的每家科技公司....認為這就是安全雲的樣子。然後他們開始與我們合作,他們很快就會對標準的設定產生疑慮。我們與微軟和Databricks攜手合作,打造新的部署架構,我們需要一些與公共互聯網隔絕的東西能夠妥善保護患者資料。」
Snowflake也參與了Providence新的基於雲端的資料架構。最初的專案是將老化的SQL Server倉庫遷移到Snowflake資料倉儲中,後者將為分析業務和臨床資料提供更可伸縮的系統。 Providence足夠大,可以容納多個資料倉儲中的用戶,因此Databricks和Snowflake環境是獨立存在的。
成本控制是Providence新雲端倉庫的一個重要目標,該雲端倉庫用於傳統分析以及建置和運行機器學習模型。作為一家非營利天主教醫院,Providence的使命是幫助窮人和有需要的人,它有責任提供負擔得起的醫療服務,而分析可以在這方面提供幫助。
「我們還知道,醫療保健存在成本泡沫。病人的費用一直在上漲。醫療保健系統的利潤極其微薄。這是雙輸,」他說。 「因此,找到利用數據和分析控製成本的方法——這是整個醫療保健體系的存在價值。」
一些最初的用例涉及到使用機器學習模型來預測患者需求,包括像發病率和住院時間等。這些預測被輸入到一個人員配置模型中,該模型告訴Providence,在接下來的兩個月裡,服務人員需求可能會是什麼樣子。
雲端的無限彈性是公司之前使用的重大升級。雖然資料倉儲在COVID-19大流行之前就開始了,但米科和他的團隊在大流行期間完成了大部分工作。這家醫療保健公司利用了Epic Systems公司的電子病歷(EMR)軟體自帶的幾個開箱即用的機器學習模型,這些模型運作良好。身為Epic最大的用戶,機器學習模式的成功對Epic的研發團隊來說是個好兆頭。
同時它加速了下一代系統的部署,包括遠距醫療。 「我們已經準備好了。我們有一個非常強大的基礎設施來處理遠距醫療。能夠向遠距醫療轉移大量的數據。它還推動了預測分析的發展。圍繞死亡風險、ICU住院時間和大流行早期的一些其他模型部署了一些模型。這些都是內建在Epic中的應用。這只是漫長旅程的第一步。人工智慧在改善臨床護理方面有更多的機會。」米科說。
例如,該公司正在對源自Epic的健康等級7 (HL7)醫療文件進行即時分析。使用Spark Streaming處理這些數據,然後將其實時載入到Databricks倉庫的表單中。
他說:「這項工作一開始是為了建立我們所說的任務控制中心,它可以即時查看醫院的情況。」
任務控制中心的早期用例之一是獲得單一醫院資源的可見性,以確定它是否能夠處理傳入的病人。這是有助於防止醫院人滿為患的有用工具,在COVID-19疫情高峰期,醫院人滿為患是一個非常現實的威脅。
利用分析和人工智慧改善業務和臨床運營,他說:「這是一個很好的起點,一旦你對醫療保健系統正在發生的事情有了即時的了解——誰在那裡,你需要什麼,並與他們的圖表聯繫起來——你就可以開始預測接下來會發生什麼。你可以開始優化關於臨床護理或手術的決策。所以我對任務控制非常感興趣。」
該公司正在考慮利用一些更強大的人工智慧技術,包括深度學習,以進一步優化其營運和改善醫療服務。具體來說,它正在與John Snow實驗室及其Spark NLP模型合作,以便能夠從醫生的病歷中提取有意義的數據。
在處理這種程度的敏感資料時,安全性和隱私性是最重要的,因此Spark NLP的首要任務是去識別關於病人的醫生記錄。這家醫療保健公司正在使用來自John Snow實驗室的經過預先訓練的模型,該模型可以識別日期、姓名、地址和郵政編碼等識別碼。
Providence旗下的技術和服務公司Tegria的高級資料科學家納達·泰亞布(Nadaa Taiyab)說,「它的工作效果令人驚訝地好。」
在標記標識符之後,Providence以虛擬數據取代數據,從而消除了私人健康資訊(PHI)的風險。這個過程使Providence能夠使用聚合的醫療資料進行進階分析和訓練機器學習模型。
Taiyab說,雖然混淆步驟降低了PHI落入錯誤之手的風險,但有時需要真實的患者數據,特別是在使用機器學習模型時。 「如果你把它聚合起來,就不能把它用於機器學習,如果你試圖在病人的層面上預測一些東西。」「如果你想在群體層面預測它,這是一回事。但你需要有患者層級的數據」來進行患者層級的預測。
Providence也可以透過系統生物學研究所(ISB),將其病患資料用於進一步的醫學研究。 ISB是一家位於華盛頓州西雅圖的醫學分析公司,由人類基因組計畫的研究人員之一Leroy Hood博士創建。 Providence所做的資料安全工作使其能夠與2016年收購的ISB共享資料。
米科表示,ISB挖掘Providence的大型醫療資料倉儲的能力對ISB對健康狀況的研究非常重要,例如長期COVID-19。 「這只是一個例子,說明當你能夠在安全的雲端環境中部署和整合資料時意味著什麼。」他說。
隨著Providence探索使用進階分析和人工智慧的其他方法來改善其醫療保健使命,對建構安全雲端資料架構的投資有望獲得回報。
「Providence已經為醫療保健的安全雲設計了一幅藍圖,」米科說。 「這需要大量的反覆練習,大量的學習,與我們的合作夥伴進行大量的合作。在每一步都在改進它。當我們學習新東西時,部署模型會發生變化。但我們認為有一個非常可靠的藍圖。」取得數據仍然是這方面取得進展的主要障礙之一。 Providence為降低安全和隱私風險所做的工作是良好的第一步,但還有更多的工作要做。
以上是如何克服安全障礙去解鎖醫療數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

編輯|KX在藥物研發領域,準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而,目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此,來自廈門大學的研究人員提出了一種新穎的多模態特徵提取(MFE)框架,該框架首次結合了蛋白質表面、3D結構和序列的信息,並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明,該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外,消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

本站7月5日消息,格芯(GlobalFoundries)於今年7月1日發布新聞稿,宣布收購泰戈爾科技(TagoreTechnology)的功率氮化鎵(GaN)技術及智慧財產權組合,希望在汽車、物聯網和人工智慧資料中心應用領域探索更高的效率和更好的效能。隨著生成式人工智慧(GenerativeAI)等技術在數位世界的不斷發展,氮化鎵(GaN)已成為永續高效電源管理(尤其是在資料中心)的關鍵解決方案。本站引述官方公告內容,在本次收購過程中,泰戈爾科技公司工程師團隊將加入格芯,進一步開發氮化鎵技術。 G
