醫療保健產業是資料最豐富的產業之一,但由於嚴格的隱私和安全法律,資料科學家無法利用這些資料做太多事情。但現在,由於雲端運算中強大的安全設定和隱私保護分析技術的使用,Providence健康公司開始解開資料科學家的“手銬”,並在大醫療資料上展開創新。
Providence健康與服務公司擁有52家醫院、1000多家診所和約12萬名員工,是美國最大的醫療保健集團之一。與大多數醫療保健公司一樣,Providence健康公司採取措施維護病患資料的完整性。畢竟,沒有人想要違反HIPAA(Health Insurance Portability and Accountability Act 健康保險攜帶和責任法案/醫療電子交換法案),每違反一次就要罰款5萬美元。
在這家總部位於華盛頓倫頓(Renton)的公司著手更新其資料分析架構時,安全性問題是他們最關心的問題,首先是將老舊的SQL Server資料倉儲到微軟Azure雲上。 Providence的數據科學總監林賽·米科表示,該公司在2019年底與Databricks和其他公司合作建立新的數據環境時,採取了額外的預防措施,以確保對數據保持嚴格的控制。
「Providence為安全雲設定了一個獨特的高標準,」米科說。 「與我合作的每家科技公司....認為這就是安全雲的樣子。然後他們開始與我們合作,他們很快就會對標準的設定產生疑慮。我們與微軟和Databricks攜手合作,打造新的部署架構,我們需要一些與公共互聯網隔絕的東西能夠妥善保護患者資料。」
Snowflake也參與了Providence新的基於雲端的資料架構。最初的專案是將老化的SQL Server倉庫遷移到Snowflake資料倉儲中,後者將為分析業務和臨床資料提供更可伸縮的系統。 Providence足夠大,可以容納多個資料倉儲中的用戶,因此Databricks和Snowflake環境是獨立存在的。
成本控制是Providence新雲端倉庫的一個重要目標,該雲端倉庫用於傳統分析以及建置和運行機器學習模型。作為一家非營利天主教醫院,Providence的使命是幫助窮人和有需要的人,它有責任提供負擔得起的醫療服務,而分析可以在這方面提供幫助。
「我們還知道,醫療保健存在成本泡沫。病人的費用一直在上漲。醫療保健系統的利潤極其微薄。這是雙輸,」他說。 「因此,找到利用數據和分析控製成本的方法——這是整個醫療保健體系的存在價值。」
一些最初的用例涉及到使用機器學習模型來預測患者需求,包括像發病率和住院時間等。這些預測被輸入到一個人員配置模型中,該模型告訴Providence,在接下來的兩個月裡,服務人員需求可能會是什麼樣子。
雲端的無限彈性是公司之前使用的重大升級。雖然資料倉儲在COVID-19大流行之前就開始了,但米科和他的團隊在大流行期間完成了大部分工作。這家醫療保健公司利用了Epic Systems公司的電子病歷(EMR)軟體自帶的幾個開箱即用的機器學習模型,這些模型運作良好。身為Epic最大的用戶,機器學習模式的成功對Epic的研發團隊來說是個好兆頭。
同時它加速了下一代系統的部署,包括遠距醫療。 「我們已經準備好了。我們有一個非常強大的基礎設施來處理遠距醫療。能夠向遠距醫療轉移大量的數據。它還推動了預測分析的發展。圍繞死亡風險、ICU住院時間和大流行早期的一些其他模型部署了一些模型。這些都是內建在Epic中的應用。這只是漫長旅程的第一步。人工智慧在改善臨床護理方面有更多的機會。」米科說。
例如,該公司正在對源自Epic的健康等級7 (HL7)醫療文件進行即時分析。使用Spark Streaming處理這些數據,然後將其實時載入到Databricks倉庫的表單中。
他說:「這項工作一開始是為了建立我們所說的任務控制中心,它可以即時查看醫院的情況。」
任務控制中心的早期用例之一是獲得單一醫院資源的可見性,以確定它是否能夠處理傳入的病人。這是有助於防止醫院人滿為患的有用工具,在COVID-19疫情高峰期,醫院人滿為患是一個非常現實的威脅。
利用分析和人工智慧改善業務和臨床運營,他說:「這是一個很好的起點,一旦你對醫療保健系統正在發生的事情有了即時的了解——誰在那裡,你需要什麼,並與他們的圖表聯繫起來——你就可以開始預測接下來會發生什麼。你可以開始優化關於臨床護理或手術的決策。所以我對任務控制非常感興趣。」
該公司正在考慮利用一些更強大的人工智慧技術,包括深度學習,以進一步優化其營運和改善醫療服務。具體來說,它正在與John Snow實驗室及其Spark NLP模型合作,以便能夠從醫生的病歷中提取有意義的數據。
在處理這種程度的敏感資料時,安全性和隱私性是最重要的,因此Spark NLP的首要任務是去識別關於病人的醫生記錄。這家醫療保健公司正在使用來自John Snow實驗室的經過預先訓練的模型,該模型可以識別日期、姓名、地址和郵政編碼等識別碼。
Providence旗下的技術和服務公司Tegria的高級資料科學家納達·泰亞布(Nadaa Taiyab)說,「它的工作效果令人驚訝地好。」
在標記標識符之後,Providence以虛擬數據取代數據,從而消除了私人健康資訊(PHI)的風險。這個過程使Providence能夠使用聚合的醫療資料進行進階分析和訓練機器學習模型。
Taiyab說,雖然混淆步驟降低了PHI落入錯誤之手的風險,但有時需要真實的患者數據,特別是在使用機器學習模型時。 「如果你把它聚合起來,就不能把它用於機器學習,如果你試圖在病人的層面上預測一些東西。」「如果你想在群體層面預測它,這是一回事。但你需要有患者層級的數據」來進行患者層級的預測。
Providence也可以透過系統生物學研究所(ISB),將其病患資料用於進一步的醫學研究。 ISB是一家位於華盛頓州西雅圖的醫學分析公司,由人類基因組計畫的研究人員之一Leroy Hood博士創建。 Providence所做的資料安全工作使其能夠與2016年收購的ISB共享資料。
米科表示,ISB挖掘Providence的大型醫療資料倉儲的能力對ISB對健康狀況的研究非常重要,例如長期COVID-19。 「這只是一個例子,說明當你能夠在安全的雲端環境中部署和整合資料時意味著什麼。」他說。
隨著Providence探索使用進階分析和人工智慧的其他方法來改善其醫療保健使命,對建構安全雲端資料架構的投資有望獲得回報。
「Providence已經為醫療保健的安全雲設計了一幅藍圖,」米科說。 「這需要大量的反覆練習,大量的學習,與我們的合作夥伴進行大量的合作。在每一步都在改進它。當我們學習新東西時,部署模型會發生變化。但我們認為有一個非常可靠的藍圖。」取得數據仍然是這方面取得進展的主要障礙之一。 Providence為降低安全和隱私風險所做的工作是良好的第一步,但還有更多的工作要做。
以上是如何克服安全障礙去解鎖醫療數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!