什麼是大數據脫敏?
大數據脫敏,又稱為資料漂白、資料去隱私化或資料變形,是指對某些敏感資訊透過脫敏規則進行資料的變形,實現敏感隱私資料的可靠保護,從而在開發、測試和其它非生產環境以及外包環境中安全地使用脫敏後的真實數據集。
隱私資料脫敏技術
通常在大資料平台中,資料以結構化的格式存儲,每個表有諸多行組成,每行資料有諸多列組成。根據列的資料屬性,資料列通常可以分為以下幾種類型:
可確切定位某個人的列,稱為可識別列,如身分證號,位址以及姓名等。
單列並不能定位個人,但是多列資訊可用於潛在的識別某個人,這些列被稱為半識別列,如郵編號,生日及性別等。美國的研究論文稱,僅使用郵編號,生日和性別資訊即可識別87%的美國人。
包含使用者敏感資訊的列,如交易金額,疾病以及收入等。
其他不包含使用者敏感資訊的欄位。
隱私資料外洩類型
隱私資料外洩可以分為多種類型,根據不同的類型,通常可以採用不同的隱私數據洩漏風險模型來衡量防止隱私資料外洩的風險,以及對應不同的資料脫敏演算法對資料進行脫敏。一般來說,隱私資料外洩類型包括:
個人識別外洩。當資料使用人員以任何方式確認資料表中某條資料屬於某個人時,稱為個人識別外洩。個人識別洩露最為嚴重,因為一旦發生個人識別洩露,資料使用人員就可以得到特定個人的敏感資訊。
屬性洩露,當資料使用人員根據其存取的資料表了解到某個人新的屬性資訊時,稱為屬性洩露。個人識別洩露肯定會導致屬性洩露,但屬性洩露也有可能單獨發生。
成員關係外洩。當資料使用人員可以確認某個人的資料存在於資料表中時,稱為成員關係外洩。成員關係洩露相對風險較小,個人識別洩露與屬性洩露肯定意味著成員關係洩露,但成員關係洩露也有可能單獨發生。
推薦教學:《PHP》
以上是什麼是大數據脫敏?的詳細內容。更多資訊請關注PHP中文網其他相關文章!