挽救失足AI，不能光靠打罵-人工智慧-PHP中文網

好多研究都發現，AI這傢伙好不害臊，竟也學會性別歧視了。

這可咋整？

最近，清華&復旦的一項研究為此給出建議：

要想把失足AI從性別歧視這條路上拽回來，一頓臭罵效果可不好。

最好的方法是了解孩子為啥這樣，然後對症下藥給他講道理。

因為要是光教訓不講道理，暴力糾正，AI會被嚇笨（表現下降）！

喔買噶，養四腳吞金獸難，養（xun）個（lian）賽博小孩也得這麼難了？

來看看這群AI“奶爸奶媽”，提出了哪些訓孩子的建議。

講道理，AI可以減少性別歧視

在這次以前，不是沒有人揪著失足AI的耳朵，想讓它改掉重男輕女的壞毛病。

但是，目前大多數的去偏方法，都會讓模型在其他任務上的表現下降。

例如你讓AI減弱了性別歧視，就會產生這樣的惱人結果：

它要么分不清“爸爸”的性別是男還是女，要么會犯語法上的錯誤，忘記給第三人稱後面跟著的動詞s。

更可氣的是，這種退化機制還沒被研究明白。

大家要不然直接棄用性別偏見明顯的模型——

2018年，亞馬遜注意到用來自動篩選簡歷的模型存在對女性求職者的歧視，就把這個系統雪藏了。

要不，就只能忍受效能下降。

難道說想讓AI不再是失足AI、問題AI，AI一定會失去了智嗎？

清華&復旦的研究對此說No。

挽救失足AI，不能光靠打罵

他們研究的領域是預訓練語言模型。

這是因為它在各種NLP任務中顯示神通，有許多實踐場景。

當有性別偏見的它被用在網路廣告、自動履歷篩選系統、教育等社會工作時，可不太妙。

研究提出了AI性別偏見起源的理論框架，因果框架，用來解釋在預訓練過程中，資料不平衡是怎麼導致模型的性別偏見的。

他們把預訓練模型在執行特定預測任務時的性別偏誤如下定義：

挽救失足AI，不能光靠打罵

其中，M是模型，Y是要用M預測的單字，B是M的性別偏見程度。

Y0|W是ground truth，作為男性相關單字或女性相關單字的機率為二分之一，Y|W是M的預測。

如果M的預測Y不平衡且分佈在性別之間，則模型M在根據w預測Y0時存在性別偏差。

在預訓練過程中，最佳化演算法會根據預訓練資料D決定嵌入部分和K中的參數。

因此，資料不平衡D誤導模型得到了不正確的參數。

例如，訓練資料中的「醫生」一詞更常與男性詞彙相關，模型就會想當然地將「醫生」和「性別男性」聯繫起來。

看到這個三角形沒，咱用它來解釋一下，為啥現在的方法糾正AI會讓它變笨。

挽救失足AI，不能光靠打罵

當應用預訓練模型，根據W預測Y時，模型先將W轉換為擷取的X，然後根據X和K來決定Y的平均值。

由於潛入部分的參數具有誤導性，W被轉換為不正確的X，而K也是不正確的。

一頓操作下來，錯誤的X和錯誤的K，一起導致Y出錯。

這些錯誤及其交互作用，透過三個潛在機制導致性別偏見。

挽救失足AI，不能光靠打罵

也就是說到了這一步，性別偏見就產生了。

而目前教育AI的去偏方法是怎麼運作的呢？

目前所有的去偏方法都介入了三種機制中的一種或兩種。

具體如下：

增強對D的資料幹預，並在所有三種機制中進行幹預。
透過消除X在K中的性別空間上的幾何投影，切斷了D→X→K→Y的路徑。
性別平等正則化方法要麼扭曲了D與X的關係，要麼扭曲了D與K的關係，因此這類方法幹預了D→X→Y和D→X→K→Y的機制。

在解釋了目前去偏方法中存在的偏見-效能困境後，團隊嘗試提出一種微調方法。

他們發現，三種機制中，有且僅有D→X→Y這種在導致性別偏見時，與transformer無關。

如果微調方法只是透過D→X→Y修正偏差，就可以在減少性別偏誤的同時，維持模型的表現。

根據分解定理，團隊進行了數值實驗。

結果證明，這種方法能夠帶來雙重紅利：

減少部分性別偏見，同時避免表現下降。

經過實驗，團隊成員把AI性別偏誤的來源定位在預訓練模型的兩個架構：字詞嵌入與轉換。

據此，研究團隊提出C4D方法，即透過調整標記嵌入來減少性別偏差。

這個方法的核心思想是透過修正被誤導的X，來縮小TDE函數，從而減少總偏差。

挽救失足AI，不能光靠打罵

雖然團隊也不知道正確的標記嵌入到底該是啥，但是他們開發了一種基於梯度的方法，來推斷潛在的ground truth。

一切就緒，團隊將C4D方法應用於GPT-2試驗去偏結果。

結果表明，在所有測試方法中，C4D方法在小、中、超大型GPT-2上的困惑度都是最低。

在大型GPT-2中，C4D的困惑度排第二，只比最高分差了0.4%。

挽救失足AI，不能光靠打罵

而且，得分最高的方法，性別歧視的去偏效果低於C4D。

在GLUE資料集上，C4D方法獲得了最高平均分數。

挽救失足AI，不能光靠打罵

這表明，C4D可以明顯地減少性別偏見，並維持模型表現。

聽了這麼多理論方面的介紹，來看個圖例直觀感受一下。

下面三張圖中，藍色的點代表潛入的男性偏見，紅點代表女性偏見。

圖(a)是AI本來的理解；圖(b)是人類無目的一通謾罵後，嚇笨了的AI的理解；圖(c)是人類找到原因，耐心講解過後AI的理解。

挽救失足AI，不能光靠打罵

在圖(b)和(c)中，男性偏見和女性偏見的嵌入更加集中，這意味著偏見的程度較低。

同時可以注意到，圖(c)中的嵌入仍然保持了圖(a)中的拓樸結構，這也是C4D方法能夠維持模型效能的原因。

研究者：或許還能減少AI的其他偏見

「儘管這個方法可以有效緩解語言模型中AI對性別的偏見，但仍不足以完全消除。」

－研究者如實指出這個問題。

若想在不降低AI效能的條件下，進一步修正AI的偏見，還需要更能理解語言模型的機制。

那怎麼才能更好地理解？

一方面，是用本研究提出的「C4D方法」再去測試AI身上的其他偏見。

本實驗的主要研究對象為：職場上的性別偏誤。

而實際上，由於AI之前不斷學習各種訊息，屬於來者不拒的那種，結果一不小心，還染上了宗教歧視、嫌黑愛白等社會固有的毛病… …

所以，不妨到GPT-2再測測去除其他偏誤的最終效果。

另一方面，可以把「C4D方法」放到多種大模型上試試。

除了本研究用到的GPT-2，例如Google開發的NLP經典預訓練模型BERT，也是一個不錯的測試場景。

不過要移植到其他模型的話，需要重新產生校正模板，並且可能要用到多變數TDE（Template Driven Extraction）函數。

透過運用TDE函數，你可以直接將內容放入索引，而不需要修改文件結構。

有網友抱著狗頭來了：

挽救失足AI，不能光靠打罵

#整體來說，走進社會變成「失足AI」不可避免。

但想要「失足AI」浪子回頭，找對方法，給它講道理，還是會有不錯效果滴～

另外，研究團隊成員之一，清華大學的於洋在個人微博上表示，過兩天還有個關於AI模型性別歧視查詢的網站會上線。

可以期待一下！

論文網址：https://arxiv.org/abs/2211.07350參考連結：https://weibo.com/1645372340/Mi4E43PUY#comment

以上是挽救失足AI，不能光靠打罵的詳細內容。更多資訊請關注PHP中文網其他相關文章！