如何透過合成資料產生器來避免人工智慧的偏見問題-人工智慧-PHP中文網

什麼是人工智慧偏見?

為什麼會發生?

合成資料如何幫助解決人工智慧偏見?

首頁

科技週邊

人工智慧

如何透過合成資料產生器來避免人工智慧的偏見問題

王林

Apr 26, 2023 pm 02:40 PM

人工智慧數據生成器

如何透過合成資料產生器來避免人工智慧的偏見問題

人工智慧偏見是一個嚴重的問題，可能對個人產生各種後果。

隨著人工智慧的發展，圍繞數據科學解決方案的問題和道德困境開始浮出水面。因為人類已經將自己排除在決策過程之外，他們希望確保這些演算法所做的判斷既不帶有偏見，也不帶有歧視性。人工智慧必須在任何時候都受到監督。我們不能說這種可能的偏見是由人工智慧引起的，因為其是一個基於預測分析的數位系統，可以處理大量數據。這個問題在更早的時候就開始了，也就是「輸入」到系統中的無監督資料。

縱觀歷史，人類一直存有偏見和歧視。我們的行動似乎不會很快改變。在系統和演算法中發現了偏見，與人類不同，這些系統和演算法似乎對這個問題免疫。

什麼是人工智慧偏見?

當獲取數據的方式導致樣本不能正確代表利益群體時，AI偏差就會在數據相關領域發生。這表明來自特定種族、信仰、膚色和性別的人，在數據樣本中沒有得到充分代表。這可能會導致系統做出鑑別性的結論。也引發了關於什麼是數據科學諮詢以及其的重要性的問題。

AI中的偏見並不意味著創建的AI系統會故意偏向特定的人群。人工智慧的目標是使個人能夠透過範例而不是指令來表達他們的願望。所以，如果AI有偏差，那隻能是因為數據有偏差!人工智慧決策是一個在現實世界中運作的理想化過程，其無法掩蓋人類的缺陷。結合引導學習也是有利的。

為什麼會發生?

人工智慧偏見問題的出現是由於數據可能包含基於先入為主的人類選擇，這有利於得出良好的演算法結論。在現實生活中，有幾個關於人工智慧偏見的例子。種族人士和著名的變裝皇后被谷歌的仇恨言論檢測系統歧視。 10年來，亞馬遜的人力資源演算法主要是提供男性員工數據，這導致女性候選人更有可能被評為符合亞馬遜的工作資格。

麻省理工學院(MIT)的資料科學家表示，人臉辨識演算法在分析少數族裔(尤其是少數族裔女性)的面孔時，出錯率更高。這可能是因為演算法在訓練過程中主要提供了白人男性的臉。

由於亞馬遜的演算法是根據其在美國的1.12億Prime用戶，以及數千萬經常光顧該網站，並經常使用其其他商品的額外個人的數據進行訓練的，因此該公司可以預測消費者的購買行為。谷歌的廣告業務是基於預測演算法的，該演算法由其每天進行的數十億次網路搜尋以及市場上25億部Android智慧型手機的數據提供。這些網路巨頭建立了龐大的資料壟斷企業，在人工智慧領域擁有近乎不可逾越的優勢。

合成資料如何幫助解決人工智慧偏見?

在一個理想的社會中，沒有人會受到偏見，每個人都將擁有平等的機會，無論膚色、性別、宗教或性取向。然而，存在於現實世界中，在某些地區與大多數人不同的人更難找到工作和獲得教育，這使他們在許多統計數據中被低估。根據人工智慧系統的目標，這可能會導致錯誤的推斷，即這類人技能較低，不太容易被納入這些資料集，以及不太適合獲得良好的分數。

另一方面，人工智慧資料可能是朝著公正的人工智慧方向邁出的一大步。以下是一些需要考慮的概念:

查看現實世界的數據，看看偏差在哪裡。然後，利用真實世界的數據和可觀察到的偏差，合成數據。如果想要創建理想的虛擬資料產生器，則需要包含一個公平定義，其可嘗試將偏差的資料轉換為可能被認為是公平的資料。

人工智慧產生的資料可能會填補資料集中變化不大或不夠大的空白，從而形成一個公正的資料集。即使樣本量很大，也有可能有些人被排除在外，或與其他人相比，代表性不足。這個問題必須使用合成數據來解決。

資料探勘可能比產生公正的資料更昂貴。實際的資料收集需要測量、訪談、大量的樣本，而且無論如何都需要付出很多努力。人工智慧產生的數據價格低廉，而且只需要使用數據科學和機器學習演算法即可。

過去幾年，許多獲利性合成資料公司以及Synthea的創辦人MitreCorp.的高層都注意到，人們對他們的服務的興趣激增。然而，隨著演算法被更廣泛地用於做出改變生活的決定，人們發現它們會加劇種族主義、性別歧視和其他高影響領域的有害偏見，包括臉部辨識、犯罪預測和醫療保健決策。研究人員表示，使用演算法產生的資料訓練演算法，會增加人工智慧系統在許多情況下延續有害偏見的可能性。

以上是如何透過合成資料產生器來避免人工智慧的偏見問題的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7807

Java教學

1646

CakePHP 教程

1402

Laravel 教程

1300

PHP教程

1236

Related knowledge

位元組跳動剪映推出 SVIP 超級會員：連續包年 499 元，提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息，剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體，依託於抖音平台且基本面向該平台用戶製作短影片內容，並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級，推出全新SVIP，包含多種AI黑科技，例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面，剪映SVIP月費79元，年費599元（本站註：折合每月49.9元），連續包月則為59元每月，連續包年為499元每年（折合每月41.6元）。此外，剪映官方也表示，為提升用戶體驗，向已訂閱了原版VIP

使用Rag和Sem-Rag提供上下文增強AI編碼助手 Jun 10, 2024 am 11:08 AM

透過將檢索增強生成和語意記憶納入AI編碼助手，提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG，作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助，但由於依賴對軟體語言和編寫軟體最常見模式的整體理解，因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題，但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議，以便將程式碼接受到應

七個很酷的GenAI & LLM技術性面試問題 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的內容，請造訪：51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫，這些問題需要跳脫常規思維。大語言模型（LLM）在數據科學、生成式人工智慧（GenAI）和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能，並在許多產業中推動了效率和創新性的提升，成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛，它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據，LLM能夠產生文本

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺 Jun 11, 2024 pm 03:57 PM

大型語言模型（LLM）是在龐大的文字資料庫上訓練的，在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中，然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時，模型實際上停止學習。對模型進行對齊或進行指令調優，讓模型學習如何充分利用這些知識，以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的，儘管模型可以透過RAG存取外部內容，但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的，模型會遇到額外的實際知識並將其整合

你所不知道的機器學習五大學派 Jun 05, 2024 pm 08:51 PM

機器學習是人工智慧的重要分支，它賦予電腦從數據中學習的能力，並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用，從影像辨識和自然語言處理到推薦系統和詐欺偵測，它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論，其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學（Symbolism），又稱符號主義，強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程，透過現有的

為大模型提供全新科學複雜問答基準與評估體系，UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答（QA）資料集在推動自然語言處理（NLP）研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型，也可以有效評估大語言模型（LLM）的能力，尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集，涵蓋了醫學、化學、生物等領域，但這些數據集仍有一些不足之處。其一，資料形式較為單一，大多數為多項選擇題（multiple-choicequestions），它們易於進行評估，但限制了模型的答案選擇範圍，無法充分測試模型的科學問題解答能力。相比之下，開放式問答

SOTA性能，廈大多模態蛋白質-配體親和力預測AI方法，首次結合分子表面訊息 Jul 17, 2024 pm 06:37 PM

編輯|KX在藥物研發領域，準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而，目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此，來自廈門大學的研究人員提出了一種新穎的多模態特徵提取（MFE）框架，該框架首次結合了蛋白質表面、3D結構和序列的信息，並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明，該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外，消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

SK 海力士 8 月 6 日將展示 AI 相關新品：12 層 HBM3E、321-high NAND 等 Aug 01, 2024 pm 09:40 PM

本站8月1日消息，SK海力士今天（8月1日）發布博文，宣布將出席8月6日至8日，在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024，展示諸多新一代產品。未來記憶體和儲存高峰會（FutureMemoryandStorage）簡介前身是主要面向NAND供應商的快閃記憶體高峰會（FlashMemorySummit），在人工智慧技術日益受到關注的背景下，今年重新命名為未來記憶體和儲存高峰會（FutureMemoryandStorage），以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在

See all articles

如何透過合成資料產生器來避免人工智慧的偏見問題

什麼是人工智慧偏見?

為什麼會發生?

合成資料如何幫助解決人工智慧偏見?

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題