합성 데이터 생성기의 AI 편향 문제를 방지하는 방법

王林
풀어 주다: 2023-04-26 14:40:08
앞으로
840명이 탐색했습니다.

합성 데이터 생성기의 AI 편향 문제를 방지하는 방법

AI 편견은 개인에게 다양한 결과를 초래할 수 있는 심각한 문제입니다.

인공지능이 발전함에 따라 데이터 과학 솔루션을 둘러싼 문제와 윤리적 딜레마가 표면화되기 시작합니다. 인간은 의사결정 과정에서 스스로를 배제했기 때문에 이러한 알고리즘이 내리는 판단이 편향되거나 차별적이지 않기를 원합니다. 인공지능은 항상 감독되어야 합니다. 인공지능은 대량의 데이터를 처리할 수 있는 예측 분석 기반의 디지털 시스템이기 때문에 이러한 편향 가능성이 인공지능에 의해 발생한다고 말할 수는 없습니다. 문제는 감독되지 않은 데이터가 시스템에 "공급"되면서 훨씬 더 일찍 시작됩니다.

역사를 통틀어 인간은 항상 편견과 차별을 가지고 있었습니다. 우리의 행동은 조만간 바뀔 것 같지 않습니다. 편견은 인간과 달리 문제에 영향을 받지 않는 것처럼 보이는 시스템과 알고리즘에서 발견됩니다.

인공지능 편향이란?

데이터 관련 분야에서 AI 편향은 데이터를 획득하는 방식에 따라 관심 집단을 올바르게 대표하지 못하는 표본이 나올 때 발생합니다. 이는 특정 인종, 신념, 피부색 및 성별의 사람들이 데이터 샘플에서 과소 대표된다는 것을 의미합니다. 이로 인해 시스템이 차별적인 결론을 내릴 수 있습니다. 또한 데이터 과학 컨설팅이 무엇인지, 왜 중요한지에 대한 질문을 제기합니다.

AI의 편견은 AI 시스템이 의도적으로 특정 집단을 선호하도록 만들어졌다는 의미는 아닙니다. 인공지능의 목표는 지시가 아닌 예시를 통해 개인이 자신의 욕구를 표현할 수 있도록 하는 것이다. 따라서 AI가 편향된 것은 데이터가 편향되었기 때문일 수 있습니다! 인공 지능 의사 결정은 현실 세계에서 작동하는 이상적인 프로세스이며 인간의 결함을 숨길 수 없습니다. 지도 학습을 통합하는 것도 유익합니다.

왜 이런 일이 발생하나요?

AI 편견 문제는 데이터에 좋은 알고리즘 결론을 내리는 데 도움이 되는 선입견에 기반한 인간의 선택이 포함될 수 있기 때문에 발생합니다. AI 편견의 실제 사례는 여러 가지가 있습니다. 인종차별주의자와 유명한 드래그 퀸이 Google의 증오심 표현 탐지 시스템에 의해 차별을 받았습니다. 지난 10년 동안 Amazon의 인적 자원 알고리즘은 주로 남성 직원에 대한 데이터를 제공하여 여성 지원자가 Amazon에서 채용 자격을 갖춘 것으로 평가될 가능성이 더 높습니다.

매사추세츠 공과대학(MIT)의 데이터 과학자들은 얼굴 인식 알고리즘이 소수자, 특히 소수자 여성의 얼굴을 분석할 때 오류율이 더 높다고 말합니다. 이는 훈련 중에 알고리즘에 주로 백인 남성 얼굴이 제공되었기 때문일 수 있습니다.

Amazon의 알고리즘은 미국 내 1억 1,200만 명의 Prime 사용자뿐만 아니라 사이트를 자주 방문하고 다른 항목을 자주 사용하는 수천만 명의 추가 개인의 데이터를 기반으로 훈련되기 때문에 회사는 소비자 구매 행동을 예측할 수 있습니다. Google의 광고 사업은 매일 수행되는 수십억 건의 인터넷 검색 데이터와 시중에 나와 있는 25억 대의 Android 스마트폰에서 얻은 데이터를 기반으로 하는 예측 알고리즘을 기반으로 합니다. 이러한 인터넷 거대 기업은 거대한 데이터 독점을 확립했으며 인공 지능 분야에서 거의 극복할 수 없는 이점을 보유하고 있습니다.

합성 데이터가 AI 편견을 해결하는 데 어떻게 도움이 될 수 있나요?

이상적인 사회에서는 누구도 편견을 갖지 않으며 피부색, 성별, 종교 또는 성적 취향에 관계없이 모든 사람이 동등한 기회를 가질 것입니다. 그러나 현실 세계에는 존재하며, 특정 분야에서 다수와 다른 사람들은 취업과 교육을 받는 데 어려움을 겪어 많은 통계에서 과소 대표됩니다. AI 시스템의 목표에 따라 이러한 사람들은 숙련도가 낮고, 이러한 데이터 세트에 포함될 가능성이 낮으며, 좋은 점수를 얻기에 적합하지 않다는 잘못된 추론으로 이어질 수 있습니다.

반면, AI 데이터는 편견 없는 AI를 향한 큰 진전이 될 수 있습니다. 고려해야 할 몇 가지 개념은 다음과 같습니다.

실제 데이터를 보고 편향이 어디에 있는지 확인하세요. 그런 다음 데이터는 실제 데이터와 관찰 가능한 편향을 사용하여 합성됩니다. 이상적인 가상 데이터 생성기를 생성하려면 편향된 데이터를 공정하다고 간주될 수 있는 데이터로 변환하려는 공정성의 정의를 포함해야 합니다.

AI 생성 데이터는 데이터 세트에서 많이 변하지 않거나 편견이 없는 데이터 세트를 구성할 만큼 크지 않은 공백을 채울 수 있습니다. 표본 크기가 크더라도 일부 사람들은 다른 사람들에 비해 제외되거나 과소 대표되었을 가능성이 있습니다. 이 문제는 합성 데이터를 사용하여 해결해야 합니다.

데이터 마이닝은 편견 없는 데이터를 생성하는 것보다 비용이 더 많이 들 수 있습니다. 실제 데이터 수집에는 측정, 인터뷰, 대규모 샘플 및 어떤 경우에도 많은 노력이 필요합니다. AI로 생성된 데이터는 저렴하며 데이터 과학과 기계 학습 알고리즘을 사용하는 것 외에는 아무것도 필요하지 않습니다.

지난 몇 년 동안 여러 영리 합성 데이터 회사의 임원과 Synthea의 창립자 MitreCorp.가 이들 서비스에 대한 관심이 급증했다는 사실을 알아차렸습니다. 그러나 인생을 바꾸는 결정을 내리는 데 알고리즘이 더 광범위하게 사용됨에 따라 얼굴 인식, 범죄 예측, 건강 관리 의사 결정 등 영향이 큰 다른 영역에서 인종차별, 성차별, 해로운 편견을 악화시키는 것으로 밝혀졌습니다. 연구원들은 알고리즘을 통해 생성된 데이터에 대한 알고리즘 훈련이 AI 시스템이 많은 상황에서 해로운 편견을 영속시킬 가능성을 높인다고 말합니다.

위 내용은 합성 데이터 생성기의 AI 편향 문제를 방지하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿