AI 프로젝트의 요구 사항을 더 잘 충족하기 위해 데이터 품질을 개선하는 방법-일체 포함-php.cn

번역가 | Cui Hao

리뷰어 | Sun Shujuan

Opening

오늘날 사회에서는 인공지능의 발전이 글로벌 기업과 정부의 화두가 되었습니다. 그러나 인공지능과 밀접하게 관련된 또 다른 문제, 즉 데이터 품질이 좋지 않다는 문제가 무시되었습니다.

AI 알고리즘은 최적의 결과를 생성하기 위해 신뢰할 수 있는 데이터에 의존합니다. 데이터가 편향되거나, 불완전하거나, 부적절하거나, 심지어 부정확할 경우 결과는 파괴적일 수 있습니다.

환자의 질병을 식별하는 인공지능 시스템은 데이터 품질이 좋지 않아 부정적인 결과를 초래하는 좋은 예입니다. 데이터가 충분하지 않으면 이러한 시스템은 잘못된 진단과 부정확한 예측을 생성하여 오진 및 치료 지연으로 이어질 수 있습니다. 예를 들어, 코로나19를 진단하는 데 사용되는 400개 이상의 도구에 대한 캠브리지 대학의 연구에서는 결함이 있는 데이터 세트 사용으로 인해 AI 생성 보고서를 완전히 사용할 수 없는 것으로 나타났습니다.

즉, 데이터가 충분하지 않으면 AI 이니셔티브는 실제 세계에 파괴적인 결과를 가져올 것입니다.

'충분히 좋은' 데이터는 무엇을 의미하나요?

무엇이 "충분히 좋은" 데이터인지에 대해 항상 큰 논쟁이 있어 왔습니다. 어떤 사람들은 충분한 데이터가 존재하지 않는다고 말합니다. 다른 사람들은 "너무 좋은" 데이터는 분석 마비로 이어질 수 있다고 말합니다(역자: 과적합을 참조해야 함). 반면 HBR은 잘못된 정보로 인해 머신러닝 도구가 작동하지 않을 수 있다고 직설적으로 지적합니다.

WinPure에서는 충분한 양의 데이터를 "개인의 목표와 비즈니스 상황에 따라 달라지는 수준에서 완전하고, 정확하고, 유효하며, 위험한 비즈니스 프로세스에서 자신있게 사용할 수 있는" 것으로 정의합니다.

대부분의 기업은 데이터 품질 문제로 어려움을 겪고 있습니다. 그리고 거버넌스도 인정하지 않았지만. 이러한 고문은 계속해서 프로젝트의 긴장감을 높이고 압도합니다. 경쟁 우위를 유지하기 위해 인공 지능 계획을 배포해야 한다는 엄청난 압력을 받고 있다고 상상할 수 있습니다. 안타깝게도 더티 데이터와 같은 문제는 프로젝트가 실패할 때까지 이사회에서 논의되지 않습니다.

잘못된 데이터는 인공지능 시스템에 어떤 영향을 미치나요?

알고리즘이 훈련 데이터를 기반으로 학습할 때 프로세스 초기에 데이터 품질 문제가 발생합니다. 예를 들어, AI 알고리즘에 필터링되지 않은 소셜 미디어 데이터가 제공되면 Microsoft의 AI 봇에서 시연된 것처럼 학대, 인종 차별적 발언, 여성 혐오적 발언을 추출합니다. 최근에는 AI가 피부색이 검은 사람을 감지하지 못하는 것도 훈련 데이터 문제로 인해 비난을 받고 있습니다.

이것이 데이터 품질과 어떤 관련이 있나요?

데이터 거버넌스 부족, 약한 데이터 품질 인식, 고립된 데이터 보기가 데이터 품질 저하의 주요 원인입니다.

무엇을 해야 할까요?

기업에서는 데이터 품질에 문제가 있음을 깨닫게 되면 채용에 대해 당황하게 됩니다. 가능한 한 빨리 문제를 해결하기 위해 맹목적으로 컨설턴트, 엔지니어 및 분석가를 고용하여 데이터를 진단하고 정리합니다. 불행하게도 몇 달이 지났고 수백만 달러를 지출했음에도 불구하고 문제는 사라지지 않는 것 같았습니다. 데이터 품질 문제에 대해 무작정 접근하는 것은 거의 도움이 되지 않습니다.

진정한 변화는 풀뿌리에서부터 시작됩니다.

AI/ML 프로젝트가 올바른 방향으로 진행되기를 원한다면 다음 세 가지 주요 단계를 수행하세요.

데이터 품질 문제를 인식하고 인정합니다

먼저, 데이터 활용 문화를 구축하여 데이터 품질을 평가합니다. Bill Schmarzo는 이에 대해 강력한 목소리를 내며 디자인적 사고를 활용하여 모든 사람이 조직의 데이터 목표와 과제를 이해하고 이에 기여하는 문화를 조성할 것을 권장합니다.

오늘날의 비즈니스 환경에서 데이터 및 데이터 품질은 더 이상 IT 또는 데이터 팀만의 책임이 아닙니다. 비즈니스 사용자는 더티 데이터 문제, 일관되지 않은 중복 데이터 등의 문제를 알고 있어야 합니다.

그러므로 먼저 데이터 품질 교육을 조직의 중요한 노력으로 삼고 팀이 잘못된 데이터 속성을 식별할 수 있도록 역량을 강화하세요.

아래 체크리스트를 사용하여 데이터 품질을 추적할 수 있습니다.

데이터 상태 체크리스트

데이터를 어떻게 수집, 저장, 관리하나요?
중앙 데이터베이스에 얼마나 많은 데이터 소스가 연결되어 있고 데이터가 얼마나 잘 전파됩니까?
데이터를 얼마나 잘 관리하고 있나요? 데이터 거버넌스 표준을 구현했습니까? 얼마나 많은 데이터가 구조화, 반구조화 또는 비구조화되어 있습니까?
자동 데이터 관리에 비해 수동 데이터 복구에 얼마나 많은 비용을 지출하시나요? 데이터에 액세스하고 처리할 때 팀이 어떻게 서로 협력합니까? IT 부서와 비즈니스 사용자 사이에 내부 갈등이 자주 발생합니까?
데이터 품질은 어떻습니까? 귀하의 데이터는 시의적절하고 완전하며 정확하고 고유하며 표준화된 규칙을 따르고 있습니까?

품질 지표를 충족하기 위한 계획 개발

기업에서는 데이터 품질 문제와 관련하여 실수를 저지르는 경우가 많습니다. 예를 들어, 데이터 분석가는 계획 및 전략 작업에 집중하는 대신 일상적인 데이터 정리 작업을 수행하도록 고용됩니다. 일부 기업에서는 데이터 관리 도구를 사용하여 계획 없이 데이터를 정리, 중복 제거, 통합 및 제거합니다. 불행하게도 도구와 재능만으로는 문제를 해결할 수 없습니다. 데이터 품질 차원을 충족하는 전략은 문제에 대한 근본적인 해결책입니다.

AI 프로젝트의 요구 사항을 더 잘 충족하기 위해 데이터 품질을 개선하는 방법

전략은 AI/ML 프로젝트와의 데이터 수집, 라벨링, 처리 및 데이터 매칭 문제를 해결해야 합니다. 예를 들어, AI 채용 프로그램이 기술직에 남성 후보자만 선택하는 경우 프로그램의 훈련 데이터는 분명히 편향되고 불완전하며(여성 후보자에 대한 데이터가 충분하지 않음) 부정확합니다. 따라서 이 데이터는 AI 프로젝트의 진정한 목적에 부합하지 않습니다.

데이터 품질에 대한 요구 사항은 데이터 정리 및 복구라는 일상적인 작업을 넘어섰습니다. 따라서 프로젝트를 시작하기 전에 데이터 무결성 및 거버넌스 표준을 설정해야 합니다. 프로젝트가 실패하는 것을 막아줍니다!

올바른 질문을 하고 책임을 설정하세요.

"충분한 데이터 또는 데이터 품질 수준"에 대한 보편적인 표준은 없습니다. 대신 기업의 정보 관리 시스템, 데이터 거버넌스 지침, 팀 및 비즈니스 목표에 대한 지식, 기타 여러 요소에 따라 달라집니다.

하지만 프로젝트를 시작하기 전에 팀에 물어봐야 할 몇 가지 질문이 있습니다.

우리 정보의 출처는 무엇이며 데이터 수집 방법은 무엇입니까?
데이터 수집 프로세스에 영향을 미치고 긍정적인 결과를 위협할 수 있는 문제는 무엇입니까?
데이터는 어떤 정보를 전달하나요? 데이터 품질 표준을 충족합니까(즉, 정보가 정확하고 완전히 신뢰할 수 있으며 일정합니까)?
지정된 담당자는 데이터 품질과 낮은 품질의 중요성을 인식하고 있나요?
역할과 책임이 정의되어 있나요? 예를 들어 정기적인 데이터 정리 일정을 유지해야 하는 사람은 누구입니까? 마스터 레코드 생성을 담당하는 사람은 누구입니까?
데이터가 목적에 맞는가요?

올바른 질문을 하고, 올바른 역할을 할당하고, 데이터 품질 표준을 구현하고, 문제가 발생하기 전에 팀이 문제를 해결할 수 있도록 도와주세요!

요약

데이터 품질은 단순히 오타나 오류를 수정하는 것 이상입니다. 이는 AI 시스템이 차별적이거나, 오해의 소지가 있거나, 부정확하지 않도록 보장합니다. AI 프로젝트를 시작하기 전에 데이터의 결함을 해결하여 데이터 품질 문제를 해결해야 합니다. 또한 각 팀을 전체 목표에 연결하기 위해 조직 전체의 데이터 활용 능력 프로그램을 시작합니다.