데이터 거버넌스를 통해 AI 피로를 해결할 수 있을까?-일체 포함-php.cn

데이터 거버넌스를 통해 AI 피로를 해결할 수 있을까?

王林

풀어 주다： 2024-01-18 17:51:22

앞으로

919명이 탐색했습니다.

데이터 거버넌스를 통해 AI 피로를 해결할 수 있을까?

데이터 거버넌스와 AI 피로는 두 가지 다른 개념처럼 들릴 수 있지만 둘은 본질적으로 연결되어 있습니다. 더 잘 이해하기 위해 정의부터 시작하겠습니다.

데이터 거버넌스

그것은 오랫동안 데이터 산업의 핵심 초점이었습니다.

데이터 거버넌스는 데이터의 수집, 저장, 처리 및 폐기를 규제하기 위한 내부 표준 및 데이터 정책 개발을 포함하여 데이터의 보안, 비공개, 정확성, 가용성 및 신뢰성을 보장하기 위한 모든 조치입니다. 이 프로세스는 사용자 개인 정보를 보호하고 데이터 무결성을 유지하는 데 중요합니다.

이 정의에서 강조하듯이 데이터 거버넌스는 데이터, 즉 AI 모델을 구동하는 엔진을 관리하는 것입니다.

데이터 거버넌스와 AI 사이의 연관성은 처음에는 명백하지만, 피로의 원인을 강조하여 이를 AI 피로와 연결하면 기사 전체에서 용어의 일관된 사용이 보장됩니다.

AI 피로

AI 피로는 회사, 개발자 또는 팀이 직면한 좌절과 과제로 인해 발생할 수 있으며, 이로 인해 AI 시스템의 구현이나 가치 실현이 방해받을 수 있습니다.

AI를 과도하게 과대평가하는 주된 이유는 AI의 기능에 대한 비현실적인 기대 때문입니다. AI의 가치와 적용을 적절하게 평가하려면 이해관계자가 AI의 기능, 가능성, 한계 및 위험에 맞춰 조정되어야 합니다.

위험과 관련하여 윤리는 종종 부차적인 것으로 간주되어 규정을 준수하지 않는 AI 이니셔티브를 포기하게 만듭니다.

AI 피로를 유발하는 데이터 거버넌스의 역할에 대해 궁금하실 것입니다. 이것이 이 기사의 전제입니다.

우리가 다음으로 갈 곳은 여기입니다.

AI 피로는 크게 배포 전과 배포 후로 나눌 수 있습니다. 먼저 배포 전 작업에 중점을 두겠습니다.

사전 배포

개념 증명(PoC)을 배포로 업그레이드하는 데에는 다음과 같은 여러 요소가 있습니다.

우리가 해결하려는 문제는 무엇입니까?
지금 우선 순위를 정하는 것이 왜 그렇게 시급한 문제인가요?
예 어떤 데이터가 있나요?
애초에 ML로 해결할 수 있나요?
데이터에 패턴이 있나요?
이 현상이 반복될 수 있나요?
어떤 추가 데이터가 모델 성능을 향상하나요?

평가가 끝나면 ML 알고리즘을 사용하여 어떤 문제를 가장 잘 해결할 수 있는지 결정하기 위해 데이터 과학팀은 탐색적 데이터 분석을 수행합니다. 이 단계에서는 많은 기본 데이터 패턴이 공개되어 주어진 데이터에 풍부한 신호가 포함되어 있는지 여부를 강조하며, 이는 또한 알고리즘의 학습 프로세스 속도를 높이는 엔지니어링 기능을 생성하는 데도 도움이 됩니다.

다음으로 팀은 첫 번째 기준 모델을 구축했는데 성능이 허용 가능한 수준에 미치지 못하는 경우가 많습니다. 동전을 던지는 것만큼 출력이 좋은 모델은 어떠한 가치도 추가하지 않습니다. 이는 ML 모델을 구축할 때 배운 첫 번째 난관이자 교훈 중 하나입니다.

회사는 한 비즈니스 문제에서 다른 비즈니스 문제로 이동하여 피로감을 느낄 수 있습니다. 그러나 기본 데이터가 풍부한 신호를 전달하지 않으면 AI 알고리즘을 구축할 수 없습니다. 모델은 보이지 않는 데이터로 일반화하기 위해 훈련 데이터로부터 통계적 연관성을 학습해야 합니다.

배포 후

훈련된 모델이 검증 세트에서 유망한 결과를 보여주더라도 70% 정확도 피로와 같은 검증된 비즈니스 기준에 따라 모델이 프로덕션 환경에서 적절하게 작동하지 않는 경우 여전히 발생할 수 있습니다.

이런 유형의 AI 피로를 배포 후 단계라고 합니다.

수많은 이유로 인해 성능 저하가 발생할 수 있으며, 열악한 데이터 품질은 모델을 괴롭히는 가장 일반적인 문제입니다. 이로 인해 주요 속성이 없을 때 대상 응답을 정확하게 예측하는 모델의 능력이 제한됩니다.

학습 데이터의 10%에서만 누락된 필수 기능 중 하나가 이제 생산 데이터의 50%에서 null이 되어 모델이 일관되게 수행되도록 하기 위한 이러한 반복과 노력이 발생한다는 점을 고려하세요. 데이터 과학자와 비즈니스 팀을 지치게 만들어 데이터 파이프라인에 대한 신뢰를 약화시키고 프로젝트 투자를 위험에 빠뜨립니다.

데이터 거버넌스가 핵심입니다

두 가지 유형의 AI 피로를 해결하려면 강력한 데이터 거버넌스 조치가 중요합니다. 데이터가 ML 모델의 핵심이라는 점을 고려할 때 ML 프로젝트의 성공을 위해서는 신호가 풍부하고 오류가 없는 고품질 데이터가 필요합니다. AI 피로를 해결하려면 데이터 거버넌스에 중점을 두어야 합니다. 따라서 우리는 올바른 데이터 품질을 보장하고 최첨단 모델을 구축하기 위한 기반을 마련하고 신뢰할 수 있는 비즈니스 통찰력을 제공하기 위해 엄격하게 노력해야 합니다.

데이터 품질

데이터 품질은 데이터 거버넌스 활성화의 핵심이자 기계 학습 알고리즘 성공의 중요한 요소입니다. 기업은 데이터 소비자에게 보고서를 게시하는 등 데이터 품질에 투자해야 합니다. 데이터 과학 프로젝트에서 품질이 낮은 데이터가 모델에 입력되면 어떤 일이 발생하는지 생각해 보세요. 이는 성능 저하로 이어질 수 있습니다.

오류 분석 중에만 팀이 데이터 품질 문제를 식별할 수 있으며, 이는 수정을 위해 이러한 문제가 업스트림으로 전송될 때 궁극적으로 팀 간의 피로를 초래합니다.

분명히 여기에 들어가는 노력뿐만 아니라 올바른 데이터가 입력되기까지 엄청난 시간이 낭비됩니다.

따라서 시간이 많이 걸리는 반복을 방지하려면 항상 소스에서 데이터 문제를 해결하는 것이 좋습니다. 궁극적으로 게시된 데이터 품질 보고서는 데이터 과학 팀(또는 기타 다운스트림 사용자 및 데이터 소비자)이 수신 데이터의 허용 가능한 품질을 이해하고 있음을 암시합니다.

데이터 품질 및 거버넌스 조치가 없으면 데이터 과학자는 데이터 문제에 압도되어 AI 피로로 이어지는 실패한 모델을 초래할 것입니다.

결론

이 기사에서는 AI 피로 시작의 두 단계를 강조하고 데이터 품질 보고와 같은 데이터 거버넌스 조치가 신뢰할 수 있고 강력한 모델 구축을 어떻게 촉진할 수 있는지 설명합니다.

데이터 거버넌스를 통해 탄탄한 기반을 구축함으로써 기업은 성공적이고 원활한 AI 개발 및 채택을 위한 로드맵을 구축하고 열정을 고취할 수 있습니다.

이 기사에서 AI 피로를 처리하는 다양한 방법에 대한 포괄적인 개요를 제공하기 위해 데이터 거버넌스와 같은 다른 모범 사례와 결합하여 데이터 과학 팀이 더 빠르게 작업할 수 있게 해주는 조직 문화의 역할도 강조합니다. 더욱 효율적으로 의미 있는 AI 기여를 구축하세요.

위 내용은 데이터 거버넌스를 통해 AI 피로를 해결할 수 있을까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!