번역가 | Bugatti
리뷰어 | Sun Shujuan
데이터가 인공지능(AI)의 핵심이기 때문에 AI와 머신러닝(ML) 시스템이 학습하려면 충분한 고품질 데이터가 필요하다는 것은 놀라운 일이 아닙니다. AI 또는 ML 시스템을 적절하게 훈련하려면 일반적으로 특히 지도 학습 방법의 경우 대량의 고품질 데이터가 필요합니다. 필요한 데이터의 양은 구현되는 AI 모델, 사용되는 알고리즘, 내부 데이터 및 타사 데이터와 같은 기타 요소에 따라 다릅니다. 예를 들어 신경망은 훈련하는 데 많은 양의 데이터가 필요한 반면, 의사결정 트리나 베이지안 분류기는 고품질 결과를 얻기 위해 많은 데이터가 필요하지 않습니다.
그럼 데이터가 많을수록 좋다고 생각하실 수도 있겠죠? 다시 생각해 보십시오. 많은 양의 데이터(심지어 엑사바이트 규모의 데이터)를 보유한 조직은 더 많은 데이터를 보유한다고 해서 예상한 대로 문제가 해결되지 않는다는 것을 알고 있습니다. 실제로 데이터가 많을수록 질문도 더 많아집니다. 데이터가 많을수록 정리하고 준비해야 하는 데이터가 많아지고, 레이블을 지정하고 관리해야 하는 데이터가 많아지고, 편견을 줄이고 보호하고 줄이기 위해 더 많은 데이터가 필요합니다. 데이터 양을 늘리기 시작하면 작은 프로젝트가 빠르게 큰 프로젝트로 바뀔 수 있습니다. 실제로 대량의 데이터로 인해 프로젝트가 중단되는 경우가 많습니다.
비즈니스 문제를 식별하는 것과 문제를 해결하기 위해 데이터를 구성하는 것 사이에서 분명히 누락된 단계는 필요한 데이터와 실제로 필요한 데이터의 양을 결정하는 것입니다. 충분한 데이터가 필요하지만 너무 많지는 않습니다. 더도 말고 덜도 말고 딱 맞습니다. 불행하게도 조직은 데이터를 이해하지 못한 채 AI 프로젝트에 뛰어드는 경우가 많습니다. 조직은 데이터가 어디에 있는지, 이미 얼마나 많은 데이터가 있는지, 어떤 상태인지, 데이터의 어떤 특성이 가장 중요한지, 데이터의 내부 및 외부 용도, 데이터 액세스 문제, 요구 사항 등을 파악하는 등 많은 질문에 답해야 합니다. 기존 데이터와 기타 주요 요소 및 질문을 강화합니다. 이러한 질문에 답하지 않으면 AI 프로젝트는 실패하거나 심지어 데이터 바다에 빠져버릴 수도 있습니다.
얼마나 많은 데이터가 필요한지 이해하려면 먼저 AI 프로젝트 구조에서 데이터가 어디에 있는지 이해해야 합니다. 데이터에서 얻는 증가하는 가치를 이해하는 데 도움이 되는 시각적 방법 중 하나는 "DIKUW 피라미드"(때때로 "DIKW 피라미드"라고도 함)입니다. 이는 데이터 기반이 정보, 지식, 이해 및 지혜를 통해 어떻게 변화될 수 있는지 보여줍니다. 더 큰 가치.
견고한 데이터 기반을 통해 다음 정보 계층에서 더 깊은 통찰력을 얻을 수 있으며, 이는 해당 데이터에 대한 근본적인 질문에 답하는 데 도움이 될 수 있습니다. 정보 통찰력을 얻기 위해 데이터 간의 기본적인 연결을 구축한 후에는 해당 정보에서 패턴을 찾고 정보 조각이 어떻게 연결되는지 이해하여 더 깊은 통찰력을 얻을 수 있습니다. 조직은 지식 계층을 구축하고 이러한 패턴이 발생하는 이유를 이해하고 기본 패턴을 이해하는 데 도움을 줌으로써 더 많은 가치를 얻을 수 있습니다. 마지막으로, 정보 결정의 원인과 결과를 깊이 이해함으로써 인텔리전스 수준에서 정보로부터 최대한의 가치를 얻을 수 있습니다.
머신러닝이 정보 계층 위에서 패턴을 식별하는 통찰력을 제공하기 때문에 최근 AI의 물결은 지식 계층에 가장 중점을 두고 있습니다. 불행하게도 머신러닝은 패턴을 찾는 것만으로는 추론을 할 수 없기 때문에 이해 계층에서 병목 현상을 겪습니다. 기계 학습이 있지만 패턴이 발생하는 이유를 이해하는 기계 추론은 없습니다. 챗봇과 상호 작용할 때마다 이러한 제한 사항이 표시됩니다. 머신러닝 기반 자연어 처리(NLP)는 인간의 말을 이해하고 의도를 추론하는 데는 매우 뛰어나지만 이해하고 추론하는 데는 한계가 있습니다. 예를 들어, 음성 비서에게 내일 비옷을 입고 싶은지 묻는다면 날씨에 대해 묻는 것임을 이해하지 못합니다. 음성 비서는 비가 실제로 무엇인지 전혀 모르기 때문에 이러한 통찰력을 기계에 제공하는 것은 인간의 몫입니다.
빅 데이터는 우리에게 대량의 데이터를 처리하는 방법을 가르쳐 주었습니다. 데이터가 저장되는 방식뿐만 아니라 모든 데이터가 처리, 조작 및 분석되는 방식도 마찬가지입니다. 기계 학습은 조직이 수집하는 다양한 유형의 비정형, 반정형 또는 정형 데이터를 처리하여 더 많은 가치를 더합니다. 실제로 최근 AI의 물결은 실제로 빅데이터 기반 분석의 물결입니다.
그러나 일부 조직이 AI와 관련하여 큰 타격을 받는 것은 바로 이러한 이유 때문입니다. 데이터 중심 관점에서 AI 프로젝트를 진행하기보다는 기능적 측면에 중점을 둔다. AI 프로젝트를 탐색하고 치명적인 실수를 방지하려면 조직은 AI와 머신 러닝뿐만 아니라 빅 데이터의 여러 "V"를 더 잘 이해해야 합니다. 데이터의 양뿐만 아니라 데이터의 성격도 중요합니다. 빅 데이터의 V에는 다음이 포함됩니다.
수십년 간의 빅 데이터 프로젝트 관리 경험을 바탕으로 AI에 성공한 조직은 주로 빅 데이터에서 성공했습니다. AI 프로젝트가 실패하는 것을 목격한 조직은 애플리케이션 개발 사고방식으로 AI 문제에 접근하는 경우가 많습니다.
AI 프로젝트가 올바르게 시작되었지만 필요한 데이터 부족, 이해 부족, 해결되지 않은 실무 문제로 인해 AI 프로젝트가 죽고 있습니다. 조직은 필요한 데이터와 데이터 품질을 제대로 이해하지 못한 채 계속해서 전진하고 있으며, 이로 인해 실질적인 문제가 발생합니다.
조직이 이러한 데이터 실수를 저지르는 이유 중 하나는 AI 프로젝트 작업에 있어 애자일 또는 애플리케이션 개발 방법론을 사용하는 것 외에는 실제 방법론이 없기 때문입니다. 그러나 성공적인 조직에서는 데이터 중심 접근 방식을 사용하면 프로젝트 접근 방식의 첫 번째 단계로 데이터 이해가 포함된다는 사실을 깨달았습니다. 20년 넘게 사용되어 온 CRISP-DM 접근 방식은 비즈니스 요구 사항이 식별된 후 다음 단계로 데이터 이해를 지정합니다. CRISP-DM을 기반으로 하고 민첩한 방법과 결합된 CPMAI(AI를 통한 인지 프로젝트 관리) 접근 방식에는 두 번째 단계에서 데이터 이해가 필요합니다. 다른 성공적인 접근 방식도 프로젝트 초기에 데이터를 이해해야 합니다. 왜냐하면 AI 프로젝트는 결국 데이터 프로젝트이기 때문입니다. 데이터를 이해하지 못한 채 접근한다면 어떻게 데이터를 바탕으로 성공적인 프로그램을 구축할 수 있을까요? 이것은 확실히 피하고 싶은 치명적인 실수입니다.
원본 링크: https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-mistakes-with-your-ai-projects/?sh= 352955946b54
위 내용은 AI 프로젝트에서 이러한 치명적인 실수를 저지른 적이 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!