인프라의 진정한 위대함은 무시하기 쉽다는 것입니다. 성능이 좋을수록 우리는 그것에 대해 덜 생각합니다. 예를 들어, 모바일 인프라의 중요성은 연결에 어려움을 겪을 때만 떠오릅니다. 새로 포장된 고속도로를 운전할 때와 마찬가지로, 도로가 바퀴 아래를 조용히 지나갈 때 우리는 노면에 대해 거의 생각하지 않습니다. 반면에 제대로 관리되지 않은 고속도로는 우리가 만나는 모든 움푹 들어간 곳, 잔디, 울퉁불퉁한 곳을 통해 그 존재를 상기시켜 줍니다.
인프라는 누락, 부적절 또는 손상된 경우에만 주의가 필요합니다. 그리고 컴퓨터 비전에서 인프라, 아니 오히려 인프라에서 누락된 부분이 현재 많은 사람들이 우려하고 있는 부분입니다.
모든 AI/ML 프로젝트(컴퓨터 비전 포함)를 뒷받침하는 세 가지 기본 개발 요소는 데이터, 알고리즘/모델, 컴퓨팅입니다. 이 세 가지 기둥 중에서 컴퓨팅은 단연 가장 강력하고 견고한 인프라를 갖춘 기둥입니다. 수십 년간의 헌신적인 기업 투자 및 개발을 통해 클라우드 컴퓨팅은 기업 IT 환경 전체에서 IT 인프라의 표준이 되었으며 컴퓨터 비전도 예외는 아닙니다.
서비스형 인프라(Infrastructure-as-a-Service) 모델에서 개발자는 거의 20년 동안 끊임없이 확장되는 컴퓨팅 성능 파이프라인에 대한 주문형, 종량제 액세스를 누려왔습니다. 그 동안 민첩성, 비용 효율성, 확장성 등을 획기적으로 개선하여 엔터프라이즈 IT에 혁명을 일으켰습니다. 전용 기계 학습 GPU의 출현으로 컴퓨터 비전 인프라 스택의 이 부분이 살아 있다고 해도 과언이 아닙니다. 컴퓨터 비전과 AI가 잠재력을 최대한 실현하는 것을 보고 싶다면 나머지 CV 인프라 스택의 기반이 되는 모델로 컴퓨팅을 사용하는 것이 현명할 것입니다.
최근까지 알고리즘과 모델 개발은 컴퓨터 비전과 인공지능 개발의 원동력이었습니다. 연구 및 상업 개발 측면에서 팀은 AI/ML 모델을 테스트, 패치 및 점진적으로 개선하고 Kaggle과 같은 오픈 소스 커뮤니티에서 진행 상황을 공유하기 위해 수년 동안 열심히 노력해 왔습니다. 컴퓨터 비전과 인공 지능 분야는 새천년의 첫 20년 동안 알고리즘 개발과 모델링에 노력을 집중함으로써 큰 발전을 이루었습니다.
그러나 최근 몇 년 동안 모델 중심 최적화가 수익 체감의 법칙을 위반함에 따라 이러한 진행 속도가 느려졌습니다. 게다가 모델 중심 접근 방식에는 몇 가지 제한 사항이 있습니다. 예를 들어 동일한 데이터를 훈련에 사용한 다음 모델을 다시 훈련할 수 없습니다. 또한 모델 중심 접근 방식에는 데이터 정리, 모델 검증 및 교육 측면에서 더 많은 수작업이 필요하므로 보다 혁신적인 수익 창출 작업에 귀중한 시간과 리소스가 소요될 수 있습니다.
현재 CV 팀은 Hugging Face와 같은 커뮤니티를 통해 객체 인식 및 얼굴 랜드마크 인식부터 포즈 추정 및 기능에 이르기까지 각각 서로 다른 핵심 CV 기능을 지원하는 크고 복잡한 알고리즘, 모델 및 아키텍처에 무료로 공개적으로 액세스할 수 있습니다. 어울리는. 이러한 자산은 상상할 수 있는 것만큼 "기성" 솔루션에 가까워졌습니다. 즉, 컴퓨터 비전 및 AI 팀에 기성 화이트보드를 제공하여 다양한 전문 작업 및 사용 사례를 교육할 수 있습니다.
손과 눈의 협응과 같은 기본적인 인간 능력을 탁구부터 투구까지 다양한 기술에 적용하고 훈련할 수 있는 것처럼 이러한 최신 ML 알고리즘도 다양한 특정 응용 분야를 수행하도록 훈련할 수 있습니다. 그러나 인간이 수년간의 연습과 땀을 통해 전문화되는 반면, 기계는 데이터를 통한 훈련을 통해 전문화됩니다.
이로 인해 인공 지능 분야의 많은 주요 인사들은 딥 러닝 개발의 새로운 시대, 즉 발전의 주요 엔진이 데이터인 시대를 요구하게 되었습니다. 불과 몇 년 전 Andrew Ng 등은 데이터 중심이 AI 개발의 방향이라고 발표했습니다. 이 짧은 기간 동안 산업은 번성했습니다. 불과 몇 년 만에 로봇 공학, AR/VR부터 자동차 제조, 홈 보안에 이르기까지 광범위한 산업에 걸쳐 컴퓨터 비전에 대한 수많은 새로운 상용 애플리케이션과 사용 사례가 등장했습니다.
최근에는 데이터 중심 접근 방식을 사용하여 자동차의 핸들 조작 감지에 대한 연구를 수행했습니다. 우리의 실험에서는 이 접근 방식과 합성 데이터를 사용하여 훈련 데이터 세트에서 부족한 특정 엣지 케이스를 식별하고 생성할 수 있음을 보여줍니다.
Datagen은 손으로 잡고 운전대 테스트를 위한 합성 이미지를 생성합니다. (이미지 제공: Datagen)
컴퓨터 비전 산업이 데이터에 대해 열광하고 있지만 모든 것이 열광적인 것은 아닙니다. 현장에서는 데이터가 앞으로 나아가는 길이라는 사실을 확립했지만 그 과정에는 많은 장애물과 함정이 있으며, 그 중 상당수는 이미 CV 팀을 방해했습니다. 미국 컴퓨터 비전 전문가를 대상으로 한 최근 조사에 따르면 이 분야는 장기간의 프로젝트 지연, 비표준 프로세스, 리소스 부족 등으로 인해 어려움을 겪고 있는 것으로 나타났습니다. 이 모든 것은 데이터에서 비롯됩니다. 같은 설문조사에서 응답자의 99%는 교육 데이터 부족으로 인해 최소 하나의 CV 프로젝트가 무기한 취소되었다고 답했습니다.
지금까지 프로젝트 취소를 피한 행운의 1%라도 프로젝트 지연을 피할 수는 없습니다. 설문 조사에서 모든 응답자는 교육 데이터가 부족하거나 불충분하여 심각한 프로젝트 지연을 경험했다고 보고했으며, 80%는 지연이 3개월 이상 지속되었다고 보고했습니다. 궁극적으로 인프라의 목적은 유틸리티, 즉 촉진, 가속화 또는 통신을 위한 것입니다. 심각한 지연이 비즈니스 수행의 일부일 뿐인 세상에서 일부 중요한 인프라가 누락된 것은 분명합니다.
그러나 컴퓨팅 및 알고리즘과 달리 AI/ML 개발의 세 번째 기둥은 인프라화를 수용할 수 없습니다. 특히 대량의 데이터가 저장되는 컴퓨터 비전 분야에서는 체계적이지 않고 시간과 시간이 매우 많이 소요됩니다. 수집하고 관리하는 데 리소스 집약적입니다. 온라인에 무료로 사용할 수 있는 라벨이 붙은 시각적 교육 데이터 데이터베이스(예: 현재 유명한 ImageNet 데이터베이스)가 많이 있지만 상용 CV 개발 시 교육 데이터 소스로는 충분하지 않은 것으로 입증되었습니다.
설계에 따라 일반화하는 모델과 달리 학습 데이터는 본질적으로 애플리케이션별로 다르기 때문입니다. 데이터는 특정 모델의 애플리케이션을 다른 애플리케이션과 구별하는 요소이므로 특정 작업뿐만 아니라 해당 작업이 수행되는 환경이나 맥락에서도 고유해야 합니다. 빛의 속도로 생성되고 접근할 수 있는 컴퓨팅 성능과 달리 전통적인 시각적 데이터는 인간이 생성하거나 수집한 후(현장에서 사진을 찍거나 인터넷에서 적합한 이미지를 검색하여) 인간이 공들여 정리하고 라벨을 지정해야 합니다. (이것은 인적 오류, 불일치 및 편견이 발생하기 쉬운 A 프로세스입니다.)
이것은 "특정 애플리케이션에 적합하고 쉽게 상품화할 수 있는(즉, 빠르고 저렴하며 다재다능한) 데이터 시각화를 어떻게 만들 수 있습니까?"라는 질문을 제기합니다. 이 두 가지 특성이 모순되는 것처럼 보일 수 있지만 잠재적인 솔루션이 등장했습니다. ; 이는 근본적이지만 양립할 수 없는 것처럼 보이는 두 가지 특성을 조화시키는 방법으로 큰 가능성을 보여줍니다.
합성 데이터 및 완전한 CV 스택에 대한 경로특정 애플리케이션으로 애플리케이션을 생산하고 시간과 자원을 절약 scale 학습 데이터를 시각화하는 유일한 방법은 합성 데이터를 사용하는 것입니다. 이 개념에 익숙하지 않은 사람들을 위해 설명하자면, 합성 데이터는 실제 세계와 동등한 일부를 충실하게 표현하도록 설계된 인간이 생성한 정보입니다. 시각적 합성 데이터 측면에서 이는 정지 이미지나 비디오 형식의 사실적인 컴퓨터 생성 3D 이미지(CGI)를 의미합니다. 데이터 센터 시대에 발생한 많은 문제에 대응하여 합성 데이터 생성을 중심으로 신흥 산업이 형성되기 시작했습니다. 일련의 문제점 위에 나열된 문제를 해결합니다. 이러한 솔루션 중 가장 유망한 것은 AI/ML 알고리즘을 사용하여 사실적인 3D 이미지를 생성하고 각 데이터 포인트에 대한 관련 실측 정보(예: 메타데이터)를 자동으로 생성하는 것입니다. 따라서 합성 데이터는 수개월에 걸쳐 수동으로 라벨을 지정하고 주석을 추가하는 과정을 제거하는 동시에 인적 오류와 편견의 가능성도 제거합니다. 저희 논문(NeurIPS 2021에 게재), Discovering group Bias in Face LandmarkDetection using Synthetic Data에서 훈련된 모델의 성능을 분석하고 약점을 식별하려면 데이터의 일부를 따로 보관해야 한다는 사실을 발견했습니다. 시험용. 테스트 세트는 대상 모집단 내의 모든 관련 하위 그룹과 관련하여 통계적으로 유의미한 편차를 감지할 수 있을 만큼 충분히 커야 합니다. 특히 데이터 집약적인 애플리케이션에서는 이 요구 사항을 충족하기 어려울 수 있습니다.컴퓨터 비전(CV)은 현대 인공 지능의 주요 분야 중 하나입니다.
우리는 합성 테스트 세트를 생성하여 이러한 어려움을 극복할 것을 제안합니다. 우리는 실제 데이터 세트에서 관찰된 모든 편향이 잘 설계된 합성 데이터 세트에서도 볼 수 있음을 보여줌으로써 제안을 검증하기 위해 얼굴 랜드마크 감지 작업을 사용합니다. 이는 합성 테스트 세트가 모델의 약점을 효과적으로 탐지하고 실제 테스트 세트의 크기나 다양성의 한계를 극복할 수 있음을 보여줍니다.
현재 스타트업에서는 편견을 완화하고 데이터 수집 규모를 확장할 수 있는 검증된 셀프 서비스 합성 데이터 생성 플랫폼을 엔터프라이즈 CV 팀에 제공하고 있습니다. 이러한 플랫폼을 통해 기업 CV 팀은 측정된 온디맨드 기반으로 사용 사례별 교육 데이터를 생성하여 기존 데이터를 인프라화에 부적합하게 만드는 구체성과 규모 간의 격차를 해소할 수 있습니다.
지금이 컴퓨터 비전 분야에 흥미로운 시기라는 점은 부인할 수 없습니다. 그러나 다른 변화하는 분야와 마찬가지로 지금은 어려운 시기입니다. 훌륭한 재능과 천재적인 생각이 아이디어와 열정으로 가득한 분야에 뛰어들지만, 적절한 데이터 파이프라인이 부족하여 발목을 잡게 됩니다. 이 분야는 너무 비효율적이어서 오늘날 데이터 과학자들은 조직 3곳 중 1곳이 이미 기술 격차로 어려움을 겪고 있는 분야로 알려져 있으며 귀중한 인적 자원을 낭비할 여유가 없습니다.
합성 데이터는 진정한 교육 데이터 인프라의 문을 열어줍니다. 언젠가는 물 한 잔을 위해 수도꼭지를 켜거나 계산을 제공하는 것만큼 간단할 수도 있습니다. 이는 전 세계 데이터 관리자에게 반가운 기분 전환이 될 것입니다.
위 내용은 데이터 관리는 인공지능 발전의 가장 큰 걸림돌이 됐다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!