인공 지능이나 기계 학습(AI/ML) 훈련을 위해 실제 데이터를 수집하는 데 시간과 비용이 많이 든다는 것은 의심의 여지가 없습니다. 그리고 많은 경우 위험이 따르지만 더 일반적인 문제는 데이터가 너무 적거나 편향된 데이터가 조직을 잘못된 길로 이끌 수 있다는 것입니다. 하지만 소위 합성 데이터라고 불리는 새로운 데이터를 생성할 수 있다면 어떨까요?
가능성이 희박해 보이지만 이것이 바로 Synesis AI가 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital 및 Kubera Venture Capital Series A를 포함한 벤처 캐피탈 회사로부터 1,700만 달러를 모금할 계획인 것입니다. 자금조달.
이것은 매우 신뢰할만한 증거입니다. 회사는 이번 자금을 실제 데이터와 합성 데이터를 혼합하는 분야의 연구개발을 확대하는 데 사용할 계획이다.
Synesis AI의 CEO인 Yashar Behzadi는 성명을 통해 다음과 같이 말했습니다. "합성 데이터는 채택의 변곡점에 있으며, 우리의 목표는 기술을 더욱 발전시키고 컴퓨터 비전 시스템 구축 방식의 패러다임 전환을 주도하는 것입니다. 업계 곧 가상 세계에서 컴퓨터 비전 모델의 포괄적인 설계 및 교육을 통해 더욱 진보되고 윤리적인 인공 지능을 가능하게 할 것입니다.”
합성 데이터는 현실 세계에서 수집되는 것이 아니라 인간이 생성합니다. 현재 많은 애플리케이션은 컴퓨터 비전 시스템에서 수집된 데이터와 같은 시각적 데이터에 중점을 두고 있습니다. 그럼에도 불구하고 애플리케이션 테스트나 사기 탐지 알고리즘 개선과 같은 다른 사용 사례에 대해 합성 데이터를 생성할 수 없는 실질적인 이유는 없습니다. 이는 물리적 기록의 고도로 구조화된 디지털 트윈과 다소 유사합니다.
대규모의 실제 데이터 세트를 제공함으로써 데이터 과학자와 분석가는 이론적으로 데이터 수집 프로세스를 건너뛰고 바로 테스트 또는 교육에 들어갈 수 있습니다.
실제 데이터 세트를 만드는 데 드는 비용의 대부분은 단순히 원시 데이터를 수집하는 데 드는 비용이 아니기 때문입니다. 컴퓨터 비전과 자율주행차를 예로 들면, 자동차 제조사와 연구원들은 다양한 카메라, 레이더, 라이더 센서를 차량에 부착해 수집할 수 있지만, 원시 데이터는 AI/ML 알고리즘에 아무런 의미가 없습니다. 마찬가지로 어려운 과제는 시스템이 더 나은 결정을 내리는 데 도움이 되도록 상황에 맞는 정보로 데이터에 수동으로 태그를 지정 하는 것입니다.
이 챌린지의 맥락을 살펴보겠습니다. 모든 정지 신호, 교차로, 주차된 차량, 보행자 등이 있는 짧은 운전을 정기적으로 운전한다고 상상해 보십시오. 그런 다음 잠재적인 라벨링 위험을 각각 제공하는 것이 어려운 작업이라고 상상해 보십시오.
합성 데이터의 핵심 장점은 이론적으로 AI/ML 애플리케이션을 적절하게 훈련할 수 있을 만큼 큰 완벽하게 레이블이 지정된 데이터 세트를 생성할 수 있다는 것입니다. 즉, 데이터 과학자가 실제로 구현하기 전에 갑자기 수많은 새로운 장소에서 알고리즘을 테스트할 수 있습니다. 세계 데이터 또는 얻기 어려운 상황에서. 자율주행 자동차의 예를 계속해서 살펴보면, 데이터 과학자는 수동으로 데이터를 수집하기 위해 운전자를 북쪽이나 산으로 보낼 필요 없이 눈 덮인 도로와 같은 혹독한 조건에서 운전하도록 자동차를 훈련시키기 위한 합성 데이터를 생성할 수 있습니다.
합성 데이터의 핵심 장점은 이론적으로 AI/ML 애플리케이션을 적절하게 교육하는 데 필요한 규모로 완벽하게 레이블이 지정된 데이터 세트를 생성할 수 있다는 것입니다. 즉, 데이터 과학자는 실제 데이터를 사용할 수 있기 전에 또는 데이터를 사용하기 어려울 때 데이터를 생성할 수 있습니다. 그들은 갑자기 알고리즘을 여러 새로운 장소에서 테스트하고 있었습니다. 여전히 자율주행 자동차의 예를 통해 데이터 과학자는 운전자가 수동으로 데이터를 수집하기 위해 북쪽으로 가거나 산으로 갈 필요 없이 눈 덮인 도로와 같은 불리한 조건에서 운전하도록 자동차를 훈련시키는 합성 데이터를 생성할 수 있습니다.
그러나 합성 데이터에는 닭과 달걀의 문제가 있습니다. 왜냐하면 더 많은 데이터와 더 많은 AI/ML 알고리즘을 통해서만 생성할 수 있기 때문입니다. "시드" 데이터 세트로 시작한 다음 이를 합성 창작물의 기준으로 사용하세요. 즉, 시작하는 데이터만큼만 좋은 결과를 얻을 수 있습니다.
데이터 생성기의 끝이 보이지 않는 공급으로부터 이익을 얻지 못할 데이터 과학자나 연구원이 어디 있겠습니까? 실제 데이터의 수동 수집을 피할 수 있는 능력이라는 핵심 이점은 단순히 합성 데이터에 의해 가속화됩니다. AI/ML 적용 방식.
분석가와 데이터 과학자는 시드 데이터를 엄격하게 통제하고 다양성을 통합하기 위해 추가 노력을 기울이거나 외부 컨설턴트와 협력하여 편견을 발견하고 해독할 수 있기 때문에 더 높은 기준을 유지할 수 있습니다. 예를 들어, 합성 AI는 운전자 상태를 모니터링하고 컴퓨터 생성 합성 데이터 세트에 다양한 얼굴을 주의 깊게 포함시켜 실제 애플리케이션이 모든 사람에게 작동하도록 보장하는 시스템을 개발하고 있습니다.
개인 정보 보호는 또 다른 잠재적인 승리입니다. 회사가 자율주행차에 대한 실제 데이터를 수집하는 데 수백만 마일을 소비한다면 많은 사람들이 개인적이라고 생각하는 많은 데이터, 특히 얼굴을 수집하게 됩니다. Google 및 Apple과 같은 대기업은 매핑 소프트웨어에서 이러한 유형의 문제를 방지하는 방법을 찾았지만 알고리즘을 테스트하려는 소규모 AI/ML 팀에게는 이러한 경로가 적합하지 않습니다.
"기업들은 또한 인간 중심 제품의 모델 편견 및 소비자 개인 정보 보호와 관련된 윤리적 문제와 씨름하고 있습니다. 차세대 컴퓨터 비전을 구축하려면 새로운 패러다임이 필요하다는 것은 분명합니다."라고 Behzadi 회사의 CEO이자 설립자인 Yashar 말 언론에 말했습니다.
합성 데이터는 시작하기 위해 시드에 의존하지만 실제 생활에서 포착하기 어렵거나 위험한 극단적인 사례에서 AI/ML 애플리케이션을 훈련하는 데 도움이 되도록 조정하고 수정할 수 있습니다. 자율주행차를 개발하는 회사들은 트럭 뒤에 숨겨진 정지 신호나 도로를 질주하는 두 대의 자동차 사이에 서 있는 보행자 등 부분적으로만 보이는 물체나 사람을 잘 식별할 수 있기를 바라고 있습니다.
이러한 성공을 감안할 때, 그리고 편향을 합성 데이터로 인코딩하는 닭과 달걀 문제에 대한 일부 우려에도 불구하고 Gartner는 2024년까지 데이터의 60%가 합성으로 생성될 것으로 예측합니다. 그들은 기반이 되는 과거 데이터가 관련성을 잃거나 과거 경험에 기반한 가정이 무너지면 새로운 데이터의 대부분이 예측 모델을 수정하는 데 중점을 둘 것이라고 예측합니다.
하지만 항상 수집해야 할 일부실제 데이터가 있기 때문에 보편적이고 편견 없는 자아의 아바타에 의해 우리가 완전히 쓸모없게 되려면 아직 갈 길이 멀습니다.
위 내용은 합성 데이터가 AI/ML 훈련의 미래를 주도할 것인가?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!