합성 데이터가 AI/ML 훈련의 미래를 주도할 것인가?-일체 포함-php.cn

그런데 합성 데이터란 무엇입니까?

(무형) 이점

집

기술 주변기기

일체 포함

합성 데이터가 AI/ML 훈련의 미래를 주도할 것인가?

王林

Apr 14, 2023 am 09:52 AM

ai 합성 데이터 ml

合成数据会推动 AI/ML 训练的未来吗？

인공 지능이나 기계 학습(AI/ML) 훈련을 위해 실제 데이터를 수집하는 데 시간과 비용이 많이 든다는 것은 의심의 여지가 없습니다. 그리고 많은 경우 위험이 따르지만 더 일반적인 문제는 데이터가 너무 적거나 편향된 데이터가 조직을 잘못된 길로 이끌 수 있다는 것입니다. 하지만 소위 합성 데이터라고 불리는 새로운 데이터를 생성할 수 있다면 어떨까요?

가능성이 희박해 보이지만 이것이 바로 Synesis AI가 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital 및 Kubera Venture Capital Series A를 포함한 벤처 캐피탈 회사로부터 1,700만 달러를 모금할 계획인 것입니다. 자금조달.

이것은 매우 신뢰할만한 증거입니다. 회사는 이번 자금을 실제 데이터와 합성 데이터를 혼합하는 분야의 연구개발을 확대하는 데 사용할 계획이다.

Synesis AI의 CEO인 Yashar Behzadi는 성명을 통해 다음과 같이 말했습니다. "합성 데이터는 채택의 변곡점에 있으며, 우리의 목표는 기술을 더욱 발전시키고 컴퓨터 비전 시스템 구축 방식의 패러다임 전환을 주도하는 것입니다. 업계 곧 가상 세계에서 컴퓨터 비전 모델의 포괄적인 설계 및 교육을 통해 더욱 진보되고 윤리적인 인공 지능을 가능하게 할 것입니다.”

그런데 합성 데이터란 무엇입니까?

합성 데이터는 현실 세계에서 수집되는 것이 아니라 인간이 생성합니다. 현재 많은 애플리케이션은 컴퓨터 비전 시스템에서 수집된 데이터와 같은 시각적 데이터에 중점을 두고 있습니다. 그럼에도 불구하고 애플리케이션 테스트나 사기 탐지 알고리즘 개선과 같은 다른 사용 사례에 대해 합성 데이터를 생성할 수 없는 실질적인 이유는 없습니다. 이는 물리적 기록의 고도로 구조화된 디지털 트윈과 다소 유사합니다.

대규모의 실제 데이터 세트를 제공함으로써 데이터 과학자와 분석가는 이론적으로 데이터 수집 프로세스를 건너뛰고 바로 테스트 또는 교육에 들어갈 수 있습니다.

실제 데이터 세트를 만드는 데 드는 비용의 대부분은 단순히 원시 데이터를 수집하는 데 드는 비용이 아니기 때문입니다. 컴퓨터 비전과 자율주행차를 예로 들면, 자동차 제조사와 연구원들은 다양한 카메라, 레이더, 라이더 센서를 차량에 부착해 수집할 수 있지만, 원시 데이터는 AI/ML 알고리즘에 아무런 의미가 없습니다. 마찬가지로 어려운 과제는 시스템이 더 나은 결정을 내리는 데 도움이 되도록 상황에 맞는 정보로 데이터에 수동으로 태그를 지정 하는 것입니다.

이 챌린지의 맥락을 살펴보겠습니다. 모든 정지 신호, 교차로, 주차된 차량, 보행자 등이 있는 짧은 운전을 정기적으로 운전한다고 상상해 보십시오. 그런 다음 잠재적인 라벨링 위험을 각각 제공하는 것이 어려운 작업이라고 상상해 보십시오.

합성 데이터의 핵심 장점은 이론적으로 AI/ML 애플리케이션을 적절하게 훈련할 수 있을 만큼 큰 완벽하게 레이블이 지정된 데이터 세트를 생성할 수 있다는 것입니다. 즉, 데이터 과학자가 실제로 구현하기 전에 갑자기 수많은 새로운 장소에서 알고리즘을 테스트할 수 있습니다. 세계 데이터 또는 얻기 어려운 상황에서. 자율주행 자동차의 예를 계속해서 살펴보면, 데이터 과학자는 수동으로 데이터를 수집하기 위해 운전자를 북쪽이나 산으로 보낼 필요 없이 눈 덮인 도로와 같은 혹독한 조건에서 운전하도록 자동차를 훈련시키기 위한 합성 데이터를 생성할 수 있습니다.

합성 데이터의 핵심 장점은 이론적으로 AI/ML 애플리케이션을 적절하게 교육하는 데 필요한 규모로 완벽하게 레이블이 지정된 데이터 세트를 생성할 수 있다는 것입니다. 즉, 데이터 과학자는 실제 데이터를 사용할 수 있기 전에 또는 데이터를 사용하기 어려울 때 데이터를 생성할 수 있습니다. 그들은 갑자기 알고리즘을 여러 새로운 장소에서 테스트하고 있었습니다. 여전히 자율주행 자동차의 예를 통해 데이터 과학자는 운전자가 수동으로 데이터를 수집하기 위해 북쪽으로 가거나 산으로 갈 필요 없이 눈 덮인 도로와 같은 불리한 조건에서 운전하도록 자동차를 훈련시키는 합성 데이터를 생성할 수 있습니다.

그러나 합성 데이터에는 닭과 달걀의 문제가 있습니다. 왜냐하면 더 많은 데이터와 더 많은 AI/ML 알고리즘을 통해서만 생성할 수 있기 때문입니다. "시드" 데이터 세트로 시작한 다음 이를 합성 창작물의 기준으로 사용하세요. 즉, 시작하는 데이터만큼만 좋은 결과를 얻을 수 있습니다.

(무형) 이점

데이터 생성기의 끝이 보이지 않는 공급으로부터 이익을 얻지 못할 데이터 과학자나 연구원이 어디 있겠습니까? 실제 데이터의 수동 수집을 피할 수 있는 능력이라는 핵심 이점은 단순히 합성 데이터에 의해 가속화됩니다. AI/ML 적용 방식.

분석가와 데이터 과학자는 시드 데이터를 엄격하게 통제하고 다양성을 통합하기 위해 추가 노력을 기울이거나 외부 컨설턴트와 협력하여 편견을 발견하고 해독할 수 있기 때문에 더 높은 기준을 유지할 수 있습니다. 예를 들어, 합성 AI는 운전자 상태를 모니터링하고 컴퓨터 생성 합성 데이터 세트에 다양한 얼굴을 주의 깊게 포함시켜 실제 애플리케이션이 모든 사람에게 작동하도록 보장하는 시스템을 개발하고 있습니다.

개인 정보 보호는 또 다른 잠재적인 승리입니다. 회사가 자율주행차에 대한 실제 데이터를 수집하는 데 수백만 마일을 소비한다면 많은 사람들이 개인적이라고 생각하는 많은 데이터, 특히 얼굴을 수집하게 됩니다. Google 및 Apple과 같은 대기업은 매핑 소프트웨어에서 이러한 유형의 문제를 방지하는 방법을 찾았지만 알고리즘을 테스트하려는 소규모 AI/ML 팀에게는 이러한 경로가 적합하지 않습니다.

"기업들은 또한 인간 중심 제품의 모델 편견 및 소비자 개인 정보 보호와 관련된 윤리적 문제와 씨름하고 있습니다. 차세대 컴퓨터 비전을 구축하려면 새로운 패러다임이 필요하다는 것은 분명합니다."라고 Behzadi 회사의 CEO이자 설립자인 Yashar 말 언론에 말했습니다.

합성 데이터는 시작하기 위해 시드에 의존하지만 실제 생활에서 포착하기 어렵거나 위험한 극단적인 사례에서 AI/ML 애플리케이션을 훈련하는 데 도움이 되도록 조정하고 수정할 수 있습니다. 자율주행차를 개발하는 회사들은 트럭 뒤에 숨겨진 정지 신호나 도로를 질주하는 두 대의 자동차 사이에 서 있는 보행자 등 부분적으로만 보이는 물체나 사람을 잘 식별할 수 있기를 바라고 있습니다.

이러한 성공을 감안할 때, 그리고 편향을 합성 데이터로 인코딩하는 닭과 달걀 문제에 대한 일부 우려에도 불구하고 Gartner는 2024년까지 데이터의 60%가 합성으로 생성될 것으로 예측합니다. 그들은 기반이 되는 과거 데이터가 관련성을 잃거나 과거 경험에 기반한 가정이 무너지면 새로운 데이터의 대부분이 예측 모델을 수정하는 데 중점을 둘 것이라고 예측합니다.

하지만 항상 수집해야 할 일부실제 데이터가 있기 때문에 보편적이고 편견 없는 자아의 아바타에 의해 우리가 완전히 쓸모없게 되려면 아직 갈 길이 멀습니다.

위 내용은 합성 데이터가 AI/ML 훈련의 미래를 주도할 것인가?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7530

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

데비안 메일 서버 방화벽 구성 팁 Apr 13, 2025 am 11:42 AM

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

데비안 아파치 로그 레벨을 설정하는 방법 Apr 13, 2025 am 08:33 AM

이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

Debian Readdir의 성능을 최적화하는 방법 Apr 13, 2025 am 08:48 AM

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

데비안 메일 서버 SSL 인증서 설치 방법 Apr 13, 2025 am 11:39 AM

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

Debian Readdir의 파일 정렬을 구현하는 방법 Apr 13, 2025 am 09:06 AM

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

Debian OpenSSL을 사용하여 디지털 서명 검증을 수행하는 방법 Apr 13, 2025 am 11:09 AM

Debian 시스템에서 Digital Signature Verification에 OpenSSL을 사용하면 다음을 수행 할 수 있습니다. OpenSSL 설치 준비 : Debian 시스템이 OpenSSL이 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. Sudoaptupdatesudoaptinstallopenssl 공개 키를 얻으려면 : 디지털 서명 검증에는 서명자의 공개 키가 필요합니다. 일반적으로 공개 키는 public_key.pe와 같은 파일 형태로 제공됩니다.

데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 Apr 13, 2025 am 10:30 AM

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

See all articles

합성 데이터가 AI/ML 훈련의 미래를 주도할 것인가?

그런데 합성 데이터란 무엇입니까?

(무형) 이점

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제