AI 모닝포스트 | 텍스트, 이미지, 오디오, 비디오, 3D가 서로 생성되는 경험이란?-일체 포함-php.cn

집

기술 주변기기

일체 포함

AI 모닝포스트 | 텍스트, 이미지, 오디오, 비디오, 3D가 서로 생성되는 경험이란?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 26, 2023 pm 02:29 PM

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

현지 시간 5월 9일, Meta는 비전(이미지 및 비디오 형식), 온도(적외선 이미지), 텍스트, 오디오, 깊이 정보, 모션 등 6가지 양식을 포괄할 수 있는 새로운 AI 모델 ImageBind의 오픈 소스를 발표했습니다. 판독값(관성 측정 장치 또는 IMU에 의해 생성됨) 현재 관련 소스 코드는 GitHub에 호스팅되어 있습니다.

6가지 모드가 있다는 것은 무엇을 의미하나요?

ImageBind는 비전을 핵심으로 하며 6가지 모드를 자유롭게 이해하고 전환할 수 있습니다. Meta는 개가 짖는 소리를 듣고 개를 그리고 새 이미지 + 파도 소리를 입력하는 등 해당 깊이 맵과 텍스트 설명을 동시에 제공하는 등의 몇 가지 사례를 보여주었습니다. 해변의 새.

텍스트와 이미지를 연결하는 Midjourney, Stable Diffusion 및 DALL-E 2와 같은 이미지 생성기에 비해 ImageBind는 넓은 그물을 캐스팅하는 것과 비슷하며 텍스트, 이미지/비디오, 오디오, 3D 측정(깊이), 온도 데이터(열)을 연결할 수 있습니다. ) 및 모션 데이터(IMU)를 사용하여 인간이 환경을 인식하거나 상상하는 방식과 유사하게 모든 가능성에 대한 사전 교육 없이 데이터 간의 연결을 직접 예측합니다.

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

연구원들은 ImageBind가 대규모 시각적 언어 모델(예: CLIP)을 사용하여 초기화될 수 있으므로 이러한 모델의 풍부한 이미지 및 텍스트 표현을 활용할 수 있다고 말합니다. 따라서 ImageBind는 약간의 교육만으로도 다양한 양식과 작업에 적응할 수 있습니다.

ImageBind는 모든 관련 유형의 데이터로부터 학습하는 다중 모드 AI 시스템을 만들기 위한 Meta의 노력의 일부입니다. 양식의 수가 증가함에 따라 ImageBind는 연구자들이 몰입형 가상 세계를 설계하거나 경험하기 위해 3D 및 IMU 센서를 결합하는 등 새로운 전체적 시스템을 개발할 수 있는 수문을 열어줍니다. 또한 텍스트, 비디오, 이미지의 조합을 사용하여 이미지, 비디오, 오디오 파일 또는 텍스트 정보를 검색함으로써 기억을 탐색할 수 있는 풍부한 방법을 제공합니다.

이 모델은 현재 단지 연구 프로젝트일 뿐이며 직접적인 소비자나 실용적인 응용 프로그램은 없습니다. 하지만 생성 AI가 미래에 어떻게 몰입형 다감각 콘텐츠를 생성할 수 있는지 보여주고 Meta가 OpenAI, Google Wait와 협력하고 있음을 보여줍니다. 경쟁업체가 다른 방법을 채택하고 오픈 소스 대형 모델에 속하는 경로를 찾을 수 있도록 합니다.

궁극적으로 Meta는 ImageBind 기술이 결국 현재의 6가지 '감각'을 초월할 것이라고 믿습니다. 촉각, 음성, 후각, 뇌 fMRI 신호 등을 통해 더욱 풍부한 인간 중심 AI 모델이 가능해집니다. ”

ImageBind의 목적

ChatGPT가 검색 엔진과 Q&A 커뮤니티 역할을 할 수 있고 Midjourney를 그리기 도구로 사용할 수 있다면 ImageBind로 무엇을 할 수 있나요?

공식 데모에 따르면 사진에서 직접 오디오를 생성할 수 있습니다.

오디오에서 사진을 생성할 수도 있습니다:

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

또는 관련 사진이나 오디오 콘텐츠를 검색하려면 문자를 보내세요.

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

오디오를 제공하고 해당 이미지를 생성할 수도 있습니다.

AI早报 | 文本、图像、音视频、3D互相生成是什么体验？

위에서 언급했듯이 ImageBind는 미래의 생성 AI 시스템이 다양한 형식으로 제시되는 동시에 Meta의 내부 가상 현실, 혼합 현실, 메타버스 및 기타 기술 및 시나리오와 결합될 수 있는 방법을 제공합니다. ImageBind와 같은 도구를 사용하면 시각 또는 청각 장애가 있는 사람들이 즉각적인 환경을 더 잘 인식할 수 있도록 실시간 멀티미디어 설명을 생성하는 등 접근 가능한 공간에 새로운 문이 열릴 것입니다.

다중 모드 학습에 대해서는 아직 밝혀야 할 것이 많습니다. 현재 인공지능 분야에서는 더 큰 모델에서만 나타나고 그 적용을 이해하는 스케일링 동작을 효과적으로 정량화하지 못했습니다. ImageBind는 이미지 생성 및 검색을 위한 새로운 애플리케이션을 엄격한 방식으로 평가하고 시연하기 위한 단계입니다.

작가: 발라드

출처: 퍼스트 일렉트릭 네트워크(www.d1ev.com)

위 내용은 AI 모닝포스트 | 텍스트, 이미지, 오디오, 비디오, 3D가 서로 생성되는 경험이란?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7471

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다! Mar 20, 2025 pm 03:34 PM

Vibe Coding은 끝없는 코드 라인 대신 자연 언어를 사용하여 애플리케이션을 생성함으로써 소프트웨어 개발의 세계를 재구성하고 있습니다. Andrej Karpathy와 같은 비전가들로부터 영감을 얻은이 혁신적인 접근 방식은 Dev가

2025 년 2 월 2 일 Genai 출시 : GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

2025 년 2 월은 Generative AI의 또 다른 게임 변화 달이었으며, 가장 기대되는 모델 업그레이드와 획기적인 새로운 기능을 제공합니다. Xai 's Grok 3 및 Anthropic's Claude 3.7 Sonnet, Openai 's G에 이르기까지

물체 감지에 Yolo V12를 사용하는 방법은 무엇입니까? Mar 22, 2025 am 11:07 AM

Yolo (한 번만 보이면)는 주요 실시간 객체 감지 프레임 워크였으며 각 반복은 이전 버전에서 개선되었습니다. 최신 버전 Yolo V12는 정확도를 크게 향상시키는 발전을 소개합니다.

chatgpt 4 o를 사용할 수 있습니까? Mar 28, 2025 pm 05:29 PM

ChatGpt 4는 현재 이용 가능하고 널리 사용되며 ChatGpt 3.5와 같은 전임자와 비교하여 상황을 이해하고 일관된 응답을 생성하는 데 상당한 개선을 보여줍니다. 향후 개발에는보다 개인화 된 인터가 포함될 수 있습니다

Google ' S Gencast : Gencast Mini 데모와의 일기 예보 Mar 16, 2025 pm 01:46 PM

Google Deepmind 's Gencast : 일기 예보를위한 혁신적인 AI 일기 예보는 기초 관측에서 정교한 AI 구동 예측으로 이동하여 극적인 변화를 겪었습니다. Google Deepmind의 Gencast, 획기적인

chatgpt보다 어떤 AI가 더 낫습니까? Mar 18, 2025 pm 06:05 PM

이 기사에서는 AI 모델이 Lamda, Llama 및 Grok과 같은 Chatgpt를 능가하는 것에 대해 논의하여 정확성, 이해 및 산업 영향의 장점을 강조합니다. (159 자).

O1 대 GPT-4O : OpenAI의 새로운 모델이 GPT-4O보다 낫습니까? Mar 16, 2025 am 11:47 AM

OpenAi의 O1 : 12 일 선물 Spree는 아직 가장 강력한 모델로 시작합니다. 12 월의 도착은 세계의 일부 지역에서 전 세계적으로 속도가 저하 된 눈송이를 가져 오지만 Openai는 막 시작되었습니다. Sam Altman과 그의 팀은 12 일 선물을 시작하고 있습니다.