하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.-일체 포함-php.cn

DALL-E 2에 다른 문제가 있나요?

집

기술 주변기기

일체 포함

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 pm 05:40 PM

ai 영상 연구

DALL-E 2가 처음 출시되었을 때 생성된 그림은 입력된 텍스트를 거의 완벽하게 재현할 수 있었습니다. 고해상도와 강력한 그림 상상력도 여러 네티즌들 사이에서 "너무 멋지다"라는 평가를 불러일으켰습니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

그러나 최근 하버드 대학교의 새로운 연구 논문에 따르면 DALL-E 2가 생성한 이미지는 훌륭하지만 텍스트를 표현하는 것조차 없이 텍스트의 여러 개체를 서로 붙일 수 있다는 사실이 밝혀졌습니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

문서 링크: https://arxiv.org/pdf/2208.00005.pdf

데이터 링크: https://osf.io/sm68h/

예를 들어 텍스트 프롬프트는 "A cup"으로 제공됩니다. on a 숟가락"을 보면 DALL-E 2에서 생성된 이미지 중 일부 이미지가 "on" 관계를 만족하지 않는 것을 볼 수 있습니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

그러나 훈련 세트에서 DALL-E 2가 볼 수 있는 찻잔과 숟가락의 조합은 모두 "in"인 반면 "on"은 비교적 드물기 때문에 두 관계를 생성하는 정확도는 동일하지 않습니다. . 동일하지 않습니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

그래서 DALL-E 2가 실제로 텍스트의 의미 관계를 이해할 수 있는지 알아보기 위해 연구진은 15가지 유형의 관계를 선택했으며, 그 중 in, on, under를 포함한 공간적 관계(물리적 관계) 8개를 선택했습니다. , 덮다, 가까이, 막다, 매달리고 묶다; 밀기, 당기기, 만지기, 때리기, 발로 차기, 돕기, 숨기기 등 7가지 행위 관계

텍스트에 설정된 엔터티는 12개로 제한되며 모두 선택됩니다. 각 데이터 세트의 단순하고 일반적인 항목, 즉 상자, 원통, 담요, 그릇, 찻잔, 칼; 남자, 여자, 어린이, 로봇, 원숭이 및 이구아나.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

각 클래스 관계에 대해 무작위로 5개의 프롬프트를 만듭니다. 매번 교체할 엔터티 2개를 선택하고 마지막으로 75개의 텍스트 프롬프트를 생성합니다. DALL-E 2 렌더링 엔진에 제출한 후 생성된 처음 18개의 이미지가 선택되어 1350개의 이미지가 생성되었습니다.

이후 연구자들은 상식추론 테스트를 통해 주석자 180명 중 169명을 선정하여 주석 과정에 참여하게 했습니다.

실험 결과 DALL-E 2에서 생성된 이미지와 이미지를 생성하는 데 사용된 텍스트 프롬프트 간의 평균 일관성은 75개의 프롬프트 중 22.2%에 불과한 것으로 나타났습니다

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

그러나 DALL-E 2가 무엇인지 말하기는 어렵습니다. 텍스트의 관계가 실제로 "이해"되었는지 여부는 주석자의 일관성 점수와 0%, 25% 및 50%의 합의 임계값을 기반으로 각 관계의 Holm 수정 단일 표본 유의성을 관찰하여 결정됩니다. 테스트에서는 15개 관계 모두에 대한 참가자 동의율이 α = 0.95(pHolm

따라서 다중 비교를 수정하지 않더라도 DALL-E 2에서 생성된 이미지는 텍스트에 있는 두 개체 간의 관계를 이해하지 못하는 것이 사실입니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

결과는 또한 관련되지 않은 두 개체를 연결하는 DALL-E의 능력이 상상만큼 강력하지 않을 수 있음을 보여줍니다. 예를 들어, "그릇을 만지는 아이"의 일관성은 87%에 달했습니다. 이미지, 어린이, 그릇이 꽤 자주 함께 등장합니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

그러나 "감동적인 원숭이와 이구아나"로 생성된 이미지의 최종 일관성 비율은 11%에 불과하며 렌더링된 이미지에는 종 오류가 있을 수도 있습니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

따라서 DALL-E 2의 일부 이미지 카테고리는 어린이, 음식 등 비교적 잘 발달되어 있지만 일부 데이터 카테고리는 여전히 지속적인 훈련이 필요합니다.

그러나 현재 DALL-E 2는 여전히 공식 웹사이트에서 주로 고화질과 사실적인 스타일을 보여주고 있습니다. "두 개체를 서로 붙이는 것"인지, 아니면 이미지를 생성하기 전에 텍스트 정보를 실제로 이해하고 있는지는 아직 확실하지 않습니다. .

연구원들은 관계형 이해가 인간 지능의 기본 구성 요소라고 밝혔으며, DALL-E 2의 기본 공간 관계(예: on, of) 성능이 좋지 않다는 것은 DALL-E 2가 아직 인간만큼 유연하고 견고하게 구성하고 구성할 수 없음을 나타냅니다. .세상을 이해하세요.

하지만 네티즌들은 물건을 서로 붙일 수 있는 '접착제'를 개발할 수 있다는 것이 이미 대단한 성과라고 말했습니다! DALL-E 2는 AGI가 아니며 앞으로도 개선의 여지가 많이 있습니다. 적어도 자동으로 이미지를 생성할 수 있는 가능성은 열려 있습니다!

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

DALL-E 2에 다른 문제가 있나요?

실제로 DALL-E 2가 출시되자마자 수많은 실무자들이 장단점에 대한 심도 있는 분석을 진행했습니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

블로그 링크: https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do

GPT-3로 소설을 쓰는 것은 약간 단조롭습니다. DALL -E 2는 텍스트에 대한 일부 일러스트레이션과 긴 텍스트에 대한 만화 스트립을 생성할 수 있습니다.

예를 들어, DALL-E 2는 그림 스타일, 커피숍, 헤드폰 착용, 그리고 노트북 등등

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

그러나 텍스트의 기능 설명에 두 사람이 포함된 경우 DALL-E 2는 어떤 기능이 어떤 사람에게 속하는지 잊어버릴 수 있습니다. 예를 들어 입력 텍스트는 다음과 같습니다.

침대에서 쉬고 있는 어린 검은 머리 소년, 햇빛이 스며드는 창문 아래 침대 옆 의자에 앉아 있는 회색 머리의 나이든 여성, 햇빛이 스며드는 침대 옆 의자에 있는 픽사 스타일의 디지털 아트.

DALL-E 2가 창문, 의자, 침대를 올바르게 생성할 수 있음을 알 수 있지만 생성된 이미지는 연령, 성별, 머리 색깔 특징의 조합으로 인해 약간 혼동됩니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다. 또 다른 예는 "캡틴 아메리카와 아이언맨을 나란히 서게 하는 것"입니다. 생성된 결과는 분명히 캡틴 아메리카와 아이언맨의 특징을 가지고 있지만 특정 요소는 다른 인물(예: 아이언맨)에게 배치되어 있음을 알 수 있습니다. 캡틴 아메리카의 방패를 가진 남자).

전경과 배경이 특히 세밀한 경우 모델이 생성되지 않을 수 있습니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다. 예를 들어, 입력 텍스트는 다음과 같습니다.

로마 군인 복장을 한 두 마리의 개가 해적선에서 망원경을 통해 뉴욕 시를 바라보고 있습니다.

이번에 DALL-E 2는 작동을 멈췄습니다. 저자는 그것을 알아내는 데 30분 정도 걸렸습니다. 결국 그는 "뉴욕시와 해적선" 또는 "망원경을 든 개와" 중 하나를 선택해야 했습니다. 로마 군인 제복" .

Dall-E 2는 도시나 도서관의 책장과 같은 일반적인 배경을 사용하여 이미지를 생성할 수 있지만, 그것이 이미지의 주요 초점이 아닌 경우 더 미세한 디테일을 얻는 것이 매우 어려운 경우가 많습니다.

DALL-E 2는 다양한 멋진 의자와 같은 일반적인 개체를 생성할 수 있지만 "알토 자전거"를 생성하도록 요청하면 결과 그림은 자전거와 다소 유사하지만 정확하지는 않습니다.

그리고 구글 이미지 아래 오토바이시클 검색은 아래와 같습니다.

DALL-E 2도 철자를 쓸 수는 없지만 정지 신호에 STOP을 쓰게 하는 등 완전히 우연히 단어의 철자를 정확하게 쓰는 경우도 있습니다. 하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

모델이 "인식할 수 있는" 영어 문자를 생성하지만, 그러나 연결된 의미는 여전히 예상 단어와 다릅니다. DALL-E 2는 1세대 DALL-E만큼 좋지 않습니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

DALL-E 2는 악기 관련 이미지를 생성할 때 연주할 때 사람 손의 위치를 기억하는 것 같지만, 현이 없으면 연주가 조금 어색합니다.

DALL-E 2는 편집 기능도 제공합니다. 예를 들어 이미지를 생성한 후 커서를 사용하여 해당 영역을 강조 표시하고 수정 사항에 대한 전체 설명을 추가할 수 있습니다. 하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

그러나 이 기능이 항상 효과적인 것은 아닙니다. 예를 들어 원본 이미지에 "짧은 머리"를 추가하려는 경우 편집 기능은 항상 이상한 곳에 무언가를 추가합니다.

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

기술은 지속적으로 업데이트되고 개발되어 DALL-E 3를 기대하고 있습니다!

위 내용은 하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7535

Cakephp 튜토리얼

1379

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

데비안 메일 서버 방화벽 구성 팁 Apr 13, 2025 am 11:42 AM

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Debian Readdir의 파일 정렬을 구현하는 방법 Apr 13, 2025 am 09:06 AM

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

데비안 메일 서버 SSL 인증서 설치 방법 Apr 13, 2025 am 11:39 AM

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

Debian OpenSSL을 사용하여 디지털 서명 검증을 수행하는 방법 Apr 13, 2025 am 11:09 AM

Debian 시스템에서 Digital Signature Verification에 OpenSSL을 사용하면 다음을 수행 할 수 있습니다. OpenSSL 설치 준비 : Debian 시스템이 OpenSSL이 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. Sudoaptupdatesudoaptinstallopenssl 공개 키를 얻으려면 : 디지털 서명 검증에는 서명자의 공개 키가 필요합니다. 일반적으로 공개 키는 public_key.pe와 같은 파일 형태로 제공됩니다.

데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 Apr 13, 2025 am 10:30 AM

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

데비안 하프 로그 관리를 수행하는 방법 Apr 13, 2025 am 10:45 AM

Debian에서 Hadoop 로그 관리하면 다음 단계 및 모범 사례를 따라갈 수 있습니다. 로그 집계 로그 집계 : Yarn-site.xml 파일에서 Ture에서 True로 설정 할 수 있도록 설정 : 로그 집계를 활성화하십시오. 로그 보유 정책 구성 : 172800 초 (2 일)와 같이 로그의 유지 시간을 정의하기 위해 yarn.log-aggregation.retain-seconds를 설정하십시오. 로그 저장 경로를 지정하십시오 : Yarn.n을 통해

Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

See all articles

하버드 대학교가 망했다: DALL-E 2는 단지 '접착제 괴물'일 뿐이며 생성 정확도는 22%에 불과합니다.

DALL-E 2에 다른 문제가 있나요?

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제