의사는 우연히 비밀을 발견합니다. DALL-E 2는 인간이 이해할 수 없지만 문제를 일으키는 데 사용될 수 있는 특정 이미지를 생성할 수 있는 자체 언어를 만들었습니다!-일체 포함-php.cn

DALL·E 2, 이 AI는 실제로 자신만의 비밀 언어를 개발했습니다.

예를 들어 다음 두 가지 매우 이상한 문구는 다음과 같습니다.

Apoploe vesrreaitais(이하 A)
Contarra ccetnxniams luryca tanniounons(이하 C)

(번역 소프트웨어가 충돌하므로 시도해 볼 수 있음) )

그런데 여기는 DALL·E 2 여기는 그림 스타일이 전혀 다릅니다.

A는 "새"를 의미하고 C는 "해충"을 의미한다고 생각합니다.

그래서 DALL·E 2에게 A eat C라는 문장을 먹이면 다음과 같이 열리게 됩니다.

의사는 우연히 비밀을 발견합니다. DALL-E 2는 인간이 이해할 수 없지만 문제를 일으키는 데 사용될 수 있는 특정 이미지를 생성할 수 있는 자체 언어를 만들었습니다!

제작된 사진은 모두 해충을 먹는 새들의 모습입니다.

그리고 DALL·E 2에 "자막과 함께 음식에 대해 토론하는 두 고래"를 생성하도록 요청하면 결과는 다음과 같습니다.

그림의 "Wa ch zod rea", DALL·E 2 It 동의어 사전에서는 "음식"을 의미하는 것으로 밝혀졌습니다!

이 사건이 알려지자 즉시 많은 네티즌들 사이에서 열띤 토론이 벌어졌습니다.

일부 사람들은 이러한 비밀 언어를 사용하면 DALL·E 2의 "금지어 필터"를 우회하여 논란의 여지가 있는 이미지를 생성할 수 있다고 제안하기도 했습니다.

(말썽!)

그렇다면 DALL·E 2의 비법은 무엇일까요?

의외의 발견

이 문제를 발견한 사람은 컴퓨터공학을 전공하는 외국인 박사과정 학생이었습니다.

그는 DALL-E 2 모델이 텍스트와 함께 이미지를 제공해야 할 때 항상 이상한 단어가 있다는 것을 발견했습니다.

예를 들어 "두 농부가 야채에 대해 이야기하고 있고 자막이 있습니다(두 농부가 야채에 대해 이야기하고 있습니다. 자막 포함)"라는 문장을 입력하면 다음과 같은 이미지가 나옵니다.

꽤 비슷한 것 같습니다. , 그런데 자막에는 What's it?(What's it?)이라고 나와 있습니다. 영어도 아니고 프랑스어도 아니네요. 너무 이상해요.

"무엇을 번역하고 계시나요?"

동생은 아이디어가 나서 "Vicootes"라는 단어 중 하나를 설명으로 모델에게 던졌습니다. 예기치 않게 다음과 같은 이미지가 나왔습니다.

무, 호박, 감도 있는데... 비쿠테는 야채를 뜻하는 걸까요?

흥미롭네요.

그런 다음 그는 거품 속에 "Apoploe vesrreaitais"라는 문자열을 DALL-E 2에 던졌고 새 그림이 잔뜩 나타났습니다.

"아 그렇군요. 이 단어는 '새'를 의미하므로 농부들은 새가 야채에 영향을 미친다는 얘기를 하려는 거야?"

DALL-E 2가 사람을 속이는 건 아닌 것 같은데...

"DALL-E 2의 비밀 언어를 알아냈어요!" 동생이 소리쳤고, 이어서 다시 한번 확인해 볼 예정입니다. 이것은 우연이 아닙니다.

방금 언급한 고래가 음식에 대해 토론하는 예에서 소년은 "Wa ch zod rea"라는 문자열을 다시 입력했습니다.

결국 많은 음식이 나왔는데 모두 고래의 '식습관'과 일치하는 해산물이었습니다.

DALL-E 2, 성실하고 성실합니다.

한 단계 더 나아가 그는 이미지 스타일을 설명하는 단어와 함께 이러한 "주문"을 사용하여 DALL-E 2가 정상적으로 구문 분석할 수 있는지 확인했습니다.

결과도 문제 없습니다. "손으로 그린 새", "만화 새", "3D 새" 및 "선 그리기 새"를 살펴보세요.

emmmm, 지난번에 모기가 어떻게 섞였나요?

지금은 무시하세요(나중에 자세히 설명).

그럼 이 모델은 왜 이런 비밀언어로 표현된 걸까요?

이게 왜요?

'DALL-E 2 비밀 주문'이 화제가 되면서 많은 '애널리스트'들의 관심도 집중되고 있습니다.

예를 들어 k1uge라는 네티즌은 문제가 BPE(바이트 쌍 인코딩)에 있다고 제안했습니다.

BPE는 자연어 처리에서 가장 중요한 코딩 방법 중 하나이며 일반적인 토큰 압축 방법이기도 하며 많은 대규모 언어 모델에 포함됩니다.

핵심 아이디어는 다음과 같습니다.

모든 단계는 가장 일반적인 인접한 데이터 단위 쌍을 데이터에 나타나지 않은 새 단위로 대체하고 중지 조건이 충족될 때까지 반복적으로 반복합니다.

예를 들어보세요.

"aaabdaaabac"이라는 단어를 압축하려는 경우 BPE는 먼저 가장 일반적인 인접 바이트 쌍인 "aa"를 찾습니다.

찾은 후 새 바이트 Z로 바꾸면 단어가 "ZabdZabac"이 됩니다.

마찬가지로, 다음으로 가장 일반적인 인접 바이트 쌍은 "ab"입니다. 이를 Y로 바꾸면 단어가 "ZYdZYac"로 추가로 압축됩니다.

다음으로 가장 일반적인 인접 바이트 쌍은 "ZY"이며 이를 X로 바꾸고 마지막 단어는 "XdXac"가 됩니다.

...

그래서 이 네티즌은 이 원칙에 따라 DALL-E 2가 '새'에 사용하는 BPE를 확인했습니다.

다음과 같습니다:

apo<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> plo<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> e<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> <span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span>ve<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> sr<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> re<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> ait<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">,</span> ais

로그인 후 복사

실제로 많은 새의 라틴어 문학 이름에는 "apo"와 "plo"라는 접두사가 있습니다.

예를 들어 Apodidae(빠른새)와 Ploceidae(위버 새)는 이 두 단어가 2개의 새과에 속하며 각 과는 100종이 넘습니다.

Apodiformes(Swifts)는 새 중에서 가장 큰 목으로 총 400종이 넘습니다.

그래서 이 네티즌은 DALL-E 2가 이러한 '학문 용어'가 태그된 사진에서 새에 대한 대부분의 정보를 얻었다고 믿었습니다.

아마 이것이 DALL-E 2의 비밀 주문의 이유일 것입니다.

그러나 상황은 반전되었습니다

흥분한 의사는 이 문제에 대해 작은 논문을 작성하고 이러한 결과를 트위터에 게시하여 수천 명의 네티즌이 시청하게 되었고 모두가 "놀랍다"고 말했습니다.

그러나 곧 누군가가 직접 시도해 보고 상황이 그렇게 간단하지 않다는 것을 알게 되었습니다.

예를 들어, "벌레"를 나타내는 문자열 "Contarra ccetnxniams luryca tanniounons"는 벌레 외에 개구리, 소, 비둘기의 이미지도 생성합니다.

이 설명에 "만화"라는 단어를 한정어로 추가하면 곤충과 관련이없는 "할머니"가 생성됩니까? ?

"Apoploe vesrreaitais"는 문제가 되지 않습니다. 아직 새들이 나오고 있습니다.

하지만 또 "만화", "3D 렌더링" 같은 단어를 추가하면 또 뭔가 문제가 생기고 버그도 나오기 마련입니다.

(이것도 지난번 예시에서 등장한 모기에 해당합니다.)

채소를 대표하는 "Vicootes"도 마찬가지입니다. 스타일 제한만 추가하면 등장하는 종은 문제가 되지 않습니다. ; 기본적으로는 "유화"와 "만화"의 스타일 설정만 따르며 이전 명사 정의와는 아무런 관련이 없다고 할 수 있습니다. 예를 들어 "Vicootes" + "painting"은 순수한 풍경화 한 묶음.

그런 다음 그는 동일한 "두 마리의 고래가 음식에 대해 이야기하는 자막 포함"을 사용하여 몇 장의 사진을 생성했지만 결과적으로 대부분의 텍스트가 불분명하여 전사할 수 없었습니다.

마침내 다음과 같은 것을 발견했습니다:

위의 "Evve waeles"를 사용하여 다시 입장한 후 디저트 사진을 받았지만 운동 선수, 동물, 심지어 주전자 사진도 많이 나왔습니다.

정말 혼란스럽습니다.

그래서 실험자는 이렇게 말했습니다.

제 생각에는 이것은 DALL-E 2의 비밀 언어라기보다는 무작위 소음에 더 가깝습니다.

그는 반대 증거를 제시할 수 있기를 바라면서 의사를 좋아했습니다.

아직 답변이 없습니다.

그러나 이것은 실제로 관심과 토론의 가치가 있는 주제입니다. 일부 "주문"과 이미지가 일치할 수 있다는 점을 고려하면 이것이 실제로 BPE 코드라면 의사가 다음과 같이 말한 것이 가능합니다.

누군가가 "화이트 박스" 방법을 사용하여 이 규칙을 풀고 금지된 단어의 "주문"을 얻으면 모델의 필터를 우회할 수 있습니다.

참조 링크:

[1]https://twitter.com/giannis_daras/status/1531693093040230402

[2]https://twitter.com/BarneyFlames/status/1531736708903051265

[3]https ://twitter.com/benjamin_hilton/status/1531780892972175361

[4]https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

[5]https://zhuanlan.zhihu.com/p/424631681

위 내용은 의사는 우연히 비밀을 발견합니다. DALL-E 2는 인간이 이해할 수 없지만 문제를 일으키는 데 사용될 수 있는 특정 이미지를 생성할 수 있는 자체 언어를 만들었습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!