이해를 향상시키기 위해 LLM을 사용하는 Peking University와 Stanford의 새로운 오픈 소스 프레임워크인 Pika는 복잡한 프롬프트 단어의 확산 모델에 대한 더 깊은 이해를 제공합니다.-일체 포함-php.cn

이해를 향상시키기 위해 LLM을 사용하는 Peking University와 Stanford의 새로운 오픈 소스 프레임워크인 Pika는 복잡한 프롬프트 단어의 확산 모델에 대한 더 깊은 이해를 제공합니다.

王林

풀어 주다： 2024-01-24 18:33:18

앞으로

626명이 탐색했습니다.

Pika Peking University와 Stanford가 협력하여 오픈 소스최신 텍스트 이미지 생성/편집 프레임워크를 개발했습니다!

추가 교육 없이도 확산 모델은 더 강력하고 신속한 단어 이해 기능을 가질 수 있습니다.

길고 복잡한 프롬프트 단어에 직면하면 정확도가 높아지고 세부 사항이 더 잘 제어되며 생성된 그림이 더 자연스러워집니다.

가장 강력한 이미지 생성 모델인 Dall·E 3 및 SDXL을 능가하는 효과입니다.

예를 들어 사진에는 왼쪽과 오른쪽에 얼음과 불의 두 겹이 있어야 하고, 왼쪽에는 빙산이, 오른쪽에는 화산이 있어야 합니다.

SDXL은 프롬프트 단어 요구 사항을 전혀 충족하지 못했고 Dall·E 3는 화산의 세부 사항을 생성하지 않았습니다.

프롬프트 단어 쌍을 통해 이미지의 2차 편집을 생성할 수도 있습니다.

인터넷에서 뜨거운 논의를 불러일으킨 텍스트-이미지 생성/편집 프레임워크 RPG(Recaption, Plan and Generation)입니다.

북경대학교, 스탠포드, 피카가 공동으로 개발했습니다. 저자에는 북경대학교 컴퓨터과학과의 Cui Bin 교수, Pika의 공동 창업자이자 CTO인 Chenlin Meng 등이 포함되어 있습니다.

현재 프레임워크 코드는 오픈 소스이며 다양한 다중 모드 대형 모델(예: MiniGPT-4) 및 확산 모델 백본 네트워크(예: ControlNet)와 호환됩니다.

향상을 위해 다중 모드 대형 모델 사용

오랫동안 확산 모델은 복잡한 프롬프트 단어를 이해하는 데 상대적으로 약했습니다.

기존의 일부 개선 방법은 결국 충분한 결과를 얻지 못하거나 추가 교육이 필요합니다.

따라서 연구팀은 다중 모드 대형 모델의 이해 능력을 활용하여 확산 모델의 조합 및 제어 가능성을 향상시킵니다.

프레임워크 이름에서 알 수 있듯이 모델이 "재설명, 계획 및 생성"을 수행할 수 있습니다.

이 방법의 핵심 전략에는 세 가지 측면이 있습니다.

1. 다중 모드 재구성: 대규모 모델을 사용하여 복잡한 텍스트 프롬프트를 여러 하위 프롬프트로 분해하고 각 하위 프롬프트를 업데이트하여 개선합니다. 즉각적인 단어를 이해하는 확산 모델의 능력.

2. Chain-of-Thought Planning(사고 사슬 계획): 다중 모드 대형 모델의 사고 사슬 추론 기능을 활용하여 이미지 공간을 보완적인 하위 영역으로 나누고 다른 하위 영역과 일치시킵니다. - 각 하위 영역에 대한 프롬프트를 표시하고 복잡한 생성 작업을 여러 개의 간단한 생성 작업으로 분해합니다.

3. 공간을 분할한 후 겹치지 않는 영역은 하위 프롬프트를 기반으로 이미지를 생성한 후 접합합니다.

마지막으로 프롬프트 단어 요구 사항을 더 잘 충족하는 그림이 생성됩니다.

RPG 프레임워크는 이미지 생성을 위해 자세, 깊이 및 기타 정보를 사용할 수도 있습니다.

ControlNet과 비교하여 RPG는 입력 프롬프트 단어를 더욱 분할할 수 있습니다.

사용자 입력: 밝은 방 안에 샴페인색 긴팔 예복을 입은 아름다운 검은 머리 소녀가 눈을 감고 서 있었습니다. 방 왼쪽에는 분홍색 장미가 담긴 섬세한 파란색 꽃병이 있고 오른쪽에는 생동감 넘치는 흰색 장미가 놓여 있습니다.

기본 프롬프트 단어: 아름다운 소녀가 밝은 방에 서 있습니다.

Area 0: 핑크색 장미가 가득한 섬세한 파란색 꽃병

Area 1: 눈을 감고 샴페인색 긴팔 정장을 입은 아름다운 갈색 머리 소녀.

지역 2: 생동감 넘치는 흰색 장미.

폐쇄 루프 이미지 생성 및 편집도 가능합니다.

실험적 비교에 따르면 RPG는 색상, 모양, 공간, 텍스트 정확도 등의 측면에서 다른 이미지 생성 모델을 능가합니다.

연구팀

이 연구에는 북경대학교 출신의 Ling Yang과 Zhaochen Yu라는 두 명의 공동 저자가 있습니다.

참여 저자로는 AI 스타트업 Pika의 공동 창업자이자 CTO인 Chenlin Meng이 있습니다.

그녀는 스탠포드에서 컴퓨터 과학 박사 학위를 취득했으며 컴퓨터 비전 및 3D 비전 분야에서 풍부한 학문적 경험을 갖고 있습니다. 그녀는 현재 단일 기사에서 1,700회 이상 인용되는 Denoising Diffusion Implicit Model(DDIM) 논문에 참여했습니다. 그는 ICLR, NeurIPS, CVPR, ICML 등 주요 학회에서 생성적 AI 관련 연구 논문을 다수 발표했으며, 그 중 다수가 Oral에 선정되었습니다.

지난해 피카는 AI 영상세대 제품 피카 1.0으로 단숨에 히트를 쳤다. 스탠포드 출신 중국인 여성 박사 2명이 창업한 배경이 더욱 눈길을 끈다.

Δ왼쪽이 Guo Wenjing(Pika CEO), 오른쪽이 Chenlin Meng

또한 연구에 참여하고 있는 북경대학교 컴퓨터과학과 부학장인 Cui Bin 교수 또한 데이터 과학 및 엔지니어링 연구소의 소장이기도 합니다.

이번 연구에는 스탠포드 AI 연구소의 Minkai Xu 박사와 스탠포드 조교수인 Stefano Ermon도 공동으로 참여했습니다.

페이퍼 주소: https://arxiv.org/abs/2401.11708

코드 주소: https://github.com/YangLing0818/RPG-DiffusionMaster

위 내용은 이해를 향상시키기 위해 LLM을 사용하는 Peking University와 Stanford의 새로운 오픈 소스 프레임워크인 Pika는 복잡한 프롬프트 단어의 확산 모델에 대한 더 깊은 이해를 제공합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!