희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?
사진을 찍고 문자 명령을 입력하면 휴대폰이 자동으로 사진 수정을 시작하나요?
이 마법의 기능은 Apple의 새로운 오픈 소스 이미지 편집 도구 “MGIE”에서 제공됩니다.
백그라운드에서 사람 제거
테이블에 피자 추가
최근 AI는 사진 편집 분야에서 상당한 발전을 이루었습니다. 한편, AI는 MLLM(다중 모드 대형 모델)을 통해 이미지를 입력으로 받아 시각적 인식 반응을 제공함으로써 보다 자연스러운 사진 편집을 달성할 수 있습니다. 반면, 지시 기반 편집 기술은 편집 과정이 더 이상 상세한 설명이나 영역 마스크에 의존하지 않고, 사용자가 편집 방법과 목표를 표현하기 위해 직접 지시를 내릴 수 있게 해줍니다. 이 방법은 인간의 직관적인 방법에 더 가깝기 때문에 매우 실용적입니다. 이러한 혁신적인 기술을 통해 AI는 점차 사진 편집 분야에서 사람들의 오른팔 보조자가 되어가고 있습니다.
위 기술에서 영감을 받아 Apple은 MLLM을 사용하여 지침 안내가 부족한 문제를 해결하는 MGIE(MLLM-Guided Image Editing)를 제안했습니다.
- 논문 제목: 다중 모드 대형 언어 모델을 통한 지침 기반 이미지 편집 안내
- 논문 링크: https://openreview.net/pdf?id=S1RKWSyZ2Y
- 프로젝트 홈페이지: https ://mllm-ie.github.io/
MGIE(Mind-Guided Image Editing)는 그림 2와 같이 MLLM(Mind-Language Linking Model)과 확산 모델로 구성됩니다. MLLM은 간결한 표현 지침을 습득하는 방법을 학습하고 명확하고 시각적으로 관련 있는 지침을 제공합니다. 확산 모델은 의도한 대상의 잠재 상상력을 사용하여 이미지 편집을 수행하고 엔드투엔드 학습을 통해 동기적으로 업데이트됩니다. 이러한 방식으로 MGIE는 고유한 시각적 파생의 이점을 활용하고 모호한 인간 지시를 해결하여 합리적인 편집을 달성할 수 있습니다.
사람의 지시에 따라 MGIE는 Photoshop 스타일 수정, 전역 사진 최적화 및 로컬 개체 수정을 수행할 수 있습니다. 아래 사진을 예로 들면, 추가적인 맥락 없이 "건강"의 의미를 포착하기는 어렵지만 MGIE는 "야채 토핑"을 피자와 정확하게 연관시키고 인간의 기대에 따라 편집할 수 있습니다.
이것은 Cook이 얼마 전 실적 발표에서 표현한 "야망"을 생각나게 합니다. “Apple이 생성 AI 분야에서 엄청난 기회를 갖고 있다고 생각하지만 더 이상 이야기하고 싶지 않습니다. 그가 공개한 정보에는 Apple이 생성 AI 소프트웨어 기능을 적극적으로 개발하고 있으며 이러한 기능은 2024년 후반에 고객에게 제공될 것이라는 내용이 포함되어 있습니다.
Apple이 최근 발표한 일련의 생성적 AI 이론 연구 결과와 합쳐서 Apple이 다음에 출시할 새로운 AI 기능이 기대되는 것 같습니다.
논문 상세
본 연구에서 제안하는 MGIE 방법은 주어진 명령어 X를 통해 입력 영상 V를 목표 영상으로 편집할 수 있다. 이러한 부정확한 지침에 대해 MGIE의 MLLM은 간결한 표현 지침 ε을 얻기 위해 학습 파생을 수행합니다. 언어와 시각적 양식 사이의 연결을 구축하기 위해 연구원들은 ε 뒤에 특수 토큰 [IMG]를 추가하고 편집 헤드(edit head)
를 사용하여 변환했습니다. 변환된 정보는 MLLM의 기본 시각적 상상의 역할을 하여 확산 모델이 원하는 편집 목표를 달성하도록 안내합니다. 그런 다음 MGIE는 시각적으로 인식되는 퍼지 명령을 이해하여 합리적인 이미지 편집을 수행할 수 있습니다(아키텍처 다이어그램은 위의 그림 2에 표시됨).
MLLM은 기능 정렬 및 지침 조정을 통해 모달 인식 전반에 걸쳐 시각적으로 관련 있는 응답을 제공할 수 있습니다. 이미지 편집의 경우 이미지에 대한 언어 입력으로 "[지시]하면 이 이미지는 어떻게 될까요?"라는 프롬프트를 사용하고 편집 명령에 대한 자세한 설명을 도출합니다. 그러나 이러한 설명은 너무 길어서 사용자의 의도를 오해하는 경우가 많습니다. 보다 간결한 설명을 얻기 위해 이 연구에서는 사전 학습된 요약기를 적용하여 MLLM이 요약 출력을 생성하는 방법을 학습할 수 있도록 합니다. 이 과정은 다음과 같이 요약할 수 있습니다.
본 연구에서는 편집 헤드
를 사용하여 [IMG]를 실제 시각적 지침으로 변환합니다. 여기서 는 MLLM의 연속 시각적 토큰을 의미상 의미 있는 잠재 U = {u_1, u_2, ..., u_L}에 매핑하고 편집 가이드 역할을 하는 시퀀스-시퀀스 모델입니다.
시각적 상상력 U를 통해 이미지 편집을 안내하는 과정을 달성하기 위해 본 연구에서는 VAE(변형 자동 인코더)를 포함하면서 잠재 공간의 노이즈 제거 확산 문제를 해결할 수도 있는 확산 모델
의 사용을 고려합니다.
알고리즘 1은 MGIE 학습 과정을 보여줍니다. MLLM은 명령어 손실 L_ins를 통해 컴팩트 명령어 ε를 도출합니다. [IMG]의 기본 상상력을 바탕으로
양식을 변형하고 결과 이미지를 합성하도록 안내합니다. 편집 손실 L_edit은 확산 훈련에 사용됩니다. 대부분의 가중치는 고정될 수 있으므로(MLLM 내의 self-attention 블록) 매개변수 효율적인 엔드투엔드 훈련이 달성됩니다.
실험적 평가
입력 이미지의 경우 동일한 지침에 따라 여러 방법을 비교합니다. 예를 들어 지침의 첫 번째 줄은 "낮을 밤으로 바꾸십시오"입니다.
표 1은 IPr2Pr 데이터세트로만 훈련된 모델의 제로샷 편집 결과를 보여줍니다. Photoshop 스타일 수정이 포함된 EVR 및 GIER의 경우 편집 결과는 부트스트래핑 의도에 더 가깝습니다(예: LGIE는 EVR에서 더 높은 CVS 82.0을 달성했습니다). MA5k의 전역 이미지 최적화를 위해 InsPix2Pix는 관련 훈련 트리플이 부족하기 때문에 다루기 어렵습니다. LGIE와 MGIE는 LLM 학습을 통해 자세한 설명을 제공할 수 있지만 LGIE는 여전히 단일 양식에 국한됩니다. 이미지에 액세스함으로써 MGIE는 어떤 영역을 밝게 해야 하는지, 어떤 물체를 더 선명하게 해야 하는지와 같은 명시적인 지침을 도출할 수 있으며 결과적으로 성능이 크게 향상됩니다(예: 더 높은 66.3 SSIM 및 더 낮은 0.3 사진 거리). MagicBrush에서도 유사한 결과가 발견되었습니다. MGIE는 또한 정확한 시각적 이미지와 지정된 대상을 대상으로 수정하여 최고의 성능을 얻습니다(예: 더 높은 82.2 DINO 시각적 유사성 및 더 높은 30.4 CTS 전역 자막 정렬). 특정 목적을 위한 지침 기반 이미지 편집을 연구하기 위해 표 2는 각 데이터 세트의 모델을 미세 조정합니다. EVR 및 GIER의 경우 모든 모델이 Photoshop 스타일 편집 작업에 맞게 개선되었습니다. MGIE는 편집의 모든 측면에서 LGIE를 지속적으로 능가합니다. 이는 또한 표현 지침을 사용한 학습이 이미지 편집을 효과적으로 향상시킬 수 있으며 시각적 인식이 최대 향상을 위한 명시적인 지침을 얻는 데 중요한 역할을 한다는 것을 보여줍니다. α_X와 α_V 간의 절충. 이미지 편집에는 두 가지 목표가 있습니다. 즉, 대상을 명령으로 조작하고 입력 이미지의 나머지 부분을 유지하는 것입니다. 그림 3은 명령(α_X)과 입력 일관성(α_V) 사이의 균형 곡선을 보여줍니다. 본 연구에서는 α_X를 7.5로 고정하였고 α_V는 [1.0, 2.2] 범위에서 변화하였다. α_V가 클수록 편집 결과는 입력과 유사하지만 명령과의 일관성은 떨어집니다. X축은 CLIP 방향 유사성, 즉 편집 결과가 명령과 얼마나 일치하는지를 계산하고, Y축은 CLIP 시각적 인코더와 입력 이미지 간의 특징 유사성을 계산합니다. 특정 표현 지침을 사용하면 실험이 모든 설정에서 InsPix2Pix보다 성능이 뛰어납니다. 또한 MGIE는 명시적이고 시각적으로 관련 있는 지침을 통해 학습하여 전반적인 개선을 달성할 수 있습니다. 이는 더 큰 입력 또는 편집 관련성이 필요한지 여부에 관계없이 강력한 개선을 지원합니다. 절제 연구 또한 연구원들은 명령 표현에 있어 서로 다른 아키텍처인 FZ, FT 및 E2E의 성능을 고려하기 위해 절제 실험도 수행했습니다. 결과에 따르면 MGIE는 FZ, FT, E2E에서 지속적으로 LGIE를 능가하는 것으로 나타났습니다. 이는 중요한 시각적 인식을 갖춘 표현 지침이 모든 절제 설정에서 일관된 이점을 갖는다는 것을 의미합니다. MLLM 부트스트래핑이 왜 유용한가요? 그림 5는 입력 또는 실측 대상 이미지와 표현 명령 간의 CLIP-Score 값을 보여줍니다. 입력 이미지의 CLIP-S 점수가 높을수록 지침이 편집 소스와 관련이 있음을 나타내고, 대상 이미지와의 정렬이 향상되어 명확하고 관련성이 높은 편집 지침을 제공합니다. 표시된 것처럼 MGIE는 입력/목표와 더 일치하며, 이는 표현 지침이 유용한 이유를 설명합니다. 예상 결과에 대한 명확한 설명을 통해 MGIE는 이미지 편집에서 가장 큰 개선을 이룰 수 있습니다. 인간의 평가. 연구진은 자동 지표 외에도 수동 평가도 수행했습니다. 그림 6은 생성된 표현 명령어의 품질을 보여주며, 그림 7은 InsPix2Pix, LGIE, MGIE의 이미지 편집 결과를 명령어 추종, 실측 관련성, 전반적인 품질 측면에서 비교합니다. 추론 효율성. MGIE는 이미지 편집을 위해 MLLM을 사용하지만 간결한 표현 지침(토큰 32개 미만)만 도입하므로 효율성은 InsPix2Pix와 비슷합니다. 표 4에는 NVIDIA A100 GPU의 추론 시간 비용이 나열되어 있습니다. 단일 입력의 경우 MGIE는 10초 안에 편집 작업을 완료할 수 있습니다. 데이터 병렬 처리가 많을수록 필요한 시간은 비슷합니다(배치 크기 8에서 37초). 단 하나의 GPU(40GB)로 전체 프로세스를 완료할 수 있습니다. 질적 비교. 그림 8은 사용된 모든 데이터 세트를 시각적으로 비교한 것이며 그림 9는 LGIE 또는 MGIE의 표현 명령을 추가로 비교한 것입니다. 프로젝트 홈페이지에서 연구원은 더 많은 데모도 제공합니다(https://mllm-ie.github.io/). 보다 자세한 연구 내용은 원문을 참고하시기 바랍니다.
위 내용은 희귀한! Apple의 오픈소스 이미지 편집 도구인 MGIE, iPhone에서도 사용할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











SQL에서 열을 추가하기위한 구문은 Alter Table_Name ADD CORMEN_NAME DATY_TYPE [NOT NULL] [DEFAULT DEFAULT_VALUE]; 여기서 table_name은 테이블 이름이고 column_name은 새 열 이름, data_type는 데이터 유형이며 NULL은 NULL 값이 허용되는지 여부를 지정하고 기본값 기본값을 지정합니다.

SQL 테이블 개선 성능을 개선하기위한 팁 : 삭제 대신 Truncate 테이블을 사용하고 공간을 확보하고 ID 열을 재설정하십시오. 계단식 삭제를 방지하기 위해 외국의 주요 제약 조건을 비활성화하십시오. 트랜잭션 캡슐화 작업을 사용하여 데이터 일관성을 보장합니다. 배치는 빅 데이터를 삭제하고 한계를 통해 행 수를 제한합니다. 쿼리 효율성을 향상시키기 위해 지우고 지수를 재구성하십시오.

새로 추가 된 열에 대한 기본값을 설정하고 Alter Table 문을 사용하십시오. 문 : 열 추가를 지정하고 기본값을 설정하십시오. Alter Table_Name Add Column_name Data_Type Default_value; 구속 조건 조항을 사용하여 기본값을 지정하십시오. ALTER TABLE TABLE_NAME CORMENT CORMEN_NAME DATA DATA DATA DATA DATA DATA DATA DATAY_TYPE 제한 DEFAULT_COSSTRANT DEFAULT DEFAULT_VALUE;

예, 삭제 명령문은 SQL 테이블을 지우는 데 사용될 수 있습니다. 단계는 다음과 같습니다. 삭제 명령문 사용 : table_name에서 삭제; TABLE_NAME을 제거 할 테이블 이름으로 바꾸십시오.

phpmyadmin을 사용하여 데이터 테이블을 만들려면 다음 단계가 필수적입니다. 데이터베이스에 연결하고 새 탭을 클릭하십시오. 테이블의 이름을 지정하고 저장 엔진을 선택하십시오 (InnoDB 권장). 열 이름, 데이터 유형, NULL 값 허용 여부 및 기타 속성을 포함하여 열 추가 버튼을 클릭하여 열 디테일을 추가하십시오. 기본 키로 하나 이상의 열을 선택하십시오. 저장 버튼을 클릭하여 테이블과 열을 만듭니다.

Redis 메모리 조각화는 할당 된 메모리에 재 할당 할 수없는 작은 자유 영역의 존재를 말합니다. 대처 전략에는 다음이 포함됩니다. REDIS를 다시 시작하십시오 : 메모리를 완전히 지우지 만 인터럽트 서비스. 데이터 구조 최적화 : Redis에 더 적합한 구조를 사용하여 메모리 할당 및 릴리스 수를 줄입니다. 구성 매개 변수 조정 : 정책을 사용하여 최근에 가장 적게 사용 된 키 값 쌍을 제거하십시오. 지속 메커니즘 사용 : 데이터를 정기적으로 백업하고 Redis를 다시 시작하여 조각을 정리하십시오. 메모리 사용 모니터링 : 적시에 문제를 발견하고 조치를 취하십시오.

Oracle 데이터베이스를 만드는 것은 쉽지 않으므로 기본 메커니즘을 이해해야합니다. 1. 데이터베이스 및 Oracle DBMS의 개념을 이해해야합니다. 2. SID, CDB (컨테이너 데이터베이스), PDB (Pluggable Database)와 같은 핵심 개념을 마스터합니다. 3. SQL*Plus를 사용하여 CDB를 생성 한 다음 PDB를 만들려면 크기, 데이터 파일 수 및 경로와 같은 매개 변수를 지정해야합니다. 4. 고급 응용 프로그램은 문자 세트, 메모리 및 기타 매개 변수를 조정하고 성능 튜닝을 수행해야합니다. 5. 디스크 공간, 권한 및 매개 변수 설정에주의를 기울이고 데이터베이스 성능을 지속적으로 모니터링하고 최적화하십시오. 그것을 능숙하게 마스터 함으로써만 지속적인 연습이 필요합니다. Oracle 데이터베이스의 생성 및 관리를 진정으로 이해할 수 있습니다.

Oracle 데이터베이스를 만들려면 일반적인 방법은 DBCA 그래픽 도구를 사용하는 것입니다. 단계는 다음과 같습니다. 1. DBCA 도구를 사용하여 데이터베이스 이름을 지정하기 위해 DBNAME을 설정하십시오. 2. SySpassword 및 SystemPassword를 강력한 암호로 설정하십시오. 3. Al32UTF8로 문자 세트 및 NationalCharacterset을 세트; 4. 실제 요구에 따라 조정하도록 메모리 크기 및 테이블 스페이스 크기를 설정하십시오. 5. 로그 파일 경로를 지정하십시오. 고급 메소드는 SQL 명령을 사용하여 수동으로 생성되지만 더 복잡하고 오류가 발생하기 쉽습니다. 비밀번호 강도, 문자 세트 선택, 테이블 스페이스 크기 및 메모리에주의하십시오.
