목차
방법 소개
실험 결과
기술 주변기기 일체 포함 ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

Apr 12, 2023 pm 09:04 PM
기술 연구

최근 심층 생성 모델은 LAION과 같은 대규모 웹 데이터 세트에 대한 심층 생성 모델의 확장으로 인해 텍스트 프롬프트에서 고품질 이미지를 생성하는 데 놀라운 성공을 거두었습니다. 그러나 대규모 텍스트-이미지 모델이 텍스트 프롬프트와 완벽하게 일치하는 이미지를 생성하지 못하는 몇 가지 중요한 과제가 남아 있습니다. 예를 들어, 현재의 텍스트-이미지 모델은 신뢰할 수 있는 시각적 텍스트를 생성하지 못하고 결합된 이미지 생성에 어려움을 겪는 경우가 많습니다.

언어 모델링 분야에서 인간의 피드백을 통해 학습하는 것은 "모델 동작을 인간의 의도에 맞추는" 강력한 솔루션이 되었습니다. 이러한 유형의 방법은 먼저 모델 출력에 대한 인간의 피드백을 통해 인간이 작업에 관심을 갖는 것을 반영하도록 설계된 보상 함수를 학습한 다음 강화 학습 알고리즘(예: 근위 정책 최적화 PPO)을 통해 학습된 보상 함수를 사용하여 언어를 최적화합니다. 모델. 인간 피드백 프레임워크(RLHF)를 사용한 이 강화 학습은 대규모 언어 모델(예: GPT-3)과 정교한 인간 품질 평가를 성공적으로 결합했습니다.

최근 언어 분야에서 RLHF의 성공에 영감을 받아 Google Research와 캘리포니아 버클리의 연구원들은 인간의 피드백을 사용하여 텍스트를 이미지 모델에 정렬하는 미세 조정 방법을 제안했습니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

논문주소 : https://arxiv.org/pdf/2302.12192v1.pdf

본 글의 방법은 아래 그림 1과 같으며 크게 3가지로 나누어진다. 단계.

1단계: 먼저 "이미지 모델 출력에 대한 텍스트 정렬을 테스트하도록 설계된" 텍스트 프롬프트 세트에서 다양한 이미지를 생성합니다. 특히 사전 훈련된 모델에서 오류가 발생하기 쉬운 프롬프트를 검사합니다. 즉, 특정 색상, 숫자, 배경을 가진 객체를 생성한 다음 모델의 출력을 평가하는 데 사용되는 이진 인간 피드백을 수집합니다.

2단계: 사람이 라벨을 붙인 데이터세트를 사용하여 이미지와 텍스트 프롬프트에 따라 사람의 피드백을 예측하는 보상 함수를 훈련합니다. 우리는 보상 학습을 위해 인간의 피드백을 보다 효과적으로 사용하기 위해 교란된 텍스트 프롬프트 세트 중에서 원본 텍스트 프롬프트를 식별하는 보조 작업을 제안합니다. 이 기술은 보이지 않는 이미지와 텍스트 프롬프트에 대한 보상 기능의 일반화를 향상시킵니다.

3단계: 보상 가중 가능성 최대화를 통해 텍스트-이미지 모델을 업데이트하여 인간 피드백에 더 잘 맞도록 합니다. 최적화를 위해 강화 학습을 사용한 이전 작업과 달리, 연구원들은 준지도 학습을 사용하여 모델을 업데이트하여 학습된 보상 함수인 모델 출력의 품질을 측정했습니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

연구원들은 Stable Diffusion 모델을 미세 조정하기 위해 인간의 피드백과 함께 27,000개의 이미지-텍스트 쌍을 사용했습니다. 결과는 미세 조정된 모델이 특정 색상, 수량, 그리고 배경. 이미지 충실도가 약간 손실되면서 이미지-텍스트 정렬이 최대 47% 향상되었습니다.

또한, 보이지 않는 색상, 수량 및 배경 프롬프트의 조합을 통해 보이지 않는 개체를 더 잘 생성할 수 있도록 결합 생성 결과가 개선되었습니다. 그들은 또한 학습된 보상 기능이 테스트 텍스트 프롬프트의 CLIP 점수보다 인간의 정렬 평가와 더 잘 일치한다는 것을 관찰했습니다.

하지만 논문의 제1저자인 이기민씨 역시 이번 논문의 결과가 기존 T2-이미지 모델의 실패 모델을 모두 해결한 것은 아니며, 여전히 과제가 많다고 말했습니다. 그들은 이 작업이 Vincent 그래프 모델 정렬에 있어 인간 피드백을 통한 학습의 잠재력을 강조할 수 있기를 바랍니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

방법 소개

생성된 이미지를 텍스트 프롬프트와 정렬하기 위해 본 연구에서는 사전 훈련된 모델에 대해 일련의 미세 조정을 수행했으며 그 과정은 위의 그림 1에 나와 있습니다. 먼저, Vincentian 그래프 모델의 다양한 성능을 테스트하기 위해 설계된 프로세스인 일련의 텍스트 프롬프트에서 해당 이미지가 생성되었습니다. 그런 다음 인간 평가자가 생성된 이미지에 대해 이진 피드백을 제공했습니다. 다음으로 연구는 인간 피드백을 예측하기 위해 보상 모델을 훈련했습니다. 텍스트 프롬프트와 이미지를 입력으로 사용하고 마지막으로 연구에서는 보상 가중치 로그 가능성을 사용하여 Vincent 그래프 모델을 미세 조정하여 텍스트-이미지 정렬을 개선합니다.

인간 데이터 수집

Vincentian 그래프 모델의 기능을 테스트하기 위해 연구에서는 지정된 개수, 색상 및 배경이라는 세 가지 유형의 텍스트 프롬프트를 고려했습니다. 각 카테고리에 대해 연구에서는 녹색(색상)과 개(수량)와 같이 개체를 설명하는 각 단어나 문구를 쌍으로 연결하여 프롬프트를 생성했습니다. 또한 이 연구에서는 세 가지 범주의 조합(예: 도시에서 녹색으로 염색된 두 마리의 개)을 고려했습니다. 아래 표 1은 데이터 세트 분류를 더 잘 보여줍니다. 각 프롬프트는 60개의 이미지를 생성하는 데 사용되며 모델은 주로 Stable Diffusion v1.5입니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

인간 피드백

다음은 생성된 이미지에 대한 인간 피드백입니다. 동일한 프롬프트에 의해 생성된 3개의 이미지가 라벨러에게 제시되고, 생성된 각 이미지가 프롬프트와 일치하는지 여부와 평가 기준이 좋은지 나쁜지 평가하도록 요청받습니다. 이 작업은 상대적으로 간단하므로 이진 피드백으로 충분합니다.

보상 학습

이미지-텍스트 정렬을 더 잘 평가하기 위해 이 연구에서는 보상 함수 ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?를 사용하여 이를 측정합니다. 이를 통해 이미지 x와 텍스트 프롬프트 z의 CLIP 임베딩을 표준에 매핑할 수 있습니다. 크기. 그런 다음 인간 피드백 k_y ∈ {0, 1}(1 = 좋음, 0 = 나쁨)을 예측하는 데 사용됩니다.

공식적으로 인간 피드백 데이터 세트 D^human = {(x, z, y)}가 주어지면 보상 함수 ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?는 평균 제곱 오차(MSE)를 최소화하여 훈련됩니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

이전 연구에서는 데이터 증대 방법이 데이터 효율성과 모델 학습 성능을 크게 향상시킬 수 있음을 보여주었습니다. 피드백 데이터 세트를 효과적으로 활용하기 위해 본 연구에서는 간단한 데이터 증대 방식과 보상 학습 보조 손실을 설계했습니다. 본 연구에서는 보조 작업에 향상된 프롬프트를 사용합니다. 즉, 원래 프롬프트에 따라 분류 보상 학습이 수행됩니다. Prompt 분류기는 다음과 같은 보상 함수를 사용합니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

보조 손실은 다음과 같습니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

마지막으로 Vincent 그래프 모델이 업데이트됩니다. 모델이 생성하는 데이터 세트의 다양성은 제한되어 있으므로 과적합이 발생할 수 있습니다. 이를 완화하기 위해 연구에서는 다음과 같이 사전 훈련 손실도 최소화했습니다.

실험 결과

실험 부분은 모델 미세 조정에 참여하는 인간 피드백의 효과를 테스트하도록 설계되었습니다. 실험에 사용된 모델은 Stable Diffusion v1.5입니다. 데이터 세트 정보는 표 1(위 참조) 및 표 2에 표시되어 있습니다. 표 2는 여러 인간 라벨러가 제공하는 피드백의 분포를 보여줍니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

텍스트-이미지 정렬에 대한 인간 평가(평가 지표는 색상, 개체 수). 그림 4에서 볼 수 있듯이, 우리의 방법은 이미지-텍스트 정렬을 크게 향상시켰습니다. 특히, 모델에 의해 생성된 샘플의 50%가 최소 2/3의 찬성 투표를 받았습니다(투표 수는 7표 이상이었습니다). . 투표) 그러나 미세 조정은 이미지 충실도를 약간 감소시킵니다(15% 대 10%).

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

그림 2는 본 논문의 원본 모델과 미세 조정된 대응 모델의 이미지 예를 보여줍니다. 원본 모델은 세부 사항(색상, 배경, 개수 등)이 부족한 이미지를 생성했으며(그림 2(a)), 우리 모델에서 생성된 이미지는 프롬프트에서 지정한 색상, 개수, 배경과 일치함을 알 수 있습니다. . 우리 모델이 보이지 않는 텍스트 프롬프트 이미지를 매우 높은 품질로 생성할 수도 있다는 점은 주목할 가치가 있습니다(그림 2 (b)).

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

학습 결과를 보상해 드립니다. 그림 3(a)는 표시된 텍스트 프롬프트와 보이지 않는 텍스트 프롬프트의 모델 점수를 보여줍니다. 보상(녹색)을 갖는 것이 CLIP 점수(빨간색)보다 일반적인 인간 의도와 더 일치합니다.

ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?

위 내용은 ChatGPT를 배우다, AI 그림에 인간의 피드백이 도입되면 어떻게 될까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

모델, 데이터 및 프레임워크에 대한 심층 분석: 효율적인 대규모 언어 모델에 대한 철저한 54페이지 검토 모델, 데이터 및 프레임워크에 대한 심층 분석: 효율적인 대규모 언어 모델에 대한 철저한 54페이지 검토 Jan 14, 2024 pm 07:48 PM

대규모 언어 모델(LLM)은 자연어 이해, 언어 생성, 복잡한 추론을 비롯한 여러 중요한 작업에서 강력한 기능을 입증했으며 사회에 지대한 영향을 미쳤습니다. 그러나 이러한 뛰어난 기능을 사용하려면 상당한 교육 리소스(왼쪽 참조)와 긴 추론 시간(오른쪽 참조)이 필요합니다. 따라서 연구자들은 효율성 문제를 해결하기 위한 효과적인 기술적 수단을 개발해야 합니다. 또한 그림의 오른쪽에서 볼 수 있듯이 Mistral-7B와 같은 일부 효율적인 LLM(LanguageModel)이 LLM의 설계 및 배포에 성공적으로 사용되었습니다. 이러한 효율적인 LLM은 LLaMA1-33B와 유사한 정확도를 유지하면서 추론 메모리를 크게 줄일 수 있습니다.

Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요? Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요? Mar 06, 2024 pm 05:34 PM

StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! 자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! Feb 28, 2024 pm 07:20 PM

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

DualBEV: BEVFormer 및 BEVDet4D를 크게 능가하는 책을 펼치세요! DualBEV: BEVFormer 및 BEVDet4D를 크게 능가하는 책을 펼치세요! Mar 21, 2024 pm 05:21 PM

본 논문에서는 자율 주행에서 다양한 시야각(예: 원근 및 조감도)에서 객체를 정확하게 감지하는 문제, 특히 원근(PV) 공간에서 조감(BEV) 공간으로 기능을 효과적으로 변환하는 방법을 탐구합니다. VT(Visual Transformation) 모듈을 통해 구현됩니다. 기존 방법은 크게 2D에서 3D로, 3D에서 2D로 변환하는 두 가지 전략으로 나뉩니다. 2D에서 3D로의 방법은 깊이 확률을 예측하여 조밀한 2D 특징을 개선하지만, 특히 먼 영역에서는 깊이 예측의 본질적인 불확실성으로 인해 부정확성이 발생할 수 있습니다. 3D에서 2D로의 방법은 일반적으로 3D 쿼리를 사용하여 2D 기능을 샘플링하고 Transformer를 통해 3D와 2D 기능 간의 대응에 대한 주의 가중치를 학습하므로 계산 및 배포 시간이 늘어납니다.

최초의 멀티뷰 자율주행 장면 영상 생성 세계 모델 DrivingDiffusion: BEV 데이터 및 시뮬레이션을 위한 새로운 아이디어 | 최초의 멀티뷰 자율주행 장면 영상 생성 세계 모델 DrivingDiffusion: BEV 데이터 및 시뮬레이션을 위한 새로운 아이디어 | Oct 23, 2023 am 11:13 AM

저자 개인 생각 중 일부 자율주행 분야에서는 BEV 기반의 하위 작업/End-to-End 솔루션 개발로 인해 고품질의 다시점 훈련 데이터와 그에 따른 시뮬레이션 장면 구축이 점점 더 중요해지고 있습니다. 현재 작업의 문제점에 대응하여 "고품질"은 세 가지 측면으로 분리될 수 있습니다. 다양한 차원의 롱테일 시나리오(예: 장애물 데이터의 근거리 차량 및 자동차 절단 과정의 정확한 방향 각도) 곡률이 다른 곡선이나 경사로/병합/병합 등 캡처하기 어려운 차선 데이터. 이는 종종 비용이 많이 드는 대량의 데이터 수집과 복잡한 데이터 마이닝 전략에 의존합니다. 3D 진정한 가치 - 매우 일관된 이미지: 현재 BEV 데이터 수집은 센서 설치/보정, 고정밀 지도 및 재구성 알고리즘 자체의 오류에 의해 영향을 받는 경우가 많습니다. 이것이 나를 이끌었다

'마인크래프트'가 AI 마을로 변신, NPC 주민들이 실제 사람처럼 역할극 '마인크래프트'가 AI 마을로 변신, NPC 주민들이 실제 사람처럼 역할극 Jan 02, 2024 pm 06:25 PM

이 네모난 남자는 눈앞에 있는 '불청객'의 정체를 고민하며 미간을 찌푸리고 있다는 점에 주목해주세요. 알고 보니 그녀는 위험한 상황에 처해 있었고, 이를 깨닫자마자 문제를 해결하기 위한 전략을 찾기 위해 재빨리 정신적 탐색을 시작했습니다. 결국 그녀는 현장을 떠나 가능한 한 빨리 도움을 구하고 즉각적인 조치를 취하기로 결정했습니다. 동시에 반대편에 있는 사람도 그녀와 같은 생각을 하고 있었는데... <마인크래프트>에도 모든 캐릭터가 인공지능에 의해 조종되는 장면이 있었다. 예를 들어 앞서 언급한 소녀는 17세지만 똑똑하고 용감한 택배기사입니다. 그들은 마인크래프트를 배경으로 한 이 작은 마을에서 인간처럼 기억하고 생각하며 살아갈 수 있는 능력을 가지고 있습니다. 그들을 움직이는 것은 아주 새로운 것입니다.

SD 커뮤니티의 I2V 어댑터: 구성이 필요하지 않으며 플러그 앤 플레이, Tusheng 비디오 플러그인과 완벽하게 호환됩니다. SD 커뮤니티의 I2V 어댑터: 구성이 필요하지 않으며 플러그 앤 플레이, Tusheng 비디오 플러그인과 완벽하게 호환됩니다. Jan 15, 2024 pm 07:48 PM

이미지-비디오 생성(I2V) 작업은 정적 이미지를 동적 비디오로 변환하는 것을 목표로 하는 컴퓨터 비전 분야의 과제입니다. 이 작업의 어려움은 이미지 콘텐츠의 신뢰성과 시각적 일관성을 유지하면서 단일 이미지에서 시간 차원의 동적 정보를 추출하고 생성하는 것입니다. 기존 I2V 방법에는 이 목표를 달성하기 위해 복잡한 모델 아키텍처와 많은 양의 교육 데이터가 필요한 경우가 많습니다. 최근 Kuaishou가 주도한 새로운 연구 결과 "I2V-Adapter: AGeneralImage-to-VideoAdapter for VideoDiffusionModels"가 발표되었습니다. 본 연구에서는 혁신적인 이미지-비디오 변환 방법을 소개하고 경량 어댑터 모듈을 제안합니다.

검토! 심층 모델 융합(LLM/기본 모델/연합 학습/미세 조정 등) 검토! 심층 모델 융합(LLM/기본 모델/연합 학습/미세 조정 등) Apr 18, 2024 pm 09:43 PM

9월 23일, 국립방위기술대학교, JD.com 및 베이징 공과대학이 "DeepModelFusion:ASurvey"라는 논문을 발표했습니다. 딥 모델 융합/병합은 여러 딥 러닝 모델의 매개변수나 예측을 단일 모델로 결합하는 새로운 기술입니다. 이는 더 나은 성능을 위해 개별 모델의 편향과 오류를 보상하기 위해 다양한 모델의 기능을 결합합니다. 대규모 딥 러닝 모델(예: LLM 및 기본 모델)에 대한 딥 모델 융합은 높은 계산 비용, 고차원 매개변수 공간, 서로 다른 이종 모델 간의 간섭 등을 포함한 몇 가지 문제에 직면합니다. 이 기사에서는 기존 심층 모델 융합 방법을 네 가지 범주로 나눕니다. (1) 더 나은 초기 모델 융합을 얻기 위해 손실 감소 경로를 통해 가중치 공간의 솔루션을 연결하는 "패턴 연결"

See all articles