Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요?
Stable Diffusion 3 논문이 드디어 나왔습니다!
이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(확산 변압기) 아키텍처를 사용하여 출시되자마자 상당한 화제를 불러일으켰습니다.
이전 버전과 비교하여 Stable Diffusion 3에서 생성된 이미지 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 개선되어 더 이상 문자가 깨지지 않습니다.
Stability AI는 Stable Diffusion 3이 매개변수 크기가 800M에서 8B까지인 일련의 모델이라고 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있음을 의미하며 대규모 AI 모델을 사용하기 위한 임계값을 크게 낮춥니다.
새로 발표된 논문에서 Stability AI는 인간의 선호도 기반 평가에서 Stable Diffusion 3가 DALL・E 3, Midjourney v6, 및 표의 문자 v1. 곧 연구의 실험 데이터, 코드 및 모델 가중치를 공개적으로 제공할 예정입니다.
Stability AI는 논문에서 Stable Diffusion 3에 대해 더 자세히 공개했습니다.
- 논문 제목: 고해상도 이미지 합성을 위한 정류 변압기 스케일링
- 논문 링크: https://stabilityai-public-packages.s3.us-west-2.amazonaws .com/Stable+Diffusion+3+Paper.pdf
아키텍처 세부정보
텍스트-이미지 생성의 경우 Stable Diffusion 3 모델은 텍스트 모드와 이미지 모드를 모두 고려해야 합니다. 따라서 이 논문의 저자는 이 새로운 아키텍처를 MMDiT라고 부르며, 이는 여러 양식을 처리할 수 있는 능력을 나타냅니다. Stable Diffusion의 이전 버전과 마찬가지로 저자는 사전 훈련된 모델을 사용하여 적합한 텍스트 및 이미지 표현을 도출합니다. 특히 그들은 세 가지 다른 텍스트 임베딩 모델(두 개의 CLIP 모델과 T5)을 사용하여 텍스트 표현을 인코딩하고 향상된 자동 인코딩 모델을 사용하여 이미지 토큰을 인코딩했습니다.
Stable Diffusion 3 모델 아키텍처.
향상된 다중 모드 확산 변압기: MMDiT 블록.
SD3 아키텍처는 Sora 핵심 R&D 멤버인 William Peebles와 뉴욕 대학교 컴퓨터 과학 조교수인 Xie Saining이 제안한 DiT를 기반으로 합니다. 텍스트 임베딩과 이미지 임베딩은 개념적으로 매우 다르기 때문에 SD3 작성자는 두 가지 양식에 대해 서로 다른 두 가지 가중치 세트를 사용합니다. 위 그림에서 보듯이 이는 각 양식별로 2개의 독립적인 변환기를 설정하는 것과 동일하지만 주의 연산을 위해 두 양식의 시퀀스를 결합하여 두 표현이 각자의 공간에서 작동할 수 있도록 하고, 또 다른 표현도 고려한다. .
저자가 제안한 MMDiT 아키텍처는 훈련 중 시각적 충실도와 텍스트 정렬을 측정할 때 UViT 및 DiT와 같은 기존의 텍스트-이미지 백본보다 성능이 뛰어납니다.
이 접근 방식을 사용하면 이미지와 텍스트 토큰 간에 정보가 흐를 수 있으므로 모델에 대한 전반적인 이해가 향상되고 생성된 출력의 텍스트 형식이 향상됩니다. 백서에서 설명한 것처럼 이 아키텍처는 비디오와 같은 다양한 형식으로 쉽게 확장할 수도 있습니다.
Stable Diffusion 3의 향상된 프롬프트 추적 기능 덕분에 새 모델은 다양한 주제와 품질에 초점을 맞춘 이미지를 생성하는 동시에 이미지 자체의 스타일도 매우 유연하게 만들 수 있습니다.
재가중화를 통해 개선된 Rectified Flow
Stable Diffusion 3은 훈련 과정에서 Rectified Flow(RF) 공식을 채택하여 데이터와 노이즈가 선형 궤적으로 연결됩니다. 이렇게 하면 추론 경로가 더 직선화되어 샘플링 단계가 줄어듭니다. 또한 저자는 훈련 과정에서 새로운 궤적 샘플링 방식을 도입했습니다. 그들은 궤적의 중간 부분이 더 어려운 예측 작업을 제기할 것이라고 가정했기 때문에 이 계획은 궤적의 중간 부분에 더 많은 가중치를 부여했습니다. 그들은 여러 데이터 세트, 메트릭 및 샘플러 설정을 사용하여 비교하고 LDM, EDM 및 ADM과 같은 60개의 다른 확산 궤적에 대해 제안된 방법을 테스트했습니다. 결과는 이전 RF 공식의 성능이 몇 가지 샘플링 단계로 향상되는 반면 단계 수가 증가함에 따라 상대적 성능이 감소한다는 것을 보여줍니다. 대조적으로, 저자가 제안한 재가중 RF 변형은 지속적으로 성능을 향상시킵니다.
Rectified Flow Transformer 모델 확장
저자는 재가중화된 Rectified Flow 공식과 MMDiT 백본을 사용하여 텍스트-이미지 합성에 대한 확장 연구를 수행했습니다. 그들은 450M 매개변수가 있는 15개 블록부터 8B 매개변수가 있는 38개 블록에 이르는 모델을 훈련했으며 모델 크기와 훈련 단계가 증가함에 따라 검증 손실이 원활하게 감소하는 것을 관찰했습니다(확인 위 그림의 첫 번째 부분). 이것이 모델 출력의 의미 있는 개선으로 해석되었는지 여부를 조사하기 위해 저자는 자동 이미지 정렬 측정항목(GenEval)과 인간 선호도 점수(ELO)(위 두 번째 행)도 평가했습니다. 결과는 이러한 측정항목과 검증 손실 사이에 강한 상관관계가 있음을 보여 주며, 이는 후자가 모델의 전체 성능을 잘 예측할 수 있음을 시사합니다. 더욱이, 확장 추세는 포화의 징후를 보이지 않으므로 저자는 앞으로도 모델 성능을 지속적으로 개선할 것이라고 낙관합니다.
유연한 텍스트 인코더
추론에 사용되는 메모리 집약적인 4.7B 매개변수 T5 텍스트 인코더를 제거함으로써 성능 손실을 최소화하면서 SD3의 메모리 요구 사항을 크게 줄일 수 있습니다. 표시된 대로 이 텍스트 인코더를 제거하면 시각적 미학(T5 없이 50% 승률)에 영향을 미치지 않으며 텍스트 일관성(46% 승률)만 약간 감소합니다. 그러나 저자는 T5를 추가하지 않으면 아래 그림과 같이 조판 생성 성능이 훨씬 더 떨어지는 것을 관찰했기 때문에(승률 38%) SD3의 성능을 최대한 활용하기 위해 서면 텍스트를 생성할 때 T5를 추가할 것을 권장합니다.
많은 세부 사항이나 많은 양의 서면 텍스트가 포함된 매우 복잡한 프롬프트를 제시하는 경우에만 추론용 T5를 제거하면 성능이 크게 저하됩니다. 위 이미지는 각 예의 무작위 샘플 3개를 보여줍니다.
모델 성능
저자는 Stable Diffusion 3의 출력 이미지를 다양한 다른 오픈 소스 모델(SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 및 Pixart-α 포함) 및 비공개 소스와 비교합니다. DALL -E 3, Midjourney v6 및 Ideogram v1)과 같은 모델을 비교하여 인간 피드백을 기반으로 성능을 평가했습니다. 이러한 테스트에서 인간 평가자에게는 각 모델의 출력 예가 제공되고 모델 출력이 주어진 프롬프트의 컨텍스트(프롬프트 따르기)를 얼마나 잘 따르는지, 텍스트가 프롬프트에 따라 얼마나 잘 렌더링되는지(타이포그래피), image 최상의 결과를 얻으려면 시각적 미학이 뛰어난 이미지가 선택됩니다.
SD3에 대해 벤치마킹된 이 차트는 시각적 미학, 신속한 팔로우 및 텍스트 레이아웃에 대한 인간의 평가를 기반으로 한 승률을 간략하게 설명합니다.
테스트 결과에서 저자는 Stable Diffusion 3가 위의 모든 측면에서 현재의 최첨단 텍스트-이미지 생성 시스템과 동일하거나 그보다 더 낫다는 것을 발견했습니다.
소비자 하드웨어에 대한 초기 최적화되지 않은 추론 테스트에서 가장 큰 8B 매개변수 SD3 모델은 RTX 4090의 24GB VRAM에 적합하며 50개의 샘플링 단계를 사용하여 1024x1024 해상도의 이미지를 생성하는 데 34초가 걸립니다.
또한 초기 출시 시 Stable Diffusion 3은 하드웨어 장벽을 더욱 제거하기 위해 800m에서 8B 파라메트릭 모델에 이르는 다양한 변형으로 제공될 예정입니다.
자세한 내용은 원문을 참고해주세요.
참고링크: https://stability.ai/news/stable-diffusion-3-research-paper
위 내용은 Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











7 백만 레코드를 효율적으로 처리하고 지리 공간 기술로 대화식지도를 만듭니다. 이 기사는 Laravel과 MySQL을 사용하여 7 백만 개 이상의 레코드를 효율적으로 처리하고 대화식지도 시각화로 변환하는 방법을 살펴 봅니다. 초기 챌린지 프로젝트 요구 사항 : MySQL 데이터베이스에서 7 백만 레코드를 사용하여 귀중한 통찰력을 추출합니다. 많은 사람들이 먼저 프로그래밍 언어를 고려하지만 데이터베이스 자체를 무시합니다. 요구 사항을 충족시킬 수 있습니까? 데이터 마이그레이션 또는 구조 조정이 필요합니까? MySQL이 큰 데이터로드를 견딜 수 있습니까? 예비 분석 : 주요 필터 및 속성을 식별해야합니다. 분석 후, 몇 가지 속성만이 솔루션과 관련이 있음이 밝혀졌습니다. 필터의 타당성을 확인하고 검색을 최적화하기위한 제한 사항을 설정했습니다. 도시를 기반으로 한지도 검색

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

이 기사는 MySQL 데이터베이스의 작동을 소개합니다. 먼저 MySQLworkBench 또는 명령 줄 클라이언트와 같은 MySQL 클라이언트를 설치해야합니다. 1. MySQL-Uroot-P 명령을 사용하여 서버에 연결하고 루트 계정 암호로 로그인하십시오. 2. CreateABase를 사용하여 데이터베이스를 작성하고 데이터베이스를 선택하십시오. 3. CreateTable을 사용하여 테이블을 만들고 필드 및 데이터 유형을 정의하십시오. 4. InsertInto를 사용하여 데이터를 삽입하고 데이터를 쿼리하고 업데이트를 통해 데이터를 업데이트하고 DELETE를 통해 데이터를 삭제하십시오. 이러한 단계를 마스터하고 일반적인 문제를 처리하는 법을 배우고 데이터베이스 성능을 최적화하면 MySQL을 효율적으로 사용할 수 있습니다.

데이터베이스 산 속성에 대한 자세한 설명 산 속성은 데이터베이스 트랜잭션의 신뢰성과 일관성을 보장하기위한 일련의 규칙입니다. 데이터베이스 시스템이 트랜잭션을 처리하는 방법을 정의하고 시스템 충돌, 전원 중단 또는 여러 사용자의 동시 액세스가 발생할 경우에도 데이터 무결성 및 정확성을 보장합니다. 산 속성 개요 원자력 : 트랜잭션은 불가분의 단위로 간주됩니다. 모든 부분이 실패하고 전체 트랜잭션이 롤백되며 데이터베이스는 변경 사항을 유지하지 않습니다. 예를 들어, 은행 송금이 한 계정에서 공제되지만 다른 계정으로 인상되지 않은 경우 전체 작업이 취소됩니다. BeginTransaction; updateAccountssetBalance = Balance-100WH

MySQL은 JSON 데이터를 반환 할 수 있습니다. json_extract 함수는 필드 값을 추출합니다. 복잡한 쿼리의 경우 where 절을 사용하여 JSON 데이터를 필터링하지만 성능 영향에주의하십시오. JSON에 대한 MySQL의 지원은 지속적으로 증가하고 있으며 최신 버전 및 기능에주의를 기울이는 것이 좋습니다.

원격 선임 백엔드 엔지니어 구직 회사 : 원 위치 : 원격 사무실 직무 유형 : 전임 급여 : $ 130,000- $ 140,000 직무 설명 전체 소프트웨어 개발 라이프 사이클을 다루는 Circle Mobile 애플리케이션 및 공개 API 관련 기능의 연구 및 개발에 참여합니다. 주요 책임은 독립적으로 Rubyonrails를 기반으로 개발 작업을 완료하고 React/Redux/Relay 프론트 엔드 팀과 협력합니다. 웹 애플리케이션의 핵심 기능 및 개선을 구축하고 기능 설계 프로세스 전반에 걸쳐 설계자 및 리더십과 긴밀히 협력하십시오. 긍정적 인 개발 프로세스를 촉진하고 반복 속도를 우선시하십시오. 6 년 이상의 복잡한 웹 애플리케이션 백엔드가 필요합니다.

MySQL 설치 실패의 주된 이유는 다음과 같습니다. 1. 권한 문제, 관리자로 실행하거나 Sudo 명령을 사용해야합니다. 2. 종속성이 누락되었으며 관련 개발 패키지를 설치해야합니다. 3. 포트 충돌, 포트 3306을 차지하는 프로그램을 닫거나 구성 파일을 수정해야합니다. 4. 설치 패키지가 손상되어 무결성을 다운로드하여 확인해야합니다. 5. 환경 변수가 잘못 구성되었으며 운영 체제에 따라 환경 변수를 올바르게 구성해야합니다. 이러한 문제를 해결하고 각 단계를 신중하게 확인하여 MySQL을 성공적으로 설치하십시오.

Laraveleloquent 모델 검색 : 데이터베이스 데이터를 쉽게 얻을 수 있습니다. 이 기사는 데이터베이스에서 데이터를 효율적으로 얻는 데 도움이되는 다양한 웅변 모델 검색 기술을 자세히 소개합니다. 1. 모든 기록을 얻으십시오. 모든 () 메소드를 사용하여 데이터베이스 테이블에서 모든 레코드를 가져옵니다. 이것은 컬렉션을 반환합니다. Foreach 루프 또는 기타 수집 방법을 사용하여 데이터에 액세스 할 수 있습니다 : Foreach ($ postas $ post) {echo $ post->
