목차
SD - 모델.
더 심미적입니다" >더 심미적입니다
젊은 남자, 하이라이트 머리, 갈색 눈, 흰색 셔츠와 청바지를 입고 화산을 배경으로 해변에서 눈, 흰색 셔츠와 청바지를 입고 화산을 배경으로 해변에 서 있음" >젊은 남자, 하이라이트 머리, 갈색 눈, 흰색 셔츠와 청바지를 입고 화산을 배경으로 해변에서 눈, 흰색 셔츠와 청바지를 입고 화산을 배경으로 해변에 서 있음
기술 주변기기 일체 포함 Stable Diffusion-XL은 공개 베타 버전으로 공개되어 길고 번거로운 메시지가 표시되지 않습니다!

Stable Diffusion-XL은 공개 베타 버전으로 공개되어 길고 번거로운 메시지가 표시되지 않습니다!

Apr 23, 2023 am 10:16 AM
오픈 소스

Midjourney v5 출시 이후 생성된 이미지의 문자 및 손가락 디테일의 현실감이 크게 향상되었으며 신속한 이해의 정확성, 미적 다양성 및 언어 이해에서도 진전이 이루어졌습니다.

반면 Stable Diffusion은 무료이며 오픈 소스이지만 매번 긴 프롬프트 목록을 작성해야 하며 고품질 이미지 생성은 여러 번 드로잉 카드에 따라 달라집니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

최근 Stability AI는 개발 중인 Stable Diffusion XL이 대중을 대상으로 테스트를 시작했으며 현재 Clipdrop 플랫폼에서 무료 평가판을 사용할 수 있다고 공식 발표했습니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

평가판 링크: https://clipdrop.co/stable-diffusion​

Stability AI 창립자이자 CEO인 Emad Mostaque는 이 모델이 아직 훈련 단계에 있다고 말했습니다. 매개변수가 안정된 후 오픈 소스로 제공되며 SD-XL은 "악수"와 같은 이미지 세부 사항에서 더 나은 성능을 발휘하며 거의 완벽하게 제어할 수 있습니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Stable Diffusion XL은 최종 출시 버전의 이름도 아니고 v3도 아닙니다. SD-XL의 아키텍처가 SD-v2 시리즈의 모델 아키텍처와 매우 유사하기 때문입니다. ㅋㅋㅋ 홈짐, 고무바닥, 벽걸이형 TV, 웨이트벤치, 메디신볼, 덤벨, 요가매트, 첨단장비, 하이디테일, 정리정돈 및 효율성

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL에서 공식 공개한 다음 예시 사진은 be 화질이 매우 인상적이라는 것을 알 수 있습니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了때때로 일부 네티즌들은 SD-XL이 "나쁜 취향"을 없애기 위해 너무 많은 규칙을 설정했다고 생각합니다. 커스터마이징을 위한 공간은 점점 작아지고 있으며 대부분의 사람들의 선호도를 충족시키지 못합니다. 현재 v1.5인 Stable Diffusion은 여전히 ​​커뮤니티에서 가장 인기 있는 기본 모델입니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

네티즌들은 SD의 새 버전이 SD 2.1 버전의 임베딩, 하이퍼네트워크 및 Lora 모델과 계속 호환될 수 있기를 희망했습니다. 처음부터 다시 교육하기에는 너무 불편할 것입니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

일부 네티즌들은 SD-XL의 성능이 네티즌들이 시빗 홈페이지에서 공유한 모델과 유사하다고 생각하고 있으며, 새 모델의 효과는 특별히 놀랍지 않아 평균 수준입니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD - 모델.

SD-v2.1에는 9억 개의 매개변수가 포함되어 있고, SD-XL에는 약 23억 개의 매개변수가 포함되어 있으며, Emad는 공식 버전이 더 작은 증류 버전을 추가로 출시할 수도 있다고 말했습니다.

SD-XL은 이전 버전에 비해 다음과 같은 개선 사항이 있습니다.

더 짧은 설명 프롬프트를 사용하여 고품질 이미지 생성
  • 프롬프트에 더 잘 맞는 이미지 생성 가능
  • images 의 인체 구조가 더 합리적입니다
  • v2.1 및 v1.5 버전에 비해(적은 정도) SD-XL로 생성된 사진은 공공 미학에 더 부합합니다
  • 부정 프롬프트 가능합니다 옵션
  • 결과 인물 사진이 더 사실적으로 나옵니다.
  • 이미지의 텍스트가 더 선명해졌습니다
  • SD-XL은 이전 버전의 플러그인과 호환되지 않을 수 있습니다.

명확하고 읽기 쉬운 텍스트

v1 시리즈 및 v2.1 버전의 Stable Diffusion 모델에서는 이미지에서 읽을 수 있는 텍스트를 생성하는 기능이 없습니다.

SD-XL에서 생성된 텍스트 정보가 항상 정확하지는 않지만 상당한 개선을 제공합니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

"Menu"라고 적힌 메뉴를 들고 있는 식당에 앉아 있는 여성의 사진

라는 표지판을 들고 있는 남자의 사진 “라고 말한다 안정확산”Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

"안정확산"이라고 적힌 팻말을 들고 있는 젊은 여성, 머리카락에 하이라이트, 식당 밖에 앉아 있음, 갈색 눈, 드레스를 입고, 측면 조명

Liang, 밖에 앉아 있음 레스토랑, 갈색 눈, 치마 착용, 측면 조명

더 나은 인체 구조

안정적인 확산은 인체 해부학을 생성하는 데 항상 많은 문제가 있었으며, 다리가 많고, 팔이 적다는 것은 매우 일반적인 문제이며 일반적으로 이미지 세부 사항을 추가로 수정하기 위해 inpaint 기능을 사용하거나 ControlNet의 Open Pose 기능을 사용하여 참조 이미지에서 인체의 자세를 복사하는 데 필요합니다.

예를 들어 SD-v1.5가 요가 이미지를 생성하면 왜곡된 인체가 자주 등장합니다.

요가 복장, 삼각형 자세, 저녁 해변, 림 조명을 입은 여성의 사진

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL로 생성된 이미지는 완벽하지는 않지만 인간의 자세에 있어서 상당한 발전을 이루었습니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

더 심미적입니다

예를 들어, 집이라는 동일한 테마로 SD-XL은 더 대칭적이고 더 나은 시각 효과를 갖는 사진을 생성할 수 있습니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL은 인물 사진에서도 상당한 개선이 이루어졌습니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

여성의 사진

프롬프트에 더 잘 맞는 이미지

, 더욱 정확한 이미지를 연출합니다.

예를 들어 이중톤(2색)을 예로 들면 SD-v1.5는 흑백 이미지만 생성하는 반면 SD-XL은 여러 색상의 이중톤 이미지를 생성할 수 있습니다.

v1 모델에 비해 프롬프트 이해 능력이 향상되었습니다.

duotone Portrait of a WomanMidjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Duotone Portrait of a Woman

SD-XL은 동일한 v2 시리즈 모델에 속하기 때문에 텍스트 모델 크기가 더 크고 더 클 수 있습니다. v1 모델과 비교하여 프롬프트 단어를 더 잘 이해합니다.

예를 들어 아래 예에서 v1.5 모델은 이미지의 두 피사체(로봇과 인간)를 결코 이해할 수 없지만 SD-XL 모델은 일반 이미지를 생성할 수 있습니다(로봇은 아직 충분히 크지 않습니다.)

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

인간 옆에 앉아 있는 큰 로봇 친구, 껍데기 스타일의 유령, 애니메이션 배경화면Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

인간 옆에 앉아 있는 큰 로봇 친구, 껍데기 스타일의 유령, 애니메이션 배경화면

젊은 남자, 하이라이트 머리, 갈색 눈, 흰 셔츠와 청바지를 입고 화산을 배경으로 해변에서Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

젊은 남자, 하이라이트 머리, 갈색 눈, 화산을 배경으로 해변에 있는 흰색 셔츠와 청바지 화산을 배경으로 해변에 서 있는 흰색 셔츠와 청바지

아트 스타일

아트 스타일로 보면 SD-XL 크게 개선되지는 않았으며 이전 버전과의 차이점도 있습니다.

예를 들어, 두 모델은 서로 다른 각도에서 에드워드 호퍼 스타일의 이미지를 생성합니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Edward Hopper의 뉴욕시

Edward Hopper가 뉴욕을 그립니다

Leonid Afmov 스타일, SD-v1.5가 더 정확함, SD-XL에는 다양한 색상의 브러시가 없음 다채로운 보드 브러시 스트로크).

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Leonid Afremov의 뉴욕시

Leonid Afemov

William-Adolphe Bouguereau 스타일로 그린 뉴욕, V1.5와 SDXL 모두 유사한 콘텐츠를 생성할 수 있습니다. 중 SD-XL은 Bouguereau가 만든 고전적인 학문적 그림에 더 가깝고 얼굴 세부 묘사가 더 많습니다. William-Adolphe Bouguereau의 아름다운 여인의 초상 관련 없는 키 추가 작성 후 모델의 스타일이 갑자기 바뀔 수 있습니다.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

예를 들어 먼저 사진 스타일 이미지를 생성하세요.

젊은 남자, 하이라이트 머리, 갈색 눈, 흰 셔츠와 청바지를 입고 화산을 배경으로 해변에서

젊은 남자, 하이라이트 머리, 갈색 눈, 흰색 셔츠와 청바지를 입고 화산을 배경으로 해변에서 눈, 흰색 셔츠와 청바지를 입고 화산을 배경으로 해변에 서 있음

노란색 스카프를 추가하면 이미지 스타일이 만화가 됩니다 스타일.

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

젊은 남자, 하이라이트 머리, 갈색 눈,

노란색 스카프 착용,흰색 셔츠와 청바지를 입고 화산을 배경으로 해변에서

젊은 남자, 밝게 염색한 머리, 갈색 눈, 노란색 스카프 착용, 흰색 셔츠와 청바지 착용, 화산을 배경으로 한 해변에 서 있음

미공개 문제로 인한 오류일 수 있습니다. 정식 출시 전까지는 이 문제가 나중에 해결될 수 있을지 모르겠습니다.

위 내용은 Stable Diffusion-XL은 공개 베타 버전으로 공개되어 길고 번거로운 메시지가 표시되지 않습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

10가지 권장 오픈 소스 무료 텍스트 주석 도구 10가지 권장 오픈 소스 무료 텍스트 주석 도구 Mar 26, 2024 pm 08:20 PM

텍스트 주석은 텍스트의 특정 내용에 해당하는 레이블이나 태그를 추가하는 작업입니다. 주요 목적은 특히 인공 지능 분야에서 더 심층적인 분석 및 처리를 위해 텍스트에 추가 정보를 제공하는 것입니다. 텍스트 주석은 인공 지능 애플리케이션의 지도형 기계 학습 작업에 매우 중요합니다. 자연어 텍스트 정보를 보다 정확하게 이해하고 텍스트 분류, 감정 분석, 언어 번역 등의 작업 성능을 향상시키기 위해 AI 모델을 훈련하는 데 사용됩니다. 텍스트 주석을 통해 우리는 AI 모델이 텍스트의 개체를 인식하고, 맥락을 이해하고, 새로운 유사한 데이터가 나타날 때 정확한 예측을 하도록 가르칠 수 있습니다. 이 기사에서는 주로 더 나은 오픈 소스 텍스트 주석 도구를 권장합니다. 1.라벨스튜디오https://github.com/Hu

15가지 추천 오픈 소스 무료 이미지 주석 도구 15가지 추천 오픈 소스 무료 이미지 주석 도구 Mar 28, 2024 pm 01:21 PM

이미지 주석은 이미지 콘텐츠에 더 깊은 의미와 설명을 제공하기 위해 이미지에 레이블이나 설명 정보를 연결하는 프로세스입니다. 이 프로세스는 비전 모델을 훈련하여 이미지의 개별 요소를 보다 정확하게 식별하는 데 도움이 되는 기계 학습에 매우 중요합니다. 이미지에 주석을 추가함으로써 컴퓨터는 이미지 뒤의 의미와 맥락을 이해할 수 있으므로 이미지 내용을 이해하고 분석하는 능력이 향상됩니다. 이미지 주석은 컴퓨터 비전, 자연어 처리, 그래프 비전 모델 등 다양한 분야를 포괄하여 차량이 도로의 장애물을 식별하도록 지원하는 등 광범위한 애플리케이션을 보유하고 있습니다. 의료영상인식을 통한 질병진단. 이 기사에서는 주로 더 나은 오픈 소스 및 무료 이미지 주석 도구를 권장합니다. 1.마케센스

권장 사항: 우수한 JS 오픈 소스 얼굴 감지 및 인식 프로젝트 권장 사항: 우수한 JS 오픈 소스 얼굴 감지 및 인식 프로젝트 Apr 03, 2024 am 11:55 AM

얼굴 검출 및 인식 기술은 이미 상대적으로 성숙하고 널리 사용되는 기술입니다. 현재 가장 널리 사용되는 인터넷 응용 언어는 JS입니다. 웹 프런트엔드에서 얼굴 감지 및 인식을 구현하는 것은 백엔드 얼굴 인식에 비해 장점과 단점이 있습니다. 장점에는 네트워크 상호 작용 및 실시간 인식이 줄어 사용자 대기 시간이 크게 단축되고 사용자 경험이 향상된다는 단점이 있습니다. 모델 크기에 따라 제한되고 정확도도 제한됩니다. js를 사용하여 웹에서 얼굴 인식을 구현하는 방법은 무엇입니까? 웹에서 얼굴 인식을 구현하려면 JavaScript, HTML, CSS, WebRTC 등 관련 프로그래밍 언어 및 기술에 익숙해야 합니다. 동시에 관련 컴퓨터 비전 및 인공지능 기술도 마스터해야 합니다. 웹 측면의 디자인으로 인해 주목할 가치가 있습니다.

스탠포드의 'Virtual Town'과 'Westworld'에서 영감을 받아 AI 에이전트 25개의 소스 코드가 공개되었습니다. 스탠포드의 'Virtual Town'과 'Westworld'에서 영감을 받아 AI 에이전트 25개의 소스 코드가 공개되었습니다. Aug 11, 2023 pm 06:49 PM

'웨스트월드'에 익숙한 관객들은 이 쇼가 미래 세계의 거대한 하이테크 성인 테마파크를 배경으로 한다는 것을 알고 있습니다. 로봇은 인간과 유사한 행동 능력을 가지고 있으며 보고 듣는 것을 기억하고 핵심 스토리를 반복할 수 있습니다. 매일 이 로봇은 재설정되어 초기 상태로 돌아갑니다. 스탠포드 논문 "생성 에이전트: 인간 행동의 대화형 시뮬레이션"이 발표된 후 이 시나리오는 더 이상 영화와 TV 시리즈에만 국한되지 않습니다. 스몰빌의 "가상 타운" 장면 》개요 지도 용지 주소: https://arxiv.org/pdf/2304.03442v1.pdf

대형 모델을 이해하는 Alibaba 7B 다중 모드 문서, 새로운 SOTA 획득 대형 모델을 이해하는 Alibaba 7B 다중 모드 문서, 새로운 SOTA 획득 Apr 02, 2024 am 11:31 AM

다중 모드 문서 이해 기능을 위한 새로운 SOTA! Alibaba mPLUG 팀은 최신 오픈 소스 작업인 mPLUG-DocOwl1.5를 출시했습니다. 이 작품은 고해상도 이미지 텍스트 인식, 일반 문서 구조 이해, 지침 따르기, 외부 지식 도입이라는 4가지 주요 과제를 해결하기 위한 일련의 솔루션을 제안했습니다. 더 이상 고민하지 말고 먼저 효과를 살펴보겠습니다. 복잡한 구조의 차트도 한 번의 클릭으로 인식하고 마크다운 형식으로 변환 가능: 다양한 스타일의 차트 사용 가능: 보다 자세한 텍스트 인식 및 위치 지정도 쉽게 처리 가능: 문서 이해에 대한 자세한 설명도 제공 가능: 아시다시피, " 문서 이해"는 현재 대규모 언어 모델 구현을 위한 중요한 시나리오입니다. 시장에는 문서 읽기를 지원하는 많은 제품이 있습니다. 그 중 일부는 주로 텍스트 인식을 위해 OCR 시스템을 사용하고 텍스트 처리를 위해 LLM을 사용합니다.

단일 카드는 듀얼 카드보다 Llama를 70B 더 빠르게 실행합니다. Microsoft는 A100에 FP6을 넣었습니다 | 단일 카드는 듀얼 카드보다 Llama를 70B 더 빠르게 실행합니다. Microsoft는 A100에 FP6을 넣었습니다 | Apr 29, 2024 pm 04:55 PM

FP8 이하의 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다! Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했고 Microsoft DeepSpeed ​​팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 실행하기 시작했습니다. 테스트 결과에 따르면 A100에 대한 새로운 방법 TC-FPx의 FP6 양자화는 INT4에 가깝거나 때로는 더 빠르며 후자보다 정확도가 더 높은 것으로 나타났습니다. 또한 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드투엔드 대규모 모델 지원도 있습니다. 이 결과는 대형 모델 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다. 하나

1.3ms는 1.3ms가 걸립니다! Tsinghua의 최신 오픈 소스 모바일 신경망 아키텍처 RepViT 1.3ms는 1.3ms가 걸립니다! Tsinghua의 최신 오픈 소스 모바일 신경망 아키텍처 RepViT Mar 11, 2024 pm 12:07 PM

논문 주소: https://arxiv.org/abs/2307.09283 코드 주소: https://github.com/THU-MIG/RepViTRepViT는 모바일 ViT 아키텍처에서 잘 작동하며 상당한 이점을 보여줍니다. 다음으로, 본 연구의 기여를 살펴보겠습니다. 기사에서는 경량 ViT가 일반적으로 시각적 작업에서 경량 CNN보다 더 나은 성능을 발휘한다고 언급했는데, 그 이유는 주로 모델이 전역 표현을 학습할 수 있는 MSHA(Multi-Head Self-Attention 모듈) 때문입니다. 그러나 경량 ViT와 경량 CNN 간의 아키텍처 차이점은 완전히 연구되지 않았습니다. 본 연구에서 저자는 경량 ViT를 효과적인

방금 출시되었습니다! 한 번의 클릭으로 애니메이션 스타일의 이미지를 생성할 수 있는 오픈 소스 모델 방금 출시되었습니다! 한 번의 클릭으로 애니메이션 스타일의 이미지를 생성할 수 있는 오픈 소스 모델 Apr 08, 2024 pm 06:01 PM

최신 AIGC 오픈소스 프로젝트인 AnimagineXL3.1을 소개하겠습니다. 이 프로젝트는 사용자에게 더욱 최적화되고 강력한 애니메이션 이미지 생성 경험을 제공하는 것을 목표로 하는 애니메이션 테마의 텍스트-이미지 모델의 최신 버전입니다. AnimagineXL3.1에서 개발 팀은 모델이 성능과 기능 면에서 새로운 수준에 도달할 수 있도록 여러 주요 측면을 최적화하는 데 중점을 두었습니다. 첫째, 이전 버전의 게임 캐릭터 데이터뿐만 아니라 다른 많은 유명 애니메이션 시리즈의 데이터도 훈련 세트에 포함하도록 훈련 데이터를 확장했습니다. 이러한 움직임은 모델의 지식 기반을 풍부하게 하여 다양한 애니메이션 스타일과 캐릭터를 더 완벽하게 이해할 수 있게 해줍니다. AnimagineXL3.1은 새로운 특수 태그 및 미학 세트를 소개합니다.

See all articles