목차
모델 소개
실험 및 결과
기술 주변기기 일체 포함 확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

Apr 11, 2023 pm 08:13 PM
ai 영상

최근 텍스트 생성 이미지 분야에서 예상치 못한 많은 혁신이 이루어졌으며 많은 모델이 텍스트 지침을 기반으로 고품질의 다양한 이미지를 생성하는 기능을 달성할 수 있습니다. 생성된 이미지는 이미 매우 사실적이지만 현재 모델은 풍경이나 물체와 같은 물리적 물체의 이미지를 생성하는 데 능숙하지만 한자와 같은 복잡한 문자 텍스트가 포함된 이미지와 같이 일관성 있는 세부 수준이 높은 이미지를 생성하는 데 어려움을 겪고 있습니다. .

이 문제를 해결하기 위해 OPPO 및 기타 기관의 연구자들은 모델이 일관된 텍스트가 포함된 이미지를 생성할 수 있도록 설계된 일반 학습 프레임워크인 GlyphDraw를 제안했습니다. 이는 이미지 분야의 첫 번째 작업입니다. 한자 생성 문제를 해결하기 위한 합성.

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

  • 논문 주소: https://arxiv.org/abs/2303.17870
  • 프로젝트 홈페이지: https://1073521013.github.io/glyph-draw.github.io/

먼저 생성 효과를 살펴보겠습니다. 예를 들어 전시장에 대한 경고 슬로건 생성:

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

광고판 생성:

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

간단한 텍스트 추가 그림, 텍스트에 대한 설명 스타일도 다양할 수 있습니다.

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

또한 가장 흥미롭고 실용적인 예는 이모티콘을 생성하는 것입니다.

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

결과에 몇 가지 결함이 있지만 , 전반적인 세대 효과는 매우 좋습니다. 전반적으로 이 연구의 주요 기여는 다음과 같습니다.


  • 이 연구는 한자 글리프 및 위치를 포함한 일부 보조 정보를 활용하여 세대 전체에 걸쳐 세밀한 이미지를 제공하는 최초의 한자 이미지 생성 프레임워크 GlyphDraw를 제안합니다.
  • 본 연구는 과적합과 치명적인 망각을 방지하기 위해 사전 훈련된 모델에서 훈련 가능한 매개변수의 수를 제한하는 효과적인 훈련 전략을 제안합니다. 모델의 강력한 오픈 도메인 생성 성능을 구현하는 동시에 정확한 한자 이미지 생성을 달성합니다.
  • 본 연구에서는 훈련 데이터 세트의 구축 과정을 소개하고 OCR 모델을 활용한 한자 이미지 생성 품질을 평가하기 위한 새로운 벤치마크를 제안합니다. 그 중 GlyphDraw는 이전 이미지 합성 방법보다 훨씬 향상된 75%의 생성 정확도를 달성했습니다.

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

모델 소개

본 연구는 먼저 복잡한 이미지-텍스트 데이터 세트 구축 전략을 설계한 후, 오픈 소스 이미지 합성 알고리즘인 Stable Diffusion을 기반으로 하는 일반적인 학습 프레임워크인 GlyphDraw를 제안했습니다. 아래 그림 2.

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

Stable Diffusion의 전반적인 훈련 목표는 다음 공식으로 표현될 수 있습니다.

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

GlyphDraw는 원본 입력 잠재 벡터 z_t가 이미지 잠재 벡터 z_t, 텍스트 마스크 l_m 및 글리프 이미지 l_g의 연결로 대체되는 Stable Diffusion의 교차 주의 메커니즘을 기반으로 합니다.

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

또한 조건 C는 도메인별 융합 모듈을 사용하여 하이브리드 글리프와 텍스트 기능을 갖추고 있습니다. 텍스트 마스크 및 글리프 정보의 도입을 통해 전체 학습 프로세스에서 모델 성능 향상의 핵심 구성 요소인 세분화된 확산 제어를 달성하고 궁극적으로 한자 텍스트가 포함된 이미지를 생성할 수 있습니다.

특히 텍스트 정보, 특히 그림 문자와 같은 복잡한 텍스트 형식의 픽셀 표현은 자연 물체와 크게 다릅니다. 예를 들어, 중국어 단어 "하늘"은 2차원 구조의 여러 획으로 구성되어 있으며 그에 상응하는 자연스러운 이미지는 "흰 구름이 점재하는 푸른 하늘"입니다. 이에 비해 한자는 매우 세밀한 특성을 갖고 있어 작은 움직임이나 변형에도 잘못된 텍스트 렌더링이 발생하여 이미지 생성이 불가능할 수 있습니다.

자연 이미지 배경에 문자를 삽입할 때 고려해야 할 주요 문제도 있습니다. 이는 인접한 자연 이미지 픽셀에 영향을 주지 않으면서 텍스트 픽셀 생성을 정확하게 제어하는 ​​것입니다. 자연스러운 이미지에 완벽한 한자를 렌더링하기 위해 저자는 확산 합성 모델에 통합된 두 가지 핵심 구성 요소, 즉 위치 제어와 글리프 제어를 신중하게 설계했습니다.

다른 모델의 전역 조건부 입력과 달리 문자 생성은 문자 픽셀의 잠재 특징 분포가 자연 이미지 픽셀의 잠재 특징 분포와 매우 다르기 때문에 이미지의 특정 로컬 영역에 더 많은 주의를 기울여야 합니다. 모델 학습이 붕괴되는 것을 방지하기 위해 본 연구에서는 서로 다른 영역 간의 분포를 분리하는 세분화된 위치 영역 제어를 혁신적으로 제안합니다.

위치 제어 외에 또 다른 중요한 이슈는 한자 획 합성의 미세한 제어입니다. 한자의 복잡성과 다양성을 고려할 때, 명시적인 사전 지식 없이 대규모 이미지-텍스트 데이터세트에서 단순히 학습하는 것은 극히 어렵습니다. 한자를 정확하게 생성하기 위해 본 연구에서는 모델 확산 프로세스에 추가 조건 정보로 명시적인 글리프 이미지를 통합합니다.

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

실험 및 결과

한자 이미지 생성을 위한 기존 데이터 세트가 없기 때문에 본 연구에서는 먼저 정성적, 정량적 평가를 위해 벤치마크 데이터 세트인 ChineseDrawText를 구축한 후 ChineseDrawText 생성 정확도를 테스트하고 비교했습니다. 여러 가지 방법 중 (OCR 인식 모델로 평가)

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

본 연구에서 제안한 GlyphDraw 모델은 보조 글리프와 위치 정보를 효과적으로 활용하여 평균 75%의 정확도를 달성하여 모델의 우수한 캐릭터 이미지 생성 능력을 입증했습니다. 여러 방법의 시각적 비교 결과는 아래 그림에 나와 있습니다.

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

또한 GlyphDraw는 MS-COCO FID-에서 일반 이미지 합성의 FID를 제한하여 개방형 도메인 이미지 합성 성능을 유지할 수도 있습니다. 10k는 2.3만큼만 떨어집니다.

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw

관심 있는 독자는 논문의 원본을 읽고 더 많은 연구 세부 사항을 알아볼 수 있습니다.

위 내용은 확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Centos Shutdown 명령 줄 Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Sony는 PS5 Pro에서 특수 GPU를 사용하여 AMD로 AI를 개발할 가능성을 확인합니다. Sony는 PS5 Pro에서 특수 GPU를 사용하여 AMD로 AI를 개발할 가능성을 확인합니다. Apr 13, 2025 pm 11:45 PM

Sonyinteractiveent intustionment (SIE, Sony Interactive Entertainment)의 최고 건축가 인 Mark Cerny는 성능 업그레이드 된 AMDRDNA2.X 아키텍처 GPU 및 AMD와 함께 기계 학습/인공 지능 프로그램 코드 "Amethylst"를 포함하여 차세대 호스트 PlayStation5Pro (PS5PRO)에 대한 더 많은 하드웨어 세부 정보를 발표했습니다. PS5PRO 성능 향상의 초점은 여전히 ​​강력한 GPU, Advanced Ray Tracing 및 AI 구동 PSSR Super-Resolution 기능을 포함하여 세 가지 기둥에 있습니다. GPU는 Sony가 RDNA2.x라는 맞춤형 AMDRDNA2 아키텍처를 채택하며 RDNA3 아키텍처가 있습니다.

Centos에서 Gitlab의 백업 방법은 무엇입니까? Centos에서 Gitlab의 백업 방법은 무엇입니까? Apr 14, 2025 pm 05:33 PM

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos HDFS 구성을 확인하는 방법 Centos HDFS 구성을 확인하는 방법 Apr 14, 2025 pm 07:21 PM

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

Centos에서 Zookeeper의 성능을 조정하는 방법은 무엇입니까? Centos에서 Zookeeper의 성능을 조정하는 방법은 무엇입니까? Apr 14, 2025 pm 03:18 PM

CentOS에 대한 Zookeeper Performance Tuning은 하드웨어 구성, 운영 체제 최적화, 구성 매개 변수 조정, 모니터링 및 유지 관리 등 여러 측면에서 시작할 수 있습니다. 특정 튜닝 방법은 다음과 같습니다. SSD는 하드웨어 구성에 권장됩니다. Zookeeper의 데이터는 디스크에 작성되므로 SSD를 사용하여 I/O 성능을 향상시키는 것이 좋습니다. 충분한 메모리 : 자주 디스크 읽기 및 쓰기를 피하기 위해 충분한 메모리 리소스를 동물원에 충분한 메모리 자원을 할당하십시오. 멀티 코어 CPU : 멀티 코어 CPU를 사용하여 Zookeeper가이를 병렬로 처리 할 수 ​​있도록하십시오.

Centos에서 Pytorch 모델을 훈련시키는 방법 Centos에서 Pytorch 모델을 훈련시키는 방법 Apr 14, 2025 pm 03:03 PM

CentOS 시스템에서 Pytorch 모델을 효율적으로 교육하려면 단계가 필요 하며이 기사는 자세한 가이드를 제공합니다. 1. 환경 준비 : 파이썬 및 종속성 설치 : CentOS 시스템은 일반적으로 파이썬을 사전 설치하지만 버전은 더 오래 될 수 있습니다. YUM 또는 DNF를 사용하여 Python 3 및 Upgrade Pip : Sudoyumupdatepython3 (또는 SudodnfupdatePython3), PIP3INSTALL-UPGRADEPIP를 설치하는 것이 좋습니다. CUDA 및 CUDNN (GPU 가속도) : NVIDIAGPU를 사용하는 경우 Cudatool을 설치해야합니다.

Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Apr 14, 2025 pm 06:48 PM

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

마침내 변경되었습니다! Microsoft Windows 검색 기능은 새로운 업데이트를 안내합니다. 마침내 변경되었습니다! Microsoft Windows 검색 기능은 새로운 업데이트를 안내합니다. Apr 13, 2025 pm 11:42 PM

EU의 일부 Windows 내부 채널에서 Microsoft의 Windows 검색 기능 개선이 테스트되었습니다. 이전에 통합 Windows 검색 기능은 사용자에 의해 비판을 받았으며 경험이 좋지 않았습니다. 이 업데이트는 검색 기능을 두 부분으로 나눕니다. 로컬 검색 및 Bing 기반 웹 검색을 위해 사용자 경험을 향상시킵니다. 검색 인터페이스의 새 버전은 기본적으로 로컬 파일 검색을 수행합니다. 온라인으로 검색 해야하는 경우 "Microsoft BingwebSearch"탭을 클릭하여 전환해야합니다. 전환 후 검색 바에는 사용자가 키워드를 입력 할 수있는 "Microsoft Bingwebsearch :"가 표시됩니다. 이 움직임은 로컬 검색 결과와 Bing 검색 결과의 혼합을 효과적으로 피합니다.

See all articles