최근 몇 년 동안 텍스트 생성 이미지 분야에서 놀라운 혁신이 많이 이루어졌으며, 많은 모델이 텍스트 지침을 기반으로 고품질의 다양한 이미지를 생성할 수 있습니다. 생성된 이미지가 이미 매우 사실적임에도 불구하고 현재 모델은 일반적으로 풍경, 사물과 같은 물리적 이미지를 생성하는 데는 능숙하지만, 한자와 같은 복잡한 글리프 텍스트가 포함된 이미지와 같이 세부적으로 일관성이 높은 이미지를 생성하는 데 어려움을 겪습니다
이를 해결하려면 문제는 OPPO 및 기타 기관의 연구원들이 GlyphDraw라는 범용 학습 프레임워크를 제안한 것입니다. 이 프레임워크의 목표는 모델이 일관된 텍스트가 포함된 이미지를 생성할 수 있도록 하는 것입니다. 이 작품은 이미지 합성 분야에서 한자 생성 문제를 최초로 해결한 작품입니다
논문을 보려면 다음 링크를 클릭하세요: https://arxiv.org/abs/2303.17870
프로젝트 홈페이지 링크 : https://1073521013.github.io/glyph-draw.github.io/
전시장 경고 슬로건 생성 등 세대효과를 먼저 살펴보자 :
광고판 만들기:
사진에 간단한 텍스트 설명을 추가하고 텍스트 스타일도 다양화하세요.
또 다른 흥미롭고 실용적인 예는 이모티콘을 생성하는 것입니다.
결과에는 전반적으로 몇 가지 결함이 있지만 , 연구는 훌륭한 결과를 얻었습니다. 본 연구의 주요 기여는 다음과 같습니다.
본 연구는 GlyphDraw라는 한자 이미지 생성 프레임워크를 제안합니다. 전체 생성 과정에서 한자 글리프 및 위치와 같은 보조 정보를 사용하여 프레임워크가 세밀한 안내를 제공할 수 있으므로 생성된 한자 이미지를 고품질의 이미지에 원활하게 삽입할 수 있습니다
이것은 이 효과적인 훈련 전략은 사전 훈련된 모델에서 훈련 가능한 매개변수의 수를 제한함으로써 개방형 도메인 생성에서 모델의 강력한 성능을 성공적으로 유지하여 과적합과 치명적인 망각을 방지하고 한자 이미지를 정확하게 생성할 수 있습니다
훈련 데이터 세트를 구축하는 과정을 자세히 설명하고 한자 이미지 생성 품질을 평가하기 위한 새로운 기준 방법을 제안합니다. 그 중 GlyphDraw의 생성 정확도는 75%에 달했는데, 이는 이전 이미지 합성 방법보다 훨씬 뛰어났습니다
모델 소개:
먼저, 연구는 복잡한 이미지-텍스트 데이터 세트 구성 전략을 설계했습니다. . 그런 다음 오픈 소스 이미지 합성 알고리즘 Stable Diffusion을 사용하여 그림 2와 같이 일반적인 학습 프레임워크인 GlyphDraw를 제안합니다. stable 확산의 전반적인 훈련 목표는 다음 공식으로 표현될 수 있습니다.
GlyphDraw는 안정적 확산의 교차 주의 메커니즘입니다. 원본 입력의 잠재 벡터 z_t를 이미지의 잠재 벡터 z_t, 텍스트 마스크 l_m 및 글리프 이미지 l_g
로 계단식 교체를 수행합니다. 또한 도메인별 융합 모듈을 사용하여 조건 C 글리프와 텍스트 혼합 기능을 갖추고 있습니다. 텍스트 마스크 및 글리프 정보의 도입으로 전체 학습 프로세스에서 세분화된 확산 제어가 가능해졌습니다. 이는 모델 성능을 향상시키고 궁극적으로 한자 텍스트가 포함된 이미지를 생성할 수 있는 핵심 구성 요소입니다.
구체적으로 텍스트 정보의 픽셀 표현 , 특히 그림 문자와 같은 복잡한 텍스트 형식에서는 자연 물체와 명백한 차이가 있습니다. 예를 들어, 중국어 단어 "하늘"은 2차원 구조의 여러 획으로 구성되어 있으며 이에 상응하는 자연스러운 이미지는 "흰 구름이 점재하는 푸른 하늘"입니다. 그에 비해 한자는 매우 세밀하고 작은 움직임이나 변형으로도 텍스트가 잘못 렌더링되어 이미지 생성이 불가능할 수 있습니다
자연 이미지 배경에 문자를 삽입하려면 인접한 자연 이미지 픽셀에 영향을 주지 않고 텍스트 픽셀 생성을 정확하게 제어하는 핵심 문제도 고려해야 합니다. 저자는 자연스러운 이미지에 완벽한 한자를 표시하기 위해 위치 제어와 글리프 제어라는 두 가지 핵심 구성 요소를 확산 합성 모델에 통합하도록 설계했습니다.
다른 모델의 전역 조건부 입력과 달리 문자 생성에는 더 많은 요소가 필요합니다. 문자 픽셀의 잠재 특징 분포가 자연 이미지 픽셀의 분포와 매우 다르기 때문에 이미지의 특정 로컬 영역에 적용됩니다. 모델 학습이 무너지는 것을 방지하기 위해 본 연구에서는 세밀한 위치 영역 제어를 혁신적으로 제안하여 서로 다른 영역 간의 분포를 분리합니다
내용 재작성: 위치 제어 외에 또 다른 중요한 문제는 한자획의 합성입니다. . 한자의 복잡성과 다양성을 고려할 때, 명시적인 사전 지식 없이 대규모 이미지-텍스트 데이터 세트에서 학습하는 것은 매우 어렵습니다. 한자를 정확하게 생성하기 위해 본 연구에서는 모델의 확산 과정에 추가 조건 정보로 명시적 글리프 이미지를 도입합니다
원래 의미를 그대로 유지하려면 내용을 중국어로 다시 작성해야 합니다. 다음은 다시 작성된 내용입니다. 연구 설계 및 실험 결과
한자 이미지 생성을 위한 이전 데이터 세트가 없었기 때문에 본 연구에서는 먼저 정성적, 정량적 평가를 위한 벤치마크 데이터 세트인 ChineseDrawText를 만들었습니다. 이후 연구원들은 ChineseDrawText에서 여러 방법의 생성 정확도를 테스트하고 OCR 인식 모델을 통해 이를 평가했습니다
본 연구에서 제안한 GlyphDraw 모델은 보조 글리프와 위치 정보를 최대한 활용하여 평균 정확도를 달성했습니다. 75%의 비율로 모델의 캐릭터 이미지 생성 능력이 탁월함을 입증합니다. 아래 그림은 여러 방법의 시각적 비교 결과를 보여줍니다.
또한 GlyphDraw는 훈련 매개변수를 제한하여 개방형 도메인 이미지 합성 성능을 유지할 수도 있습니다. MS-COCO FID-10k에서는 일반 이미지 합성의 FID가 1만큼만 떨어졌습니다. 2.3
관심 있는 독자는 논문의 원문을 읽고 더 많은 연구 세부 사항을 알아볼 수 있습니다.
위 내용은 OPPO는 GlyphDraw를 제안합니다: 한자가 포함된 이미지의 원클릭 생성, 이모티콘 출력을 위한 확산 모델의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!