すぐに、新しい目的のために安定拡散が発見されました -
ロゴをデザインする上で最も重要な「形式と意味の組み合わせ」は、それによって明確に理解されます。 Cat が数秒で猫の頭を描くのを見ました:
## ヨガショップ YOGA 文字が人間の形に変換され、そのスタイルは完全に正しいです:キャラクターの1人だけをデザインしても大丈夫です。たとえば、犬のdを犬として描く:
##それは本当にシンプルで表現力があります、それ? 中国語フォントに直面した場合でも、AI は意味をよく理解し、甲が伝えたいロゴ画像を素早く描画します。##店舗を開いてこれを使用するのに、なぜロゴのデザインに何十ドルも何百ドルも費やす必要があるのでしょうか? (doge)
ロゴをデザインするAIはこれまでにもたくさんありましたが、今回生成された効果を見る限り、それは本当に少し異なります。
元のフォントの風味の一部を残す
エフェクトの観点からは、主に 3 つのカテゴリに分類できます。
1 つ目は、ピクチャ スタイルを転送するための形状制限としてフォントを使用する方法です (図 AB を参照) ); 2 番目は、ピクチャ スタイルをベースとして使用し、フォントをピクチャに移行します (図 D)。 3 番目は、さまざまなピクチャの形状とフォントを関連付けて、カラーまたは白黒の「イメージ スプライシング」スタイルのロゴ デザインを生成します (図 D)。 CE)。
ただし、以下の人間がデザインしたロゴと比べると、上のAIデザインの効果は見苦しいとは言えませんが、若干劣るようです意味のある:
徹底した調査の結果、著者らは人間がデザインしたロゴが「卑猥で目立たない」ものではないことを発見しました。
人間のデザイナーは、人々が一目で単語を認識できるように元のフォントの特徴を維持し、ジャズの J を楽器に変更するなど、他の人が認識できるように少しの革新を追加します。 「JAZZ」フォントの形が一目で分かります。
一般的には、フォントの「味」の一部を残しつつ、デザイン性を持たせることを指します。
たとえば、これは Stable Diffusion によって生成された「FROG」のデザインです。FRO は元のフォントの形状のままですが、G だけが飛び出した小さなカエルになります。
Stable Diffusion 2 を使用してさらに後処理を行うと、カラーリング機能をさらに実現し、より鮮やかに表示できます:
生成されるロゴのスタイルは、元のデザインのフォントを変更すると変更される場合もあります。
たとえば、これらは 8 つのフォントで生成されたさまざまなヨガのロゴであり、それぞれのスタイルが異なります:
対照的に、他の AI モデルでは、フォントを生成するときに、自分のスタイルを維持することを好みます (手動の犬の頭):
それでは、この魔法のフォント デザイン AI はどのように作成するのでしょうか?
ベジェ曲線を使用して文字の形状を調整する
は、ベジェ曲線を使用してさまざまなフォントの文字をわずかに変形する方法を AI に学習させることです。
(PS で「ペン」を使用したことがある友人は、ベジェ曲線に精通しているはずです。これを使用してマウスを制御し、魔法の曲線を描画します)
デザインされた文字が要件を満たすまで、文字の複雑さとフォント スタイルに従って、特定の数の制御点が繰り返し変換されます。オレンジが最初の点、青が後続の制御です追加されたポイント:
#制御点の数は生成効果にどの程度影響しますか?
これは、例えば、文字を生成する際に制御点の数を変えた場合の効果で、数値が小さすぎるとデザインした画像の形が不鮮明になり、多すぎるとデザインされた画像の形が不鮮明になりやすくなります。フォントの元の形状を歪める:
この核となる設計アイデアに基づいて、著者は安定拡散と CLIP を組み合わせてフォント デザイン全体の AI モデルを設計しました:
このうち、ACAP (可能な限り等角) 損失関数は、文字の形状をさらに制約するドロネー三角形分割アルゴリズムに基づいています。
たとえば、これは PANTS (パンツ) の変形前と変形後の形状ですが、ACAP がパンツの形状を維持しながらフォント効果を維持していることがわかります。
##同時に、フォントの形式をさらに維持するために、作成者はローパス フィルターを使用して、調整された文字が元の文字から大きく逸脱しないようにしました。たとえば、これは Bear の B の調整された形式です。 この一連のモデルを適用すると、各文字の生成速度もかなり優れています。RTX 2080 GPU では、1 文字のロゴ デザインを生成するのに約 5 分かかります。
著者の紹介
著者がプロジェクトのホームページに投稿した論文は匿名です:
しかし、arXiv では、著者名は公開されており、イスラエルのテルアビブ大学、ライヒマン大学 (ライヒマン大学)、およびロンドン大学ゴールドスミス カレッジの出身です: 共著者Shir Iluz 氏、テルアビブ大学電子電気工学修士号、現在の研究方向は生成 AI で、興味のある分野はディープ ラーニングとコンピューター ビジョンです。##共著者の Yael Vinker は、テルアビブ大学でコンピュータ ビジョンを専攻する博士課程の学生で、イスラエルのヘブライ大学でコンピュータ サイエンスの学士号と修士号を取得しています。方向性はディープラーニングとコンピュータービジョンにもあります。
Lei Jun が Xiaomi ロゴのデザインに費やした 200 万元はあまりにも早く使われたようです
論文アドレス: https://arxiv. org/abs /2303.01818
プロジェクトアドレス: https://wordasimage.github.io/Word-As-Image-Page/以上が無料のAIロゴデザインの効果は素晴らしく、Lei Junは200万を費やすのが早すぎましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。