目次
NeROIC: オンライン ギャラリーを使用したニューラル レンダリング
自動運転車はどのようにして「6 つの方向を見る」ことができるのでしょうか?
DALL・E ファミリの「若者版」として、DALL・E mini は無料でオープンソースです。コードは残っていますが、次に魔改造されるのは誰でしょうか?
NLLB: 言語は取り残されません
CVPR 2022 最優秀論文栄誉賞を受賞したこの研究は、「低速」カメラ (130FPS) を使用して複数のシーン ソースを同時に検出する新しいデュアル シャッター方法を提案しています。最大 63kHz) の表面振動を検出し、音源によって引き起こされる振動を捕捉することで実現します。
DreamFusion: 2D 画像を使用して 3D モデルを生成
ホームページ テクノロジー周辺機器 AI 本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

Apr 13, 2023 pm 07:34 PM
ai

世界はまだ回復途上にありますが、特に人工知能の分野では、研究の熱狂的なペースが衰えていません。

さらに、今年は AI の倫理、偏見、ガバナンス、透明性が新たに重視されています。

人工知能、人間の脳と人工知能との関係についての理解は常に進化しており、近い将来、私たちの生活の質を向上させるこれらのアプリケーションが輝かしいものとなるでしょう。

有名ブロガーのルイ・ブシャール氏も、自身のブログで 2022 年に 32 (!) 件の AI テクノロジーのブレークスルーを数えています。

これらの驚くべき研究が何であるかを見てみましょう!

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

記事アドレス: https://www.louisbouchard.ai/2022-ai-recap/ #LaMA: フーリエ畳み込みに基づく解像度ロバストなラージ マスク修復

#あなたは、次のような状況を経験したことがあるはずです。あなたとあなたの友人が素晴らしい写真を撮りました。その結果、誰かがあなたの背後にいて、Moments または Xiaohongshu に送信したい写真を破壊していることがわかります。しかし今では、これはもう問題ではありません。

フーリエ畳み込みに基づく、解像度に優れたラージ マスク修復手法により、ユーザーは画像から不要なコンテンツを簡単に削除できます。人もゴミ箱も簡単に消えてしまいます。

プロの PS デザイナーがポケットに入っているようなもので、ワンクリックで簡単にクリアできます。

一見簡単そうに見えますが、画像復元は多くの AI 研究者が長い間解決を必要としていた問題です。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2109.07161

プロジェクト アドレス: https://github.com/saic-mdal/lama

##Colab デモ: https://colab.research .google .com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb

ビデオ説明: https://youtu.be /Ia79AvGzveQ

簡単な分析: https://www.louisbouchard.ai/lama/

STIT: GAN に基づくリアルビデオの顔編集

映画を観ていると、その映画に出演している俳優が自分よりもずっと若く見えるという経験をしたことがあるでしょう。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察「ジェミニマン」のウィル・スミス

Before 、これには必要があります専門家は、これらの俳優が登場するシーンを手動で編集する作業に何百、あるいは何千時間も費やす必要があります。しかし、AI を使えば数分でそれが可能になります。

実際、笑顔を増やしたり、若く見えたり、老けて見えたりするテクノロジーは数多くありますが、これらはすべて人工知能ベースのアルゴリズムを使用して自動的に行われます。動画ではAIベースの顔操作と呼ばれており、2022年の最先端技術を表している。

紙のリンク: https://arxiv.org/abs/2201.08361本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://github.com/rotemtzaban/STIT

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

ビデオ説明: https://youtu.be/mqItu9XoUgk

簡単な分析: https://www.louisbouchard.ai/stitch-it-in-time/

NeROIC: オンライン ギャラリーを使用したニューラル レンダリング

ニューラル レンダリングのリアル3D モデルは、物体、人物、またはシーンの写真を通じて空間内に生成できます。

このテクノロジーを使用すると、物体の写真を数枚必要とするだけで、機械にこれらの写真内の物体を理解させ、それが空間内でどのように見えるかをシミュレートすることができます。

人間にとって、現実世界を理解しているため、画像を通じて物体の物理的形状を理解することは簡単です。しかし、ピクセルしか認識できないマシンの場合、それはまったく別の課題になります。

生成されたモデルを新しいシナリオにどのように統合できますか?写真の照明条件や角度が異なると、結果として得られるモデルもそれに応じて変化する場合はどうなるでしょうか?これらは、Snapchat と南カリフォルニア大学がこの新しい研究で取り組む必要があった疑問です。

論文リンク: https://arxiv.org/abs/2201.02533

プロジェクト アドレス: https://github.com/snap-research/NeROIC

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

#動画説明: https://youtu.be / 88Pl9zD1Z78

簡単な分析: https://www.louisbouchard.ai/neroic/

SpeechPainter: テキスト条件付き音声修復

画像の場合、機械学習ベースの修復テクノロジーは、コンテンツを削除するだけでなく、背景情報に基づいて画像の欠落部分を埋めることもできます。

ビデオ復元の課題は、フレーム間の一貫性を維持するだけでなく、誤ったアーティファクトの生成を回避することです。同時に、ビデオから人物を「追い出す」ことに成功したら、その人物の声も削除する必要があります。

この目的を達成するために、Google の研究者は、文法や発音を修正し、動画内の背景ノイズを除去することもできる新しい音声修復方法を提案しました。

論文リンク: https://arxiv.org/abs/2202.07273

ビデオ説明: https://youtu.be/zIIc4bRf5Hg

簡単な分析: https://www.louisbouchard.ai/speech-inpainting-with-ai/

GFP-GAN: 生成顔事前分布を使用して現実世界のブラインドフェイス復元を実現

古い写真を集めたものはありますか?画質がぼやけていませんか?心配しないでください。ブラインドフェイス修復を使えば、あなたの思い出は永遠に残ります。

この新しい無料の AI モデルは、古い写真のほとんどを瞬時に修復できます。復元前の写真の品質が非常に低い場合でも、非常にうまく機能します。これは以前は非常に困難なことでした。

さらにすばらしいのは、好きな方法で試してみることができることです。彼らはコードをオープンソース化し、誰でも試せるデモとオンライン アプリケーションを作成しました。このテクノロジーには驚かれると思います。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2101.04061

プロジェクトアドレス: https://github.com/TencentARC/GFPGAN

Colab デモ: https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo

オンライン アプリケーション: https: //huggingface.co/spaces/akhaliq/GFPGAN

ビデオ説明: https://youtu.be/nLDVtzcSeqM

簡単な分析: https://www.louisbouchard.ai/gfp-gan/

4D-Net: マルチモーダル アライメントの学習

自動運転車はどのようにして「6 つの方向を見る」ことができるのでしょうか?

自動車会社が使用している LiDAR センサーやその他の奇妙なカメラについて聞いたことがあるかもしれません。しかし、彼らはどのように働き、世界をどのように見ているのでしょうか、そして彼らは私たちと比べて具体的に何が違うのでしょうか?

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2109.01066

世界を理解するためにカメラのみを使用する Tesla とは異なり、Waymo などのほとんどの自動運転車メーカーは通常のカメラと 3D LiDAR センサーを使用しています。

通常のカメラのように画像を生成するのではなく、RGB センシング情報を使用して 3D 点群を生成し、物体間の距離を測定し、物体に投影するパルス レーザー光を計算します。 . 伝播時間。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

それにもかかわらず、この情報を効果的に組み合わせて車両に理解させるにはどうすればよいでしょうか?車両は最終的に何を目にするのでしょうか?自動運転は十分に安全ですか? Waymo と Google の新しい研究論文がこれらの謎に答えます。

#ビデオ説明: https://youtu.be/0nJMnw1Ldks

##簡単な分析: https: / /www.louisbouchard.ai/waymo-lidar/

Instant NeRF: マルチ解像度ハッシュ エンコーディングに基づくインスタント ニューラル プリミティブ

写真シミュレートを渡す方法世界はどのように見えますか?

AI モデルを使用すると、キャプチャした画像を高品質の 3D モデルに変換できます。この困難な課題により、研究者は 2D 画像を使用して、物体や人が 3 次元の世界でどのように見えるかを作成できます。

ハッシュ エンコードされたニューラル プリミティブ (グラフィック プリミティブ) を通じて、Nvidia は NeRF を 5 秒でトレーニングし、より良い結果を達成できます。 2 年足らずの研究で、NeRF のトレーニング速度は 1,000 倍以上増加しました。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察紙のリンク: https://arxiv.org/abs/2201.05989

プロジェクトアドレス: https://github.com/NVlabs/instant-ngp

##ビデオ説明: https://youtu.be/UHQZBQOVAIU本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

簡単な分析: https://www.louisbouchard.ai/nvidia-photos-into-3d- scenes/

DALL・E 2: CLIP 機能に基づくテキストから画像への生成モデル昨年、OpenAI はテキストから画像への生成モデルをリリースしました。ダル・イー。 DALL・E 2 のアップグレード版が再び登場しました。

DALL・E 2 はテキストからリアルな画像を生成するだけでなく、その出力の解像度は 4 倍です。

ただし、パフォーマンスの向上は OpenAI を満足させるのに十分ではないと思われるため、DALL・E 2 にイメージ修復という新しいスキルを学習させました。

つまり、DALL・E 2 で画像を編集したり、背景にフラミンゴを追加するなど、必要な新しい要素を追加したりできます。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2204.06125

ビデオ説明: https://youtu.be/rdGVbPI42sA

#簡単な分析: https://www.louisbouchard.ai/openais - new-model-dall-e-2-is-amazing/MyStyle: パーソナライズされた世代以前のモデル

Google とテルアビブ大学が非常に強力な DeepFake を提案テクノロジー。これを使えば、ほぼ何でもできます。

人物の写真を何百枚も撮り、その画像をエンコードし、修正、編集、または好みの外観を作成するだけです。

特に結果を見ると、驚くべきことであり、恐ろしいことでもあります。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2203.17272

プロジェクトアドレス: https://mystyle-personalized-prior.github.io/

#ビデオ説明: https://youtu.be /BNWAEvFfFvQ

簡単な分析: https://www.louisbouchard.ai/mystyle/

OPT: 開く事前トレーニング済みの Transformer 言語モデル

GPT-3 が非常に強力である理由は、そのアーキテクチャとサイズです。

これには、人間の脳のニューロンの数の 2 倍である 1,750 億個のパラメーターがあります。このような大規模なニューラル ネットワークにより、モデルはインターネットのほぼ全体を学習し、私たちがテキストをどのように書き、交換し、理解するかを理解できるようになりました。

人々が GPT-3 の強力な機能に驚嘆していたまさにそのとき、Meta はオープンソース コミュニティに向けて大きな一歩を踏み出しました。彼らは同様に強力なモデルをリリースしましたが、現在は完全にオープンソースです。

このモデルには 1,000 億を超えるレベルのパラメーターがあるだけでなく、GPT-3 と比較して、OPT-175B はよりオープンでアクセスしやすいものになっています。

紙のリンク: https://arxiv.org/abs/2205.01068本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://github.com/facebookresearch/metaseq

##ビデオリンク: https: //youtu.be/Ejg0OunCi9U

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

簡単な分析: https://www.louisbouchard.ai/opt-meta/

BlobGAN: 空間的に離散的なシーン表現

シーンを記述する方法について、Adobe 研究チームは新しい手法 BlobGAN を提供しました。

BlobGAN は、「ブロブ」を使用してシーン内のオブジェクトを記述します。研究者はブロブを移動して、ブロブを大きくしたり小さくしたり、削除したりすることもできます。これにより、画像内でブロブが表すオブジェクトに同じ効果が生じます。

著者らが結果を共有しているように、BLOB を複製することでデータセット内に新しい画像を作成できます。

BlobGAN のコードがオープンソース化されましたので、興味のある方は急いで試してみてください。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2205.02837

プロジェクトのアドレス: https://github.com/dave-epstein/blobgan

Colab デモ: https://colab.research.google.com/drive /1clvh28Yds5CvKsYYENGLS3iIIrlZK4xO?usp=sharing#scrollTo=0QuVIyVplOKu

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##ビデオ説明: https://youtu.be/mnEzjpiA_4E

簡単な分析: https://www.louisbouchard.ai/blobgan/

ガトー: ジェネラリスト エージェント

DeepMind は、単一の「ユニバーサル」エージェント Gato を構築しました。 Atari ゲームをプレイしたり、字幕画像を作成したり、人々とチャットしたり、ロボット アームを制御したりできます。

さらに衝撃的なのは、同じウェイトを使用して 1 回トレーニングするだけで、すべてのタスクを完了できることです。

Gato はマルチモーダル エージェントです。つまり、画像のキャプションを作成することも、質問に答えるチャットボットとして機能することもできます。

GPT-3 もチャットできますが、Gato がそれ以上のことができることは明らかです。結局のところ、チャットできる AI はよくありますが、一緒にゲームをプレイできる AI は多くありません。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2205.06175

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

#ビデオ説明: https://youtu.be/xZKSWNv6Esc

##簡単な分析: https:// www.louisbouchard.ai/deepmind-gato/

Imagen: 深い言語理解によるテキストから画像への拡散モデル

DALL · E と思われる場合2 は素晴らしいので、Google Brain のこの新しいモデル Imagen で何ができるかを見てみましょう。

DALL・E は素晴らしいのですが、生成される画像は現実感に欠けることが多く、Google チームが開発した Imagen はこの問題を解決することを目指しています。

テキストと画像のモデルを比較するベンチマークによると、Imagen は大規模な言語モデルのテキスト埋め込みによるテキストと画像の合成において顕著な結果を達成しました。結果として得られる画像は、想像力豊かでありながら現実的です。

紙のリンク: https://arxiv.org/abs/2205.11487本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://imagen.research.google/

##ビデオ説明: https :/ /youtu.be/qhtYPhPWCsI

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

簡単な分析: https://www.louisbouchard.ai/google-brain-imagen/

DALL・E Mini##Xiao Zha の一連の怖い写真は、Twitter 上で一時期人気になりました。 DALL・E miniが制作したサンのお得な作品セットです。

DALL・E ファミリの「若者版」として、DALL・E mini は無料でオープンソースです。コードは残っていますが、次に魔改造されるのは誰でしょうか?

プロジェクト アドレス: https://github.com/bolisdayma/dalle-mini

オンライン エクスペリエンス: https:// hackgingface.co/spaces/dalle-mini/dalle-mini

ビデオ説明: https://youtu.be/K3bZXXjW788

簡単な分析: https://www.louisbouchard.ai/dalle-mini/

NLLB: 言語は取り残されません

Meta AI がリリースしたこの NLLB-200 モデルは、「No Language Left Behind」(言語を取り残さない) に由来するモデルネーミングコンセプトで、200 以上の言語で任意の翻訳を実現できます。

研究のハイライトは、研究者らがほとんどのリソースの少ない言語トレーニングを数桁改善し、200 言語の翻訳で SOTA の結果を達成したことです。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

論文リンク: https://research.facebook.com/publications/no-lang-left-behind/

# プロジェクトアドレス: https://github.com/facebookresearch/fairseq/tree/nllb

#オンライン体験: https://nllb.metademolab.com/

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##ビデオ説明: https://youtu.be /2G4NeG17Eis

簡単な分析: https://www.louisbouchard.ai/no- language-left-behind/ デュアルシャッター光学式振動感知システム

音も見えるのですか?

CVPR 2022 最優秀論文栄誉賞を受賞したこの研究は、「低速」カメラ (130FPS) を使用して複数のシーン ソースを同時に検出する新しいデュアル シャッター方法を提案しています。最大 63kHz) の表面振動を検出し、音源によって引き起こされる振動を捕捉することで実現します。

これにより、楽器の分離やノイズの除去など、さまざまなニーズを実現できます。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

論文リンク: https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf

プロジェクトアドレス: https://imaging.cs.cmu.edu/vibration/

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##ビデオ説明: https://youtu.be/n1M8ZVspJcs

簡単な分析: https://www.louisbouchard .ai/cvpr-2022-best-paper/

Make-A-Scene: 人間の事前予測を使用したシーンベースのテキストから画像への生成

Make-A-Scene は単なる「もう一つの DALL・E」ではありません。

DALL・E はテキスト プロンプトに基づいてランダムな画像を生成できますが、これは非常に優れていますが、生成された結果に対するユーザーの制御も制限されます。

Meta の目標は、このテキストから画像へのトレンドと以前のスケッチから画像へのモデルを組み合わせて、クリエイティブな表現を促進し、「メイク・ア・シーン」を生み出すことです: テキスト Aスケッチ条件付き画像生成間の素晴らしいブレンド。

紙のリンク: https://arxiv.org/abs/2203.13131

ビデオ説明: https://youtu.be/K3bZXXjW788

簡単な分析: https://www.louisbouchard。 ai/make-a-scene/

BANMo: 任意のビデオからターゲット 3D アニメーション モデルを構築する

Meta の調査に基づいて、次のことが必要です。猫や犬の複数の動画をアップロードするなど、変形可能なオブジェクトをキャプチャした動画がある場合、BANMo は数千の画像からの 2D 手がかりを標準空間に統合することにより、編集可能なアニメーション 3D モデルを再構築できます。また、事前定義された形状テンプレートは必要ありません。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2112.12761

プロジェクトアドレス: https://github.com/facebookresearch/banmo

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##ビデオ説明: https: //youtu.be/jDTy-liFoCQ

簡単な分析: https://www.louisbouchard.ai/banmo/

潜在拡散モデルを使用した高解像度画像合成

今年人気の画像生成モデル DALL・E、Imagen、そして強力な Stable Diffusion の強力な画像生成モデルにはどのような機能があるのか一般?高い計算コストと膨大なトレーニング時間を除けば、それらはすべて同じ拡散メカニズムに基づいています。

拡散モデルは最近、DALL・E を使用したテキストから画像への変換や、画像の修復、スタイル転送、画像の超解像度。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察紙のリンク: https://arxiv.org/abs/2112.10752

プロジェクトアドレス: https://github.com/CompVis/latent-diffusion

ビデオ説明: https://youtu.be / RGBNdD3Wn-g

##簡単な分析: https://www.louisbouchard.ai/latent-diffusion-models/

PSG: シーンベースの画像生成モデルAI は画像内のオブジェクトを正確に識別するのに役立ちますが、オブジェクトと環境の関係を理解するのはそれほど簡単ではありません。

この目的を達成するために、Nanyang Polytechnic の研究者は、パノラマ セグメンテーションに基づくパノラマ シーン グラフ生成 (PSG) タスクを提案しました。

従来の検出フレームベースのシーングラフ生成と比較して、PSG タスクでは、画像内のすべての関係 (オブジェクトとオブジェクト間の関係、オブジェクトとオブジェクト間の関係を含む) の包括的な出力が必要です。背景、背景と背景の関係など)、正確なセグメンテーション ブロックを使用してオブジェクトを見つけます。

紙のリンク: https://arxiv.org/abs/2207.11247

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://psgdataset.org/

#オンライン申請: https://huggingface.co/spaces/ECCV2022/ PSG

ビデオ説明: https://youtu.be/cSsE_H_0Cr8

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

ショートストーリー分析: https://www.louisbouchard.ai/psg/テキスト反転を使用して、テキストから画像へのパーソナライズされた生成を実現します

今年の大手メーカーの画像生成モデルは、海を渡る8人の仙人がそれぞれの不思議な力を発揮しているようなものだと言えますが、どのようにモデルに特定のスタイルの画像作品を生成させるのでしょうか?

テルアビブ大学と NVIDIA の学者は協力して、必要な画像を DIY できるパーソナライズされた画像生成モデルを立ち上げました。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2208.01618

プロジェクトアドレス: https://textual-inversion.github.io/

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

#ビデオ説明: https://youtu.be/f3oXa7_SYek

簡単な分析: https://www.louisbouchard.ai/imageworthoneword/ #一般的なビデオ認識用の言語画像事前トレーニング モデル

ビジュアル テキスト モデルの学習は間違いなく大きな成功を収めましたが、この新しい言語画像を事前トレーニングする方法は、方法の拡張です。ビデオ領域については未解決の問題が残っています。

Microsoft と中国科学院の学者らは、新しいモデルを最初から事前トレーニングするのではなく、事前トレーニングされた言語画像モデルをビデオ認識に直接適応させるシンプルで効果的な方法を提案しました。 。

論文リンク: https://arxiv.org/abs/2208.02816

プロジェクト アドレス: https://github.com/microsoft/VideoX/tree/master/X-CLIP

ビデオ説明: https://youtu.be/seb4lmVPEe8

#簡単な分析: https://www.louisbouchard.ai/general-video-recognition/

Make- A-Video: ワンクリック テキスト生成ビデオ モデル

画家は心ゆくまでキャンバスに絵を描きます。これほど鮮明で滑らかな画像では、ビデオのすべてのフレームが生成されていると考えられますか? AIによって?

MetaAIが立ち上げたMake-A-Videoは、単語を入力するだけで数秒でさまざまなスタイルの動画を生成できる「動画版DALL・E」ではありません。過言。

紙のリンク: https://arxiv.org/abs/2209.14792本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

#ビデオ説明: https://youtu.be/MWwESVyHWto

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##簡単な分析: https:// www.louisbouchard.ai/make-a-video/

Whisper: 大規模で弱く教師ありの音声認識モデル

これについて考えたことはありますか?自分では理解できない言語であっても、ビデオ内の音声をすばやく翻訳できる翻訳ソフトウェアはありますか?

OpenAI のオープンソース Whisper はまさにそれを実現します。

Whisper は、680,000 時間以上の多言語データでトレーニングされました。騒がしい背景でも多言語音声を認識し、テキストに変換できます。さらに、専門用語の翻訳も可能です。

紙のリンク: https://arxiv.org/abs/2212.04356

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://github.com/openai/whisper#

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

ビデオ説明: https://youtu.be/uFOkMme19Zs

簡単な分析:https://www.louisbouchard.ai/whisper/

DreamFusion: 2D 画像を使用して 3D モデルを生成

テキストは画像、ビデオ、そして 3D モデルがあります ~

Google が立ち上げた DreamFusion は、事前にトレーニングされた 2D テキストを画像拡散モデルに使用することで、ワンクリックで 3D モデルを生成できます。拡散モデルは数十億の画像でトレーニングされています。テキストペア テキストから 3D モデルへの合成における最新のブレークスルーを推進します。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2209.14988

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

ビデオ説明: https://youtu.be/epuU0VRIcjE

## 簡単な分析: https:// www.louisbouchard.ai/dreamfusion/Imagic: 拡散モデルに基づく実画像編集手法

DALL・E などのテキスト画像生成モデルを使用し、文字を一行入力するだけで希望の画像を得ることができますが、AI によって生成された画像はそれほど完璧ではない場合があります。

Google、テクニオン・イスラエル工科大学、ワイツマン科学研究所の研究者らは、拡散モデルに基づく実画像編集手法である Imagic を導入しました。これは、次の方法でのみ実現できます。実際の写真のテキスト PS。

たとえば、人物の特徴を残したままポーズや構図を変更したり、立っている犬を座らせたり、鳥を羽ばたかせたりしたいです。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2210.09276

プロジェクトアドレス: https://imagic-editing.github.io/

#ビデオ説明: https://youtu.be/gbpPQ5kVJhM

簡単な分析: https://www.louisbouchard.ai/imagic/

eDiffi: 高、高-高品質な文字画像合成モデル

DALL・Eや安定拡散よりも強力な画像合成モデルが登場!

これは、より高品質な画像をより正確に生成できる NVIDIA の eDiffi で、さらにブラシ テンプレートを追加することで、作品にさらなる創造性と柔軟性を加えることができます。

論文リンク: https://arxiv.org/abs/2211.01324本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス:https://deepimagination.cc/eDiff-I/

##動画説明:https ://youtu.be/grwp-ht_ixo

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

簡単な分析: https://www.louisbouchard.ai/ediffi/

Infinite Nature: 1 枚の画像から自然シーンの無限ビュー生成を学習

##写真を撮って、それをドアのように開くことを考えたことはありますか?写真の中に飛んでいくのはどうでしょうか? ?

Google とコーネル大学の学者は、1 枚の画像から自然の風景を無制限に生成できる InfiniteNature-Zero を使用して、この想像力を現実にしました。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

論文リンク: https://arxiv.org/abs/2207.11148

プロジェクトアドレス: https://infinite-nature.github.io/

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

#ビデオ説明: https://youtu.be/FQzGhukV-l0

簡単な分析: https://www.louisbouchard.ai/infinitenature-zeroGalaxy: 科学のための大規模言語モデル

Meta によって開発された Gaoptica は、GPT-3 に匹敵する規模の大規模言語モデルですが、科学的であるという点で優れています。知識。

モデルは、政府の白書、ニュースの解説、Wikipedia のページやコードを書くことができ、引用の仕方や数式の書き方も知っています。これは人工知能と科学にとって大きな問題です。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2211.09085

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

ビデオ説明: https://youtu.be/2GfxkCWWzLU

## 簡単な分析: https:// www.louisbouchard.ai/gaoptica/

RAD-NeRF: オーディオ空間分解に基づくリアルタイム ポートレート合成モデル

DeepFake の出現以来、 NeRF、AIによる顔変更は当たり前のように見えますが、問題があり、AIによって変更された顔は、口の形と一致していないため、その秘密が明らかになることがあります。

RAD-NeRF の登場により、この問題は解決され、ビデオに登場する発言者のポートレートをリアルタイムに合成でき、カスタム アバターにも対応します。

紙のリンク: https://arxiv.org/abs/2211.12368本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://me.kiu​​i.moe/radnerf/

#ビデオ説明: https://youtu.be/JUqnLN6Q4B0

簡単な分析: https://www.louisbouchard.ai/rad-nerf/

ChatGPT: 言語対話用に最適化されたモデル2022 年の AI の大ヒット作品は、ChatGPT なしではどうやって実現できるでしょうか? ChatGPT はインターネット全体で人気があり、ポルノ記事やタイプ コードなどを書くためにネチズンによって開発されました。応用の普遍的なモデル、まだ知らない方はぜひ見に来てください!

ビデオ説明: https://youtu.be/AsFgn8vU-tQ

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

簡単な分析: https://www.louisbouchard.ai/chatgpt/#本番環境で直接使用できるビデオ顔のリエイジング

現在のコンピュータービジョンモデルは、顔の年齢やスタイルの転写などを生成できますが、これは見た目がカッコいいだけで、実際のアプリケーションではほとんど効果がありません。既存の技術では、通常、顔に問題があります。特徴などの問題があります。後続のビデオ フレームでは損失、低解像度、不安定な結果が生じるため、多くの場合、手動による二次編集が必要になります。

最近、ディズニーは、制作用にビデオ画像内の顔を再老化させるための最初の実用的で完全に自動化された方法である FRAN (Face Re-Aging Network) をリリースしましたが、この技術の終了を正式に発表しました。映画における俳優の年齢の視覚効果を変えるためにメイクアップアーティストに依存すること。

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

論文リンク: https://dl.acm.org/doi/pdf/10.1145/3550454.3555520

#プロジェクトアドレス: https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-Effects/

本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##ビデオ説明: https://youtu.be/WC03N0NFfwk

##簡単な分析: https://www.louisbouchard.ai/disney-re-age/

以上が本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Centosシャットダウンコマンドライン Centosシャットダウンコマンドライン Apr 14, 2025 pm 09:12 PM

Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。

Centosのgitlabのバックアップ方法は何ですか Centosのgitlabのバックアップ方法は何ですか Apr 14, 2025 pm 05:33 PM

Centosシステムの下でのGitlabのバックアップと回復ポリシーデータセキュリティと回復可能性を確保するために、Gitlab on Centosはさまざまなバックアップ方法を提供します。この記事では、いくつかの一般的なバックアップ方法、構成パラメーター、リカバリプロセスを詳細に紹介し、完全なGitLabバックアップと回復戦略を確立するのに役立ちます。 1.手動バックアップGitlab-RakeGitlabを使用:バックアップ:コマンドを作成して、マニュアルバックアップを実行します。このコマンドは、gitlabリポジトリ、データベース、ユーザー、ユーザーグループ、キー、アクセスなどのキー情報をバックアップします。デフォルトのバックアップファイルは、/var/opt/gitlab/backupsディレクトリに保存されます。 /etc /gitlabを変更できます

CentOS HDFS構成をチェックする方法 CentOS HDFS構成をチェックする方法 Apr 14, 2025 pm 07:21 PM

CENTOSシステムでHDFS構成をチェックするための完全なガイドこの記事では、CENTOSシステム上のHDFSの構成と実行ステータスを効果的に確認する方法をガイドします。次の手順は、HDFSのセットアップと操作を完全に理解するのに役立ちます。 Hadoop環境変数を確認します。最初に、Hadoop環境変数が正しく設定されていることを確認してください。端末では、次のコマンドを実行して、Hadoopが正しくインストールおよび構成されていることを確認します。HDFS構成をチェックするHDFSファイル:HDFSのコア構成ファイルは/etc/hadoop/conf/ディレクトリにあります。使用

CentosのPytorchのGPUサポートはどのようにサポートされていますか CentosのPytorchのGPUサポートはどのようにサポートされていますか Apr 14, 2025 pm 06:48 PM

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

Dockerの原則の詳細な説明 Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

Centosはmysqlをインストールします Centosはmysqlをインストールします Apr 14, 2025 pm 08:09 PM

CentOSにMySQLをインストールするには、次の手順が含まれます。適切なMySQL Yumソースの追加。 yumを実行して、mysql-serverコマンドをインストールして、mysqlサーバーをインストールします。ルートユーザーパスワードの設定など、MySQL_SECURE_INSTALLATIONコマンドを使用して、セキュリティ設定を作成します。必要に応じてMySQL構成ファイルをカスタマイズします。 MySQLパラメーターを調整し、パフォーマンスのためにデータベースを最適化します。

Centosでgitlabログを表示する方法 Centosでgitlabログを表示する方法 Apr 14, 2025 pm 06:18 PM

CENTOSシステムでGitLabログを表示するための完全なガイドこの記事では、メインログ、例外ログ、その他の関連ログなど、CentosシステムでさまざまなGitLabログを表示する方法をガイドします。ログファイルパスは、gitlabバージョンとインストール方法によって異なる場合があることに注意してください。次のパスが存在しない場合は、gitlabインストールディレクトリと構成ファイルを確認してください。 1.メインGitLabログの表示

Centosでgitlabデータベースを選択する方法 Centosでgitlabデータベースを選択する方法 Apr 14, 2025 pm 05:39 PM

CENTOSシステムにGitLabをインストールして構成する場合、データベースの選択が重要です。 gitlabは複数のデータベースと互換性がありますが、PostgreSQLとMySQL(またはMariaDB)が最も一般的に使用されています。この記事では、データベースの選択要因を分析し、詳細なインストールと構成の手順を提供します。データベース選択ガイドデータベースを選択する際には、次の要因を考慮する必要があります。PostGreSQL:GitLabのデフォルトデータベースは強力で、スケーラビリティが高く、複雑なクエリとトランザクション処理をサポートし、大規模なアプリケーションシナリオに適しています。 MySQL/MariadB:Webアプリケーションで広く使用されている人気のあるリレーショナルデータベース、安定した信頼性の高いパフォーマンスを備えています。 MongoDB:NOSQLデータベース、専門

See all articles