目次
1. 動機
2. メソッド
2.1 マット エンティティの準備
2.2 画像の合成と表現の生成
2.3 データセットの分割とタスク設定
2.4 現実世界のテスト セット
2.5 RefMatte データセットと RefMatte-RW100 テスト セットの統計
3. 実験
4. 概要
ホームページ テクノロジー周辺機器 AI ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

Apr 16, 2023 pm 05:46 PM
モデル ディープラーニング

画像の切り抜きとは、画像内の正確な前景を抽出することを指します。現在の自動手法は、画像内のすべての顕著なオブジェクトを無差別に抽出する傾向があります。この論文では、著者は参照画像マッティング (RIM) と呼ばれる新しいタスクを提案します。これは、与えられた自然言語記述に最もよく一致する、特定のオブジェクトの詳細なアルファ マッティングを抽出することを指します。ただし、おそらく高品質の RIM データセットが不足しているため、一般的な視覚的根拠付け手法はセグメンテーション レベルに限定されています。このギャップを埋めるために、著者らは、柔軟性ロジックと再ラベル付けされた多様なプロパティを備えた、現在公開されている高品質マットの見通しに基づいて合成画像を生成する包括的な画像合成および表現生成エンジンを設計することにより、最初の大規模で挑戦的なデータセットである RefMatte を確立しました。 。

RefMatte は、230 のオブジェクト カテゴリ、47,500 の画像、118,749 の表現領域エンティティ、および 474,996 の表現で構成されており、将来的にさらに簡単に拡張できます。さらに、著者らは、RIM モデルの一般化能力をさらに評価するために、人工的に生成されたフレーズ注釈を使用して 100 枚の自然画像からなる現実世界のテスト セットも構築しました。まず、プロンプトベースと式ベースの 2 つのコンテキストにおける RIM タスクが定義され、次にいくつかの典型的な画像マット化手法と特定のモデル設計がテストされました。これらの結果は、既存の方法の限界と考えられる解決策についての経験的な洞察を提供します。新しいタスク RIM と新しいデータセット RefMatte は、この分野に新しい研究の方向性を切り開き、今後の研究を促進すると考えられています。

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

論文タイトル: Referring Image Matting

論文アドレス: https://arxiv.org/abs/2206.0514 9

コードアドレス: https://github.com/JizhiziLi/RI M

1. 動機

画像マッティングとは、自然画像の前景のソフトアルファマッティングを抽出することを指し、これはさまざまな下流アプリケーションに有益ですビデオ会議、広告制作、eコマースプロモーションなど。一般的なマット方法は、1) トライマップなどの補助入力ベースの方法、および 2) 手動介入なしで前景を抽出する自動マット方法の 2 つのグループに分類できます。ただし、前者は自動アプリケーション シナリオには適しておらず、後者は通常、人物、動物、またはすべての重要なオブジェクトなどの特定のオブジェクト カテゴリに限定されます。任意のオブジェクトの制御可能な画像マッティングを実行する方法、つまり、与えられた自然言語記述に最もよく一致する特定のオブジェクトのアルファ マッティングを抽出する方法は、まだ検討すべき問題です。

参照表現セグメンテーション (RES)、参照画像セグメンテーション (RIS)、視覚的質問応答 (VQA)、および参照表現理解 (REC) などの言語駆動型タスクが広く研究されています。 ReferIt、Google RefExp、RefCOCO、VGPhraseCut、Cops-Ref などの多くのデータセットに基づいて、これらの分野で大きな進歩が見られました。たとえば、RES メソッドは、自然言語記述によって示される任意のオブジェクトをセグメント化することを目的としています。ただし、データセット内の低解像度の画像と粗いマスクの注釈により、取得されたマスクは詳細が含まれないセグメンテーション レベルに限定されます。したがって、前景オブジェクトの詳細なアルファ マッティングが必要なシーンでは使用される可能性は低いです。

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

このギャップを埋めるために、著者はこの論文で「Referring Image Matting (RIM)」と呼ばれる新しいタスクを提案します。 RIM は、詳細で高品質なアルファ マッティングとともに、特定の自然言語記述に最もよく一致する画像内の特定の前景オブジェクトを抽出することを指します。上記の 2 つのマッティング方法によって解決されるタスクとは異なり、RIM は、言語記述によって示される画像内の任意のオブジェクトの制御可能な画像マッティングを目的としています。これは産業応用の分野で実用的な意義があり、学術界に新たな研究の方向性を切り開きます。

RIM 研究を推進するために、著者は RefMatte という名前の最初のデータセットを確立しました。このデータセットは、230 のオブジェクト カテゴリ、47,500 の画像、118,749 の表現領域エンティティ、および対応する高品質アルファ マットと 474,996 の表現で構成されています。

具体的には、このデータセットを構築するために、著者はまず AM-2k、P3M-10k、AIM-500、SIM などの多くの一般的なパブリック マッティング データセットを再検討し、すべてのオブジェクトを注意深く検査するために手動でラベルを付けました。 。また、著者らは複数の深層学習ベースの事前トレーニング済みモデルを使用して、人間の性別、年齢、服装の種類など、各エンティティのさまざまな属性を生成します。次に、著者らは、他の前景オブジェクトを考慮して、合理的な絶対位置および相対位置を持つ合成画像を生成するための包括的な構成および表現生成エンジンを設計します。最後に、著者は、豊富な視覚属性を利用してさまざまな言語記述を生成するいくつかの表現ロジック形式を提案します。さらに、著者らは、RIM 法の汎化能力を評価するために、さまざまなオブジェクトと人間の注釈付き表現を含む 100 枚の画像を含む現実世界のテスト セット RefMatte-RW100 を提案します。上の画像はいくつかの例を示しています。

関連タスクにおける最先端の手法の公正かつ包括的な評価を行うために、著者らは、言語記述の形式に応じた 2 つの異なる設定、つまりプロンプトベースの設定で RefMatte 上でそれらのベンチマークを実行しました。式ベースの設定。代表的な方法はセグメンテーション タスク用に特別に設計されているため、RIM タスクに直接適用する場合にはまだギャップがあります。

この問題を解決するために、著者は、RIM 用にカスタマイズする 2 つの戦略を提案しました。つまり、1) CLIPSeg の上に CLIPmat という名前の軽量のカットアウト ヘッダーを慎重に設計し、そのヘッダーを維持しながら高品質のアルファ マッティング結果を生成します。エンドツーエンドのトレーニング可能なパイプライン; 2) セグメンテーション/マッティング結果をさらに改善するために、いくつかの個別の粗い画像ベースのマッティング手法がポストリファイナーとして提供されます。広範な実験結果により、1) RIM タスク研究における提案された RefMatte データセットの価値が実証され、2) 言語記述形式の重要な役割が特定され、3) 提案されたカスタマイズ戦略の有効性が検証されました。

この研究の主な貢献は 3 つあります。 1) RIM と呼ばれる新しいタスクを定義し、与えられた自然言語記述に最もよく一致する特定の前景オブジェクトのアルファマットを特定して抽出することを目的としています; 2) 47,500 枚の画像と 118,749 個の表現領域で構成される最初の大規模データセット RefMatte を確立します高品質のアルファマットと豊かな表現を備えたエンティティ; 3) RefMatte テスト用の 2 つの RIM に合わせた戦略を使用して、代表的な最先端の手法が 2 つの異なる設定でベンチマークされ、いくつかの有用な洞察が得られました。

2. メソッド

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

このセクションでは、RefMatte を構築するパイプライン (セクション 3.1 およびセクション 3.2) とタスク設定 (セクション 3.3 セクション) およびデータセットの統計 (セクション 3.5)。上の画像は RefMatte の例をいくつか示しています。さらに、著者らは、手動でラベル付けされた豊富な言語記述で注釈が付けられた 100 枚の自然画像からなる現実世界のテスト セットを構築しました (セクション 3.4)。

2.1 マット エンティティの準備

RefMatte データセットの構築に役立つ十分な高品質のマット エンティティを準備するために、作成者は現在利用可能なマット データセットを再検討し、要件を満たすものを除外しました。見通し。次に、すべての候補エンティティにそのカテゴリが手動でラベル付けされ、複数の深層学習ベースの事前トレーニング済みモデルを使用してその属性に注釈が付けられます。

前処理とフィルタリング

画像マット化タスクの性質上、すべての候補エンティティは高解像度であり、アルファマット化と細部が鮮明である必要があります。 。さらに、将来の研究を促進するために、データはオープン ライセンスを通じてプライバシーの懸念なしに一般に公開される必要があります。これらの要件に対して、著者は AM-2k、P3M-10k、および AIM-500 の前景画像をすべて使用しました。具体的には、P3M-10k の場合、作成者は 3 つ以上のスティッキー フォアグラウンド インスタンスを含む画像をフィルタリングして除外し、各エンティティが 1 つのフォアグラウンド インスタンスのみに関連付けられるようにしています。 SIM、DIM、HATT などの他の利用可能なデータセットについては、著者らは人間のインスタンスの中で識別可能な顔を持つ前景画像をフィルタリングして除外します。著者らはまた、低解像度または低品質のアルファマットを含む前景画像をフィルタリングして除外します。最終的なエンティティの総数は 13,187 でした。その後の合成ステップで使用される背景画像については、著者は BG-20k 内のすべての画像を選択しました。

エンティティのカテゴリ名に注釈を付ける

以前の自動切り抜き方法では、画像からすべての顕著な前景オブジェクトを抽出する傾向があったため、エンティティは特定の (カテゴリ) 名を提供しませんでした。 。ただし、RIM タスクの場合は、それを説明するためにエンティティ名が必要です。著者らは、各エンティティにエントリーレベルのカテゴリ名を付けました。これは、人々が特定のエンティティに対して使用する最も一般的な名前を表しています。ここでは、半自動戦略が採用されています。具体的には、著者らは、ResNet-50-FPN バックボーンを備えた Mask RCNN 検出器を使用して、各フォアグラウンド インスタンスのクラス名を自動的に検出してラベル付けし、手動で検査して修正します。 RefMatte には合計 230 のカテゴリがあります。さらに、著者らは WordNet を使用して各カテゴリ名の同義語を生成し、多様性を高めています。著者らは手動で同義語をチェックし、その一部をより合理的な同義語に置き換えました。

エンティティの属性に注釈を付ける

すべてのエンティティが豊富な表現の形成をサポートする豊富な視覚属性を確実に持つようにするために、作成者はすべてのエンティティに色で注釈を付けました。性別、年齢、服装の種類などの人間エンティティの属性。著者らは、そのようなプロパティを生成するために半自動戦略も採用しています。カラーを生成するために、著者らは前景画像のすべてのピクセル値をクラスター化し、最も一般的な値を見つけて、それらを Web カラーの特定の色に一致させます。性別と年齢については、著者は事前トレーニングされたモデルを使用しています。常識に従って、予測年齢に基づいて年齢グループを定義します。衣服の種類については、著者は事前トレーニングされたモデルを使用します。さらに、前景の分類に触発されて、著者らはすべてのエンティティに顕著または重要ではない属性、および透明または不透明の属性を追加します。これらの属性は画像マット化タスクでも重要であるためです。最終的に、すべてのエンティティには少なくとも 3 つの属性があり、人間エンティティには少なくとも 6 つの属性があります。

2.2 画像の合成と表現の生成

前のセクションで収集したマット エンティティに基づいて、著者は、RefMatte データ セットを構築するための画像合成エンジンと表現生成エンジンを提案しました。異なるエンティティをどのように配置して合理的な合成画像を形成するか、同時にこれらの合成画像内のエンティティを説明するための意味的に明確で文法的に正しい、豊富で派手な表現を生成するかが RefMatte を構築する鍵であり、課題でもあります。この目的を達成するために、著者らは、合成画像内に異なるエンティティを配置するための 6 つの位置関係を定義し、異なる論理形式を利用して適切な表現を生成します。

画像合成エンジン

エンティティの高解像度を維持しながら適切な位置関係で配置するために、作成者は合成画像エンティティごとに 2 つまたは 3 つを使用します。 。著者は、左、右、上、下、前、後ろの 6 つの位置関係を定義します。それぞれの関係について、最初に前景画像が生成され、BG-20k からの背景画像とアルファ ブレンディングを介して合成されました。具体的には、左、右、上、下の関係について、作成者は、詳細を維持するために、前景インスタンスにオクルージョンがないことを確認します。前後の関係では、前景インスタンス間のオクルージョンは、それらの相対位置を調整することによってシミュレートされます。著者は、それぞれの関係を表す候補語のバッグを用意します。

表現生成エンジン

合成画像内のエンティティに豊富な表現方法を提供するために、著者は、異なる論理の観点からエンティティごとに 3 種類の表現を定義します。式は、ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています は属性、ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています はカテゴリ名、ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています は参照エンティティと関連エンティティの関係を表し、3 つの式の具体例は上図 (a)、( b) および (c) ) を示します。

2.3 データセットの分割とタスク設定

データセットの分割

データ セットには合計 13,187 のマット エンティティがあり、そのうち 11,799 は構築に使用されますトレーニング セット、テスト セットの場合は 1,388。ただし、ほとんどのエンティティは人間または動物のカテゴリに属しているため、トレーニング セットとテスト セットのカテゴリのバランスが取れていません。具体的には、トレーニング セット内の 11,799 個のエンティティの中には、9,186 人の人間、1,800 匹の動物、および 813 個の物体が含まれています。 1,388 個のエンティティからなるテスト セットには、977 人の人間、200 匹の動物、211 個の物体が含まれています。カテゴリのバランスをとるために、著者らはエンティティを複製して、人間:動物:物体の比率が 5:1:1 になるようにしました。したがって、トレーニング セットには人間 10,550 人、動物 2,110 匹、オブジェクト 2,110 個が含まれ、テスト セットには人間 1,055 人、動物 211 匹、オブジェクト 211 個が含まれます。

RefMatte 用の画像を生成するために、著者はトレーニングまたはテスト分割から 5 人の人間、1 匹の動物、および 1 つの物体のセットを選択し、画像合成エンジンに入力します。トレーニングまたはテスト分割のグループごとに、著者はトレーニング セットを形成するために 20 枚の画像を生成し、テスト セットを形成するために 10 枚の画像を生成しました。左右:上下:表裏の比率は7:2:1となります。各画像内のエンティティの数は 2 または 3 に設定されます。コンテキストに関して、作成者は各エンティティの高解像度を維持するために常に 2 つのエンティティを選択します。このプロセスの後、42,200 枚のトレーニング画像と 2,110 枚のテスト画像が作成されます。エンティティの組み合わせの多様性をさらに高めるために、すべての候補からエンティティと関係をランダムに選択して、さらに 2800 個のトレーニング画像と 390 個のテスト画像を作成します。最後に、トレーニング セットには 45,000 枚の合成画像があり、テスト セットには 2,500 枚の画像があります。

タスク設定

さまざまな形式の言語記述を与えられた RIM メソッドのベンチマークを行うために、著者は RefMatte で 2 つの設定をセットアップしました。

プロンプトベースの設定: この設定のテキスト説明はプロンプトであり、エンティティのエントリ レベルのカテゴリ名です。たとえば、上の図のプロンプトは花、人間、アルパカです。

式ベースの設定: この設定のテキスト記述は、前セクションで生成された基本式、絶対位置式、および相対位置式から選択された式です。いくつかの例は上の画像でも見ることができます。

2.4 現実世界のテスト セット

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

#RefMatte は合成画像に基づいて構築されているため、合成画像と現実世界の画像の間にドメイン ギャップが存在する可能性があります。実世界の画像に対してトレーニングされた RIM モデルの一般化能力を研究するために、著者はさらに、100 枚の実世界の高解像度画像で構成される RefMatte-RW100 という実世界のテスト セットを確立しました。の 2 ~ 3 つのエンティティです。次に、著者はセクション 3.2 の同じ 3 つの設定に従って表現に注釈を付けます。なお、注釈には著者が自由な表現を加えた。高品質のアルファ切り抜きタグの場合、作成者は Adob​​e Photoshop や GIMP などの画像編集ソフトウェアを使用して生成します。 RefMatte-RW100 の例をいくつか上に示します。

2.5 RefMatte データセットと RefMatte-RW100 テスト セットの統計

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

著者は、表に示すように RefMatte データセットと RefMatte-RW100 テスト セットの統計を計算しました。その上。プロンプトベースの設定の場合、テキストの説明はエントリーレベルのカテゴリ名であるため、作成者は、曖昧な推論を避けるために、同じカテゴリに属する​​複数のエンティティを含む画像を削除します。したがって、この設定では、トレーニング セットに 30,391 個の画像があり、テスト セットに 1,602 個の画像があります。アルファ カットアウトの数、テキストの説明、カテゴリ、属性、関係をそれぞれ上の表に示します。プロンプトベースの設定では、通常、カテゴリごとに単語が 1 つだけであるため、平均テキスト長は約 1 ですが、式ベースの設定ではそれよりもはるかに長くなります。つまり、RefMatte では約 16.8、RefMatte-RW100 では約 16.8 です。 12.

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

#作者は、上の画像の RefMatte でプロンプト、プロパティ、および関係のワード クラウドも生成しました。見てわかるように、画像マット化タスクでは人間と動物が非常に一般的であるため、データセットには人間と動物の大部分が含まれています。 RefMatte の最も一般的な属性は男性的、灰色、透明、顕著ですが、関係性のある単語はよりバランスが取れています。

3. 実験

RIM と RIS/RES のタスクの違いにより、RIS/RES メソッドを RIM に直接適用した場合の結果は楽観的ではありません。この問題を解決するために、著者は RIM 用にカスタマイズするための 2 つの戦略を提案します。

1) マッティング ヘッドの追加: 既存のモデルの上に軽量のマッティング ヘッドを設計して、高品質のアルファ マッティングを生成しながら、最終的なパフォーマンスを維持します。ツーエンドのトレーニング可能なパイプライン。具体的には、著者は、CLIPMat と呼ばれる CLIPSeg の上に軽量のマット デコーダを設計しました。

2) マッティング リファイナーの使用: 著者は、セグメンテーションをさらに改善するために、バックエンド リファイナーとして粗い画像に基づく別のマット手法を使用します。上記の方法によるマット化の結果。具体的には、著者らは、画像と粗い画像をカットアウト リファイナーとして入力して、GFM と P3M をトレーニングします。

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

著者らは、RefMatte テスト セットのヒントベースの設定で MDETR、CLIPSeg、および CLIPMat を評価し、定量的な結果を上の表に示します。 MDETR および CLIPSeg と比較すると、カットアウト リファイナーが使用されているかどうかに関係なく、CLIPMat が最高のパフォーマンスを発揮することがわかります。カットアウト ヘッダーを追加して RIM タスク用に CLIPSeg をカスタマイズする効果を検証します。さらに、2 つのカットアウト リファイナーのいずれかを使用すると、3 つの方法のパフォーマンスをさらに向上させることができます。

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

著者らはまた、RefMatte テスト セットおよび RefMatte-RW100 の式ベースの設定で 3 つの方法を評価し、定量的な結果を上の表に示しています。 CLIPMat は、RefMatte テスト セットの詳細を保持する優れた機能を再度示しています。 CLIPSeg や CLIPMat などの 1 段階メソッドは、RefMatte-RW100 でテストした場合、2 段階メソッド、つまり MDETR よりも遅れています。これは、MDETR の検出器のクロスモーダル セマンティクスを理解する能力が優れているためと考えられます。

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

#プロンプト入力フォームの影響を調査するために、著者はさまざまなプロンプト テンプレートのパフォーマンスを評価しました。使用されている従来のテンプレートに加えて、作者は、 の前景/マスク/アルファ マットなど、画像マット タスク用に特別に設計されたテンプレートも追加しました。結果を上の表に示します。 CLIPmat のパフォーマンスは、プロンプトが異なると大きく異なることがわかります。

ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています

この記事では、タスク内のさまざまなタイプの式を紹介しているため、マットのパフォーマンスに対する各タイプの影響を確認できます。上の表に示すように、最もパフォーマンスの高いモデル CLIPMat は RefMatte テスト セットでテストされ、モデル MDETR は RefMatte-RW100 でテストされました。

4. 概要

この論文では、参照画像マッティング (RIM) と呼ばれる新しいタスクを提案し、大規模なデータセット RefMatte を構築します。著者らは、RIM の関連タスクに関して既存の代表的な手法を調整し、RefMatte に関する広範な実験を通じてそのパフォーマンスを測定します。この論文の実験結果は、モデル設計、テキスト記述の影響、合成画像と実際の画像の間の領域ギャップについての有益な洞察を提供します。 RIM 研究は、インタラクティブな画像編集や人間とコンピューターの対話など、多くの実用的なアプリケーションに利益をもたらします。 RefMatte は、この分野の研究を促進します。ただし、合成領域と実際の領域のギャップにより、現実世界の画像への一般化が限定される可能性があります。

以上がディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

ORB-SLAM3を超えて! SL-SLAM: 低照度、重度のジッター、弱いテクスチャのシーンはすべて処理されます。 ORB-SLAM3を超えて! SL-SLAM: 低照度、重度のジッター、弱いテクスチャのシーンはすべて処理されます。 May 30, 2024 am 09:35 AM

以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッド ビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

See all articles