[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ-AI-php.cn

ホームページ

テクノロジー周辺機器

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

PHPz

Oct 10, 2023 pm 01:41 PM

AI 画像紙理論画像の自己教師あり学習法

1. 簡単な紹介

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャこの論文では、手作りのデータ拡張に依存せずに、高度にセマンティックな画像表現を学習する方法を示します。この論文では、画像からの自己教師あり学習のための非生成アプローチである画像ベースの結合埋め込み予測アーキテクチャ (I-JEPA) を紹介します。 I-JEPA の背後にある考え方は単純です。単一のコンテキストパッチから、同じイメージ内の異なるターゲットパッチの表現を予測します。 I-JEPA がセマンティック表現を生成するように導く中心的な設計選択はマスキング戦略です。具体的には、(a) 画像内のいくつかのターゲットパッチを予測する、(b) 十分に大きなスケール (画像の 15% - 20) でサンプルターゲットパッチをサンプルする%)、(c) 十分に豊富な (空間的に分散された) コンテキストブロックを使用することが重要です。この論文では、I-JEPA がビジュアルトランスフォーマーと組み合わせると拡張性が高いことが経験的にわかりました。たとえば、この論文では、32 個の A100 GPU を使用して ImageNet 上で ViT-Huge/16 を 38 時間でトレーニングし、線形分類からオブジェクトのカウントや深さの予測まで、さまざまなレベルの抽象化を必要とする幅広いタスクにわたって強力なダウンストリームパフォーマンスを実現しています。

2. 研究の背景

コンピュータビジョンには、2 つの一般的な画像自己教師あり学習方法があります。

不変性に基づく方法と生成方法。不変ベースの事前トレーニングアプローチを通じてエンコーダーを最適化することにより、同じ画像の 2 つ以上のビューに対して同様の埋め込みを生成できます。通常、イメージビューは、ランダムなスケーリング、トリミング、カラーディザリングなど、一連の手作りのデータ拡張手法を使用して構築されます。これらの事前トレーニング方法は、高度なセマンティックレベルの表現を生成できますが、同時に、一部の下流タスクや、異なるデータ分布を持つ事前トレーニングタスクに悪影響を与える可能性がある強いバイアスも導入します。認知学習理論では、生物システムにおける表現学習の背後にある推進メカニズムの 1 つは、感覚入力に対する反応を予測するために内部モデルを適応させる方法であると考えられています。この考え方は、入力の一部を削除または破損し、何が破損しているかを予測することを学習する自己教師あり生成手法の中心にあります。特に、マスクのノイズ除去方法は、入力のピクセルまたはトークンレベルからランダムなマスクパッチを再構成することによって表現を学習します。ビューインバリアント手法と比較して、マスクの事前トレーニングタスクに必要な事前知識は少なく、画像モダリティを超えて容易に一般化できます。ただし、結果として得られる表現は多くの場合、セマンティックレベルが低く、線形プローブや転送設定などの既製の評価における不変ベースの事前トレーニングが不足しており、セマンティック分類タスクの監視が制限されています。したがって、これらの方法の利点を最大限に活用するには、より洗練された適応メカニズム (エンドツーエンドの微調整など) が必要です。

この論文では、画像変換をエンコードするために追加の事前知識を使用せずに、自己教師あり表現の意味レベルを向上させる方法を検討します。この目的のために、この論文では画像結合埋め込み予測アーキテクチャ (I-JEPA) を導入します。図 3 は、このアプローチを示しています。 I-JEPA の背後にある考え方は、抽象表現空間で欠落している情報を予測することです。たとえば、コンテキストパッチが与えられた場合、同じ画像内の異なるターゲットパッチの表現を予測します。ターゲット表現は学習されたターゲットエンコーダネットワークによって計算されます。

ピクセル/マーカー空間で予測する生成手法と比較して、I-JEPA は不必要なピクセルレベルの詳細を排除する可能性がある抽象的な予測ターゲットを利用するため、モデルはより多くの意味論的な特徴を学習します。 I-JEPA がセマンティック表現を生成するように導くもう 1 つの中心的な設計上の選択は、提案されているマルチブロックマスキング戦略です。具体的には、この論文は、画像内の (十分に大きなスケールの) 複数のターゲットパッチを予測するために、情報を提供する (空間的に分散された) コンテキストパッチを使用することの重要性を示しています。書き換えられたコンテンツ: ピクセル/マーカー空間で予測する生成手法と比較して、I-JEPA は抽象的な予測ターゲットを利用し、不要なピクセルレベルの詳細を排除する可能性があるため、モデルがより多くの意味論的な特徴を学習できるようになります。 I-JEPA のもう 1 つの中心的な設計選択は、意味表現を生成するためにマルチブロックマスキング戦略を採用することです。具体的には、この論文は、画像内の (十分に大規模な) 複数のターゲットパッチを予測するために、有益な (空間的に分散された) コンテキストパッチを使用することの重要性を示しています。手作りのビュー拡張機能を使用せずに、強力な既製のセマンティック表現を実現します (図 1)。 I-JEPA は、ImageNet-1K 線形検出、半教師あり 1% ImageNet-1K、およびセマンティック転送タスクにおける MAE などのピクセル再構成手法よりも優れた性能を発揮します。

I-JEPA は、セマンティックタスクに関するビュー不変の事前トレーニング手法と競合し、オブジェクトのカウントや深さの予測などの低レベルのビジョンタスクで優れたパフォーマンスを実現します。より単純なモデルとそれほど厳密ではない誘導バイアスを使用することにより、I-JEPA はより幅広いタスクに適用できます。

I-JEPA は拡張性と効率性にも優れています。 ImageNet での ViT-H/14 の事前トレーニングには約 2400 GPU 時間かかります。これは、iBOT で事前トレーニングされた ViTB/16 より 50% 高速で、MAE で事前トレーニングされた ViT-L/16 より 140% 高速です。表現空間での予測により、自己教師あり事前トレーニングに必要な総計算量が大幅に削減されます。

自己教師あり学習は、システムが入力間の関係を捕捉することを学習する表現学習の方法です。この目標は、エネルギーベースモデル (EBM) のフレームワークを使用して簡単に説明できます。自己監視の目標は、互換性のない入力に高エネルギーを割り当て、互換性のある入力に低エネルギーを割り当てることです。多くの既存の生成的および非生成的自己教師あり学習手法は実際にこのフレームワークに変換できます; 書き換え後の図 2

を参照してください: Joint-Embedding Architectures は不変性に基づく事前トレーニング手法であり、使用できます。 EBM フレームワークで強制変換を実行する方法については、図 2a を参照してください。結合埋め込みアーキテクチャの学習目標は、互換性のある入力 x と y が同様の埋め込みを出力し、互換性のない入力が異なる埋め込みを出力するようにすることです。画像ベースの事前トレーニングでは、通常、同じ入力画像に手作りのデータ拡張をランダムに適用することによって、互換性のある x と y のペアが構築されます。JEA の主な課題は、エネルギーの状況が平坦である (つまり、エンコーダ) 場合の表現の崩壊です。入力に関係なく一定の出力を生成します）。ここ数年、表現の崩壊を防ぐためのいくつかの方法が研究されてきました。たとえば、負の例の埋め込みを明示的にプッシュする対比損失、埋め込みの情報の冗長性を最小限に抑える非対比損失、平均埋め込みエントロピーを最大化するクラスタリングベースの方法などです。。崩壊を避けるために、x エンコーダーと y エンコーダーの間で非対称のアーキテクチャ設計を使用するヒューリスティックな方法もいくつかあります。生成的なアーキテクチャ。再構成ベースの自己教師あり学習手法は、生成アーキテクチャを使用して EBM フレームワークにキャストすることもできます。図 2b

を参照してください。生成アーキテクチャは、追加の A デコーダネットワーク (おそらく潜在的な）変数 z を使用して、再構成を容易にします。画像ベースの事前トレーニングでは、コンピュータービジョンにおける一般的なアプローチは、マスクを使用して互換性のある x、y ペアを生成することです。ここで、x は画像 y のコピーですが、一部のパッチはマスクされています。条件変数 z は、再構成される画像パッチのデコーダを指定する (おそらく学習可能な) マスクと位置マーカーのセットに対応します。 z の情報容量が信号 y よりも小さい限り、これらのアーキテクチャは表現の崩壊に焦点を当てません。

ジョイント埋め込み予測アーキテクチャ。図 2c に示すように、結合埋め込み予測アーキテクチャは概念的には生成アーキテクチャと似ていますが、重要な違いは、損失関数が入力空間ではなく埋め込み空間に適用されることです。 JEPA は、予測を容易にする追加の (潜在的な) 変数 z の予測ネットワークを使用して、互換性のある信号 x から信号 y の埋め込みを予測する方法を学習します。提案された I-JEPA は、マスクを使用した画像のコンテキストでこのアーキテクチャのインスタンス化を提供します (図 3 を参照)。共同埋め込みアーキテクチャとは対照的に、JEPA は、一連の手作りのデータ拡張に対して不変な表現を求めるのではなく、追加情報の Z 条件が存在する場合に相互に予測する表現を求めます。ただし、共同埋め込みアーキテクチャと同様に、表現の崩壊も JEPA の懸念事項です。この論文では、x エンコーダと y エンコーダの間の非対称アーキテクチャを利用して、I-JEPA での表現の崩壊を回避しています。

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ 3. 方法の紹介

この論文では、図 3 に示すように、提案されている画像ベースの結合埋め込み予測アーキテクチャ (I-JEPA) について説明します。。全体的な目標は次のとおりです。コンテキストパッチが与えられた場合に、同じ画像内の異なるターゲットパッチの表現を予測します。この論文では、コンテキストエンコーダー、ターゲットエンコーダー、および予測子として Visual Transformer (ViT) アーキテクチャを使用しています。 ViT は Transformer レイヤーのスタックで構成され、各レイヤーはセルフアテンション操作と完全に接続された MLP で構成されます。この論文のエンコーダ/プレディクタアーキテクチャは、生成マスクオートエンコーダ (MAE) アプローチを彷彿とさせます。ただし、重要な違いは、I-JEPA メソッドは非生成的であり、予測は表現空間で行われることです。

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ画像分類

I-JEPA が手作りのデータ拡張に依存せずに高レベルの表現を学習することを実証するために、この論文では線形検出と部分微調整プロトコルを使用したさまざまな画像分類タスクの結果を報告しています。このセクションでは、この論文では、ImageNet-1K データセットで事前トレーニングされた自己教師ありモデルについて考察します。事前トレーニングと評価の実施の詳細については、付録 A を参照してください。すべての I-JEPA モデルは、特に明記されていない限り、解像度 224×224 でトレーニングされます。

ImageNet-1K. 表 1 は、一般的な ImageNet-1K 線形評価ベンチマークのパフォーマンスを示しています。自己教師ありの事前トレーニングの後、モデルの重みが固定され、完全な ImageNet-1K トレーニングセットを使用して線形分類器がその上でトレーニングされます。一般的なマスクオートエンコーダ (MAE) や data2vec 手法と比較して、同様にトレーニング前の大規模な手作りデータ拡張に依存しないことから、I-JEPA はより少ない計算量で線形検出パフォーマンスを大幅に向上させることが論文ではわかります。さらに、I-JEPA は規模の恩恵を受けています。解像度 448 でトレーニングされた ViT-H/16 は、追加の手動データ拡張を必要とせずに、iBOT などのビュー不変メソッドのパフォーマンスに匹敵します。

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

#サンプルサイズが小さい ImageNet-1K。表 2 は、1% ImageNet ベンチマークでのパフォーマンスを示しています。これらの方法では、ImageNet ラベルの 1% のみを使用し、カテゴリごとに約 12 または 13 個の画像を使用して、ImageNet 分類用の事前トレーニングされたモデルを利用します。モデルは、各方法に最適なものに応じて、微調整または線形プローブによって調整されます。同様のエンコーダアーキテクチャを使用すると、I-JEPA は MAE よりも優れたパフォーマンスを発揮し、必要な事前トレーニングエポックが少なくなります。 ViTH/14 アーキテクチャを使用した I-JEPA のパフォーマンスは、データ 2vec を使用して事前トレーニングされた ViT-L/16 に匹敵しますが、計算負荷は大幅に低くなります。画像入力解像度を高めることにより、I-JEPA は、共同埋め込み手法や、MSN、DINO、iBOT

転移学習などのトレーニング前の追加の手作りデータ拡張手法を活用するなど、以前の手法よりも優れたパフォーマンスを発揮します。は、線形プローブを使用したさまざまな下流画像分類タスクのパフォーマンスを示しています。 I-JEPA は、拡張を使用しない以前の手法 (MAE および Data2vec) を大幅に上回り、トレーニング前に手作りされた視点不変を活用する最良の手法との差を縮め、CIFAR100 や Place205 DINO で人気のある手法をも上回ります。

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

5. ローカル予測タスク

I-JEPA はセマンティック画像表現を学習し、これにより MAE や data2vec などの以前の方法の下流の画像分類パフォーマンスが大幅に向上します。さらに、I-JEPA はスケールの恩恵を受け、ビュー不変ベースのメソッドの追加の手作りデータ拡張を活用してギャップを埋め、さらにはそれを超えることができます。このセクションでは、I-JEPA がローカル画像特徴を学習し、オブジェクトのカウントや深度予測などの低レベルで集中的な予測タスクにおいてビュー不変ベースの手法よりも優れたパフォーマンスを発揮できることがわかります。

表 4 は、線形プローブを使用したさまざまな低レベルタスクのパフォーマンスを示しています。特に、事前トレーニング後、モデルの重みが固定され、Clevr データセットでのオブジェクトのカウントと深度予測のために線形モデルがその上でトレーニングされます。 DINO や iBOT などのビュー不変方式と比較して、I-JEPA 方式はトレーニング前に低レベルの画像特徴を効果的にキャプチャし、オブジェクトのカウント (Clevr/Count) と (主に) 深さの予測 (Clevr/Dist) で優れています。。

6. スケーラビリティ [論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

書き換えた内容は以下の通りです: 以前の手法と比較すると、I-JEPA はモデル効率の点で高いスケーラビリティを備えています。図 5 は、ImageNet-1K の 1% での GPU 時間評価の半教師あり結果を示しています。 I-JEPA は、以前の方法よりも必要な計算量が少なく、手動のデータ拡張に依存せずに強力なパフォーマンスを実現します。ピクセルをターゲットとして直接使用する MAE などの再構築ベースの方法と比較して、I-JEPA は表現空間でターゲットを計算することにより追加のオーバーヘッドを導入します (反復ごとに約 7% 遅くなります)

データサイズのスケーリング。この論文では、I-JEPA が大規模なデータセットでの事前トレーニングから恩恵を受けることもわかりました。表 5 は、事前トレーニングデータセット (IN1K 対 IN22K) のサイズを増やした場合の、セマンティックタスクと低レベルタスクでの転移学習のパフォーマンスを示しています。これらの概念的に異なるタスクでの転移学習のパフォーマンスは、より大規模で多様なデータセットで事前トレーニングすると向上します。モデルのサイズをスケーリングします。表 5 は、IN22K で事前トレーニングした場合、I-JEPA がモデルサイズを大きくすることでメリットが得られることも示しています。 ViT-H/14 モデルと比較して、ViT-G/16 での事前トレーニングにより、Place205 や INat18 などの画像分類タスクにおけるダウンストリームのパフォーマンスが大幅に向上します。 ViTG/16 モデルは、低レベルの下流タスクのパフォーマンスを向上させません。 ViT-G/16 はより大きな入力パッチサイズを使用するため、ローカル予測タスクに悪影響を与える可能性があります。 [論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

7. 予測器の視覚化は書き換え可能です

I-JEPA の予測器の機能は、コンテキストエンコーダーの出力を取得し、それを位置でマスクすることです。マスクトークンは、マスクトークンで指定された位置にあるターゲットブロックの表現を予測する条件です。 1 つの疑問は、位置マスクトークンに条件付けされた予測子がターゲット内の位置の不確実性を正しく捕捉することを学習しているかどうかです。この質問を定性的に研究するために、予測子の出力を視覚化します。この論文では、事前トレーニング後、コンテキストエンコーダーと予測子の重みをフリーズし、RCDM フレームワークに従ってデコーダーをトレーニングして、予測子出力の平均プールをピクセル空間にマッピングします。図 6 は、さまざまなランダムシードのデコーダ出力を示しています。サンプル間で共通する特徴は、平均プールされた予測子表現に含まれる情報を表します。 I-JEPA 予測器は、位置の不確実性を正確に捕捉し、正しい姿勢で高レベルのオブジェクト部分 (鳥の後ろや車の上部など) を生成します。異なるサンプルの異なる質量は、表現に含まれていない情報を表します。この場合、I-JEPA 予測子は正確な低レベルの詳細と背景情報を破棄します。

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

8. アブレーションの重要性

表現空間での予測。表 7 は、ピクセル空間と表現空間で 1% ImageNet-1K を計算した場合のローショットのパフォーマンスを比較しています。この論文は、I-JEPA の重要なコンポーネントは、損失が表現空間内で完全に計算され、ターゲットエンコーダが無関係なピクセルレベルの詳細を排除する抽象的な予測ターゲットを生成できるようにすることであると推測しています。表 7 から、ピクセル空間での予測は線形検出パフォーマンスの大幅な低下につながることが明らかです。

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

書き直された内容: 表 8 のマスキング戦略が変更されました。この研究では、図 4 に示すように、I-JEPA の事前トレーニングプロセスで提案されたマルチブロックマスク戦略のターゲットブロックの数を減らし、コンテキストとターゲットブロックのスケールを調整します。さまざまなマルチブロック設定を使用して I-JEPA を 300 エポックでトレーニングし、線形プローブを使用して 1% ImageNet-1K ベンチマークでパフォーマンス比較を実行しました。要約すると、情報を提供する (空間的に分散された) コンテキストパッチと組み合わせて、いくつかの比較的大きな (セマンティックな) ターゲットパッチを予測することが非常に重要であることがわかりました。

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

表 6 も同様のパフォーマンスを示します。他のマスキング戦略と比較した場合のアブレーション。この論文では、画像が 4 つの大きな象限に分割され、1 つの象限をコンテキストとして使用して他の 3 つの象限を予測することを目的とするラスター化マスキング戦略と比較しています。この論文では、再構築ベースの手法で一般的に使用される従来のブロックマスキング戦略とランダムマスキング戦略も比較しています。ブロックマスキングでは、ターゲットは単一の画像パッチであり、コンテキストは画像の補完です。ランダムマスキングでは、ターゲットはランダムな (おそらく不連続な) 画像パッチのセットであり、コンテキストは画像を補うものです。考慮されたすべてのマスキング戦略において、コンテキストブロックとターゲットブロックの間に重複がないことに注意してください。提案されたマルチブロックマスキング戦略は、I-JEPA が意味表現を学習するための鍵となります。従来のブロックマスクに切り替えても、ImageNet のパフォーマンスは 24% 以上低下します。

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

9. 結論論文

は、意味論的な画像表現を学習するための I-JEPA と呼ばれる方法を提案しています。この方法は、手動で作成されたデータ拡張に依存しません。研究によれば、表現空間で予測を行うことにより、I-JEPA はピクセル再構築手法よりも速く収束し、高い意味レベルの表現を学習できることが示されています。ビューの不変性に基づく方法と比較して、I-JEPA は、手作りのビュー拡張に依存せずに、共同埋め込みアーキテクチャを使用して一般表現を学習するパスを強調しています。

付録原文を参照、元のリンク: https://arxiv .org/abs/2301.08243

以上が[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7862

Java チュートリアル

1649

CakePHP チュートリアル

1404

Laravel チュートリアル

1300

PHP チュートリアル

1242

Related knowledge

Bytedance Cutting が SVIP スーパーメンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティングシステム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元（当サイト注：月額49.9元に相当）、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元（月額41.6元に相当）です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データセットと比較して、「DefectSpectrum」データセットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープンモデルが開発されています。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラルネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ～ 20% に相当します。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか？ MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージビジョンモデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバーニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データセットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データセットがありますが、これらのデータセットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。 Aug 06, 2024 pm 07:34 PM

編集者 | KX 逆合成は創薬や有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴う局所的な分子変化を引き起こします。これに触発されて、浙江大学のHou Tingjun氏のチームは、単一ステップの逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案した。そして、高品質かつ多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。広範な実験により、このモデルが標準ベンチマークデータセット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度が 60.8% であることが示されました。

See all articles

[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック