カリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせました
ビジュアル (ピクセル) モデルだけでどこまでできるでしょうか?カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の新しい論文では、この問題を調査し、さまざまな CV タスクに対するラージ ビジョン モデル (LVM) の可能性を実証しています。
最近、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になってきています。
大規模ビジュアル モデル (LVM) の構築は大きな懸念事項です。それを達成するには何が必要でしょうか?
LLaVA などの視覚言語モデルによって提供されるアイデアは興味深いものであり、検討する価値がありますが、動物界の法則によれば、視覚能力と言語能力には関連性がないことがすでにわかっています。たとえば、人間以外の霊長類の言語体系は人間と「同一」であるにもかかわらず、その視覚世界は人間の視覚世界と非常に似ていることが多くの実験で示されています。
最近の論文では、ピクセルだけでどこまでできるかという別の質問に対する答えが論じられています。この論文は、カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の研究者によって書かれました。
論文リンク: https://arxiv.org/ abs/2312.00785
プロジェクトのホームページ: https://yutongbai.com/lvm.html
研究者が LVM でエミュレートしようとしている LLM主な特徴: 1) データの規模に応じた成長 ビジネスを拡大するには、新たな市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。これらの取り組みを通じて、より大きな成功を収め、継続的な成長を達成できると信じています。 2) プロンプトを通じてタスクを柔軟に指定します (コンテキスト学習)。
これらは、データ、アーキテクチャ、損失関数という 3 つの主要コンポーネントを指定します。
データの観点から見ると、研究者は視覚データの大きな多様性を活用したいと考えています。注釈のない生の画像とビデオから始めて、過去数十年にわたって作成されたさまざまな注釈付きビジュアル データ ソース (セマンティック セグメンテーション、深度再構成、キーポイント、マルチビュー 3D オブジェクトなど) を活用します。彼らは、ピクセルを超えたメタ知識を必要とせずに、これらのさまざまな注釈を表現するための共通フォーマットである「ビジュアル センテンス」を定義しました。トレーニング セットの合計サイズは 16 億 4,000 万画像/フレームです。
アーキテクチャの面では、研究者らは大規模なトランスフォーマー アーキテクチャ (30 億パラメータ) を使用してトークン シーケンスとして表現されたビジュアル データをトレーニングし、学習されたトークナイザーを使用して各画像を 256 のベクトルにマッピングしました定量化 トークン文字列。
損失関数に関して、研究者は自然言語コミュニティからインスピレーションを得ています。つまり、マスク トークン モデリングがシーケンス自己回帰予測手法に「道を譲った」ということです。画像、ビデオ、および注釈付き画像をすべてシーケンスとして表現できるようになると、トレーニングされたモデルは次のトークンを予測する際のクロスエントロピー損失を最小限に抑えることができます。
この非常にシンプルな設計を通じて、研究者らは次の注目すべき動作を実証しました:
モデル サイズとデータ サイズが増加するにつれて、モデルは自動的に拡張するために適切な動作を示します。私たちのビジネスでは、新しい市場機会を探す必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。これらの取り組みを通じて、より大きな成功を収め、継続的な成長を実現できると信じています。
テスト時に適切なプロンプトを設計することで、さまざまな視覚的なタスクを解決できるようになりました。特別にトレーニングされたカスタム モデルほど高性能ではありませんが、単一のビジョン モデルで非常に多くのタスクを解決できるという事実は非常に心強いものです。
教師付きデータは、パフォーマンスに大きく貢献します。さまざまな視覚タスク
分布外のデータを処理し、新しいタスクを実行する際に、一般的な視覚的推論能力の兆候はすでにありますが、さらなる研究がまだ必要です
論文の共著者で、ジョンズ・ホプキンス大学CS博士課程4年生でバークレー校客員博士課程学生でもあるYutong Bai氏は、自分たちの研究を宣伝するためにツイートした。
元の画像ソースは Twitter アカウントからのものです: https://twitter.com/YutongBAI1002/status/1731512110247473608 #この論文の著者のうち、最後の 3 人はカリフォルニア大学バークレー校の履歴書分野の上級学者です。 Trevor Darrell 教授はバークレー人工知能研究所 BAIR の創設共同所長であり、Jitendra Malik 教授は 2019 IEEE Computer Pioneer Award を受賞し、Alexei A. Efros 教授は最近傍研究で特に有名です。
左から右へ、トレバー・ダレル、ジテンドラ・マリク、アレクセイ・A・エフロス。
メソッドの紹介
この記事では 2 段階のメソッドを使用しています。1) 大規模なビジュアル トークナイザー (単一の画像上で動作) をトレーニングして、画像を一連の視覚トークンに変換することを組み合わせることができる; 2) 視覚的な文で自己回帰変換モデルをトレーニングすると、各文は一連のトークンとして表現されます。この方法を図 2 に示します。
画像トークン化
Transformer モデルを画像に適用するための一般的な操作は次のとおりです。 : 画像をパッチに分割してシーケンスとして扱います。または、VQVAE や VQGAN などの事前トレーニング済み画像トークナイザーを使用して、画像特徴を個別のトークンのグリッドに集約します。この記事では後者の方法を採用し、VQGAN モデルを使用してセマンティック トークンを生成します。
LVM フレームワークには、エンコードおよびデコードのメカニズムが含まれており、量子化レイヤーもあり、エンコーダーとデコーダーは畳み込みレイヤーで構築されます。エンコーダには入力の空間次元を縮小するための複数のダウンサンプリング モジュールが装備されており、デコーダには画像を元のサイズに復元するための一連の同等のアップサンプリング モジュールが装備されています。特定の画像に対して、VQGAN トークナイザーは 256 個の個別のトークンを生成します。
この記事の VQGAN アーキテクチャは、Chang らによって提案された実装の詳細を採用し、そのセットアップに従います。具体的には、ダウンサンプリング係数は f=16、コードブック サイズは 8192 です。これは、サイズ 256×256 の画像の場合、VQGAN トークナイザーは 16×16=256 個のトークンを生成し、各トークンは 8192 個の異なる値を取ることができることを意味します。さらに、この記事では、LAION 5B データセットの 1.5B サブセットでトークナイザーをトレーニングしました。
ビジュアル センテンス シーケンス モデリング
VQGAN を使用して画像を離散トークンに変換します。この論文は、複数の画像内の離散トークンを 1 次元シーケンスに連結し、視覚的な文章を統一されたシーケンスとして扱います。重要なのは、ビジュアル センテンスはいずれも特別に処理されていないことです。つまり、特定のタスクや形式を示すための特別なトークンは使用されていません。
#ビジュアル センテンスの機能は、さまざまなビジュアル データを統一された画像シーケンス構造にフォーマットすることです。
実装の詳細。この論文では、ビジュアル センテンスの各画像を 256 個のトークンにトークン化した後、それらを連結して 1D トークン シーケンスを形成します。視覚的なトークン シーケンスに関しては、この記事の Transformer モデルは実際には自己回帰言語モデルと同じであるため、LLaMA の Transformer アーキテクチャを採用しています。 このコンテンツは、言語モデルと同様に、4096 トークンのコンテキスト長を使用します。各ビジュアルセンテンスの先頭に [BOS] (文の始まり) トークンを追加し、最後に [EOS] (文の終わり) トークンを追加し、トレーニング中にシーケンスのスプライシングを使用して効率を向上させます この記事モデルはデータ セット (4,200 億トークン) でトレーニングされ、パラメーターの数が異なる合計 4 つのモデル (3 億、6 億、10 億、30 億) がトレーニングされました。実験結果は書き直す必要があります
この研究では、モデルを評価するために実験が行われました。ビジネスを拡大するには、新しい市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。私たちは、これらの取り組みを通じて、より大きな成功を収め、さまざまなタスクを理解し、それに答える能力と能力の継続的な成長を達成できると信じています。ビジネスを拡大するには、新しい市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。私たちは、これらの取り組みを通じて、より大きな成果を達成し、持続的な成長を達成できると信じています。
図 3 に示すように、この研究では、まず、さまざまなサイズの LVM のトレーニング損失を調べました。
図 5 に示すように、各データ コンポーネントは下流のタスクに重要な影響を与えます。 LVM は、より大きなデータから恩恵を受けるだけでなく、データセットの多様性によっても改善されます。
元の意味を変更せずにコンテンツを書き換えます。言語を書き直す必要があります。中国人に。
LVM のさまざまなプロンプトを理解する能力をテストするために、この研究ではまず、シーケンス推論タスクに関する LVM の評価実験を実施しました。その中で、プロンプトは非常に単純です: モデルに 7 枚の画像のシーケンスを提供し、次の画像を予測するように依頼します。実験結果は、以下の図 6 に示すように書き直す必要があります。
## また、この研究では、LVM が同じカテゴリの画像を予測できるように、特定のカテゴリのアイテムのリストをシーケンスとして扱います。実験結果は、以下の図 15 に示すように書き直す必要があります。アナロジー プロンプト
この研究では、アナロジー プロンプトなどのより複雑なプロンプト構造を評価することで、LVM の高度な解釈機能もテストしました。
下の図 8 は、多数のタスクに対するアナロジー プロンプトの結果を示しています。 :
視覚的なプロンプトとの比較に基づいて、ほとんどすべてのタスクにおいてシーケンス LVM が以前の方法よりも優れていることがわかりますその他のプロンプト
研究者が試したこのモデルは、さまざまなプロンプトを提供しますモデルを観察し、ビジネスを拡大するには、新しい市場機会を見つける必要があります。今後も需要の高まりに応えるべく、製品ラインをさらに拡充していく予定です。同時にマーケティング戦略を強化し、ブランド認知度を高めていきます。今後も業界展示会やプロモーション活動に積極的に参加し、より多くの顧客層の開拓に努めてまいります。これらの取り組みを通じて、当社はより大きな成功を収め、継続的な成長を達成できると信じています。以下の図 10 は、そのようなプロンプトがうまく機能していることを示しています。
以下の図 11 は、言葉で説明するのが難しいいくつかのプロンプトを示していますが、これらのタスクに関しては、LVM が最終的に LLM よりも優れたパフォーマンスを発揮する可能性があります。
#図 13 は、人間の非言語的 IQ テストにおける、典型的な視覚的推論の質問に対する暫定的な定性的結果を示しています。
# 詳細については元の記事を読んでください。
以上がカリフォルニア大学バークレー校は大規模な一般視覚推論モデルの開発に成功し、3 人の上級学者が研究に参加するために力を合わせましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究

編集者 | 創薬の合理化における Ziluo AI の利用は爆発的に増加しています。新薬の開発に必要な特性を備えている可能性のある候補分子を数十億個スクリーニングします。材料の価格からエラーのリスクまで、考慮すべき変数が非常に多いため、たとえ科学者が AI を使用したとしても、最適な候補分子の合成コストを秤量することは簡単な作業ではありません。ここで、MIT の研究者は、最適な分子候補を自動的に特定する定量的意思決定アルゴリズム フレームワークである SPARROW を開発しました。これにより、合成コストを最小限に抑えながら、候補が望ましい特性を持つ可能性を最大限に高めることができます。このアルゴリズムは、これらの分子を合成するために必要な材料と実験手順も決定しました。 SPARROW では、複数の候補分子が入手可能な場合が多いため、分子のバッチを一度に合成するコストが考慮されます。
