100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します
寝ないと大きなモデルのボリュームについていけません...
いいえ、マイクロソフト アジア同研究所は、マルチモーダル大規模言語モデル (MLLM) - KOSMOS-1 をリリースしました。
#論文アドレス: https://arxiv.org/pdf/2302.14045.pdf
学位論文のタイトル「必要なのは言語だけではない」は、有名な格言から来ています。
#記事の中に「私の言語の限界は、私の世界の限界である。 - オーストリアの哲学者ルートヴィヒ・ウィトゲンシュタイン」という一文があります。
写真を持ってKOSMOS-1に「アヒルですかウサギですか?」と尋ねるとわかりますか? 100年以上の歴史を持つこのミームは、Google AIを修正することはできません。
#KOSMOS-1 では、この種の知覚モデルと言語モデルを組み合わせることができます。
#-写真には何が写っていますか?
#-アヒルのように。
#-アヒルでないとしたら、それは何ですか?
#-ウサギに似ています。 ##################-なぜ?
#-ウサギの耳が付いています。
#この質問をすると、KOSMOS-1 は実際には Microsoft 版の ChatGPT に少し似ています。
それだけでなく、Kosmos-1 は画像、テキスト、およびテキストを理解することもできます。テキスト、画像、OCR、画像キャプション、ビジュアル QA。
「宇宙」は全能です
コスモスの語源は、ギリシャ語で「宇宙」を意味するコスモスです。
#論文によると、最新の Kosmos-1 モデルはマルチモーダルな大規模言語モデルです。
バックボーンは、Transformer に基づく因果言語モデルであり、テキストに加えて、視覚や音声などの他のモダリティをモデルに埋め込むことができます。
Transformer デコーダは、マルチモーダル入力のユニバーサル インターフェイスとして機能するため、一般的なモダリティを認識し、コンテキスト学習を実行し、指示に従うことができます。
Kosmos-1 は、テキスト指示による画像認識、視覚的な質問応答、マルチモーダル対話など、言語およびマルチモーダル タスクにおいて、微調整なしで優れたパフォーマンスを実現します。 #以下は、Kosmos-1 によって生成されたスタイルの例です。 絵の説明、絵の質問と回答、ウェブページの質問の答え、簡単な数式、数字の認識。
では、Kosmos-1 はどのデータセットで事前トレーニングされているのでしょうか?
トレーニングに使用されるデータベースには、テキスト コーパス、画像と字幕のペア、画像とテキストのクロス データ セットが含まれます。
The Pile and Common Crawl (CC) から取得したテキスト コーパス;
画像- 字幕ペアのソースは英語の LAION-2B、LAION-400M、COYO-700M および概念キャプションです;
テキスト クロス データ セットのソースは共通ですクロールのスナップショット。
#データベースが利用できるようになったので、次のステップはモデルを事前トレーニングすることです。
MLLM コンポーネントには 24 のレイヤー、2,048 の隠れ次元、8,192 の FFN、および 32 のアテンション ヘッドがあり、約 1.3B のパラメーターになります。
最適化の安定性を確保するために、Magneto 初期化が使用されます。より速く収束するために、画像表現は事前トレーニングされた画像から導出されます。 1024 フィーチャ寸法、CLIP ViT-L/14 モデルから取得。トレーニング プロセス中、画像は 224×224 の解像度に前処理され、CLIP モデルのパラメーターは最後のレイヤーを除いてフリーズされます。
#KOSMOS-1 のパラメータの総数は約 16 億個です。
KOSMOS-1 を命令とより適切に調整するために、言語のみの命令の調整が行われました [LHV 23、HSLS22]。つまり、モデルは命令に基づいてトレーニングされ続けます。唯一の言語データであるデータがトレーニング コーパスと混合されます。
#チューニングプロセスは言語モデリング手法に従って実行され、選択された命令データセットは Unnatural 命令 [HSLS22] と FLANv2 [LHV 23] です。
#結果は、コマンド追従能力の向上がモード間で移行できることを示しています。
#つまり、MLLM は、言語からマルチモーダリティへ、またはその逆に知識を伝達する、クロスモーダル伝達の恩恵を受けることができます。5 つのカテゴリに分かれた 10 個のタスク、すべてが判明
モデルが使いやすいかどうかは、取り出して試してみるだけでわかります。
#研究チームは、KOSMOS-1 のパフォーマンスを評価するために、5 つのカテゴリの 10 のタスクを含む、さまざまな角度から実験を実施しました。#1 言語タスク (言語理解、言語生成、OCR を使用しないテキスト分類)
2 マルチモーダル転送 (共通)感覚推論)
3 非言語推論 (IQ テスト)
4 知覚 - 言語タスク (画像の説明、ビジュアル Q&A、Web Q&A)
5 ビジョン タスク (ゼロショット画像分類、説明付きゼロショット画像分類)
OCR なしテキストの分類
#これは、光学式文字認識 (OCR) に依存しない、テキストと画像に焦点を当てた理解タスクです。
HatefulMemes およびレンダリングされた SST-2 テスト セットにおける KOSMOS-1 の精度は、他のモデルよりも高くなります。
Flamingo はプロンプトに OCR テキストを明示的に提供しますが、KOSMOS-1 は外部ツールやリソースにアクセスしません。これは、KOSMOS-1 がテキストを読み取って理解していることを示しています。レンダリング 画像内のテキストに固有の機能。
#IQ テスト
Raven 知能テストは評価です非言語の最も一般的に使用されるテストの 1 つ。
KOSMOS-1 は、微調整を行わないランダム選択と比較して精度が 5.3% 向上します。微調整後は 9.3% 増加し、非言語環境における抽象的な概念パターンを認識する能力を示しています。
モデルがゼロショット Raven テストを完了できたのはこれが初めてであり、ゼロショット非言語推論に対する MLLM の可能性が示されています。知覚モデルと言語モデルを組み合わせることによって。
画像説明 ##KOSMOS-1 は、COCO テストと Flickr30k テストの両方で優れたゼロサンプル パフォーマンスを示し、他のモデルと比較してスコアは高くなりますが、使用するパラメーターの数は少なくなります。
#少数サンプルのパフォーマンス テストでは、k 値が増加するにつれてスコアも増加します。
ゼロショット画像分類
#入力画像を指定して、その画像を「The photo of the」というプロンプトに接続します。次に、モデルにフィードして画像のクラス名を取得します。
# ImageNet [DDS 09] でモデルを評価することにより、制約ありと制約なしの両方で実行できます。制約された条件下では、KOSMOS-1 の画像分類効果は GIT [WYH 22] よりも大幅に優れており、視覚タスクを完了する強力な能力を示しています。
常識的な推論
視覚的常識推論タスクでは、色、サイズ、形状など、現実世界の日常的なオブジェクトの特性をモデルが理解する必要があります。これらのタスクは、オブジェクトに関するより多くの情報が必要になる場合があるため、困難です。テキスト内。オブジェクトのプロパティに関する情報。
結果は、KOSMOS-1 の推論能力がサイズと色の点で LLM モデルよりも大幅に優れていることを示しています。これは主に、KOSMOS-1 がマルチモーダル転送機能を備えており、LLM のようにテキストの知識や推論の手がかりに依存することなく、視覚的な知識を言語タスクに適用できるためです。
##Microsoft Kosmos-1 について、ネチズンは Dao を賞賛しました今後 5 年以内に、高度なロボットが Web を閲覧し、視覚的な手段のみを介して人間が入力したテキストに基づいて動作するようになるでしょう。とても興味深い時代です。
以上が100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

6 月 3 日のニュースによると、Microsoft はすべての Windows 10 ユーザーに全画面通知を積極的に送信し、Windows 11 オペレーティング システムへのアップグレードを奨励しています。この移行には、ハードウェア構成が新しいシステムをサポートしていないデバイスが含まれます。 2015 年以来、Windows 10 は市場シェアの 70% 近くを占め、Windows オペレーティング システムとしての優位性を確固たるものにしました。しかし、そのシェアは82%を大きく上回り、2021年に発売されるWindows 11のシェアを大きく上回っている。 Windows 11 は発売から 3 年近く経ちますが、市場への浸透はまだ遅いです。 Microsoft は、Windows 10 の技術サポートを 2025 年 10 月 14 日以降に終了すると発表しました。

8 月 14 日のこのサイトのニュースによると、今日の 8 月のパッチ火曜日イベント日に、Microsoft は 22H2 および 23H2 用の KB5041585 更新プログラム、および 21H2 用の KB5041592 更新プログラムを含む、Windows 11 システム用の累積的な更新プログラムをリリースしました。 8 月の累積更新プログラムで上記の機器がインストールされた後、このサイトに添付されるバージョン番号の変更は次のとおりです。 21H2 機器のインストール後、機器のインストール後、バージョン番号は Build22000.314722H2 に増加しました。バージョン番号は Build22621.403723H2 に増加しました。 装置のインストール後、バージョン番号は Build22631.4037 に増加しました。 Windows 1121H2 の更新プログラムの主な内容は次のとおりです。 改善: 改善されました。

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

ソフトウェア テクノロジの最前線に立つ UIUC Zhang Lingming のグループは、BigCode 組織の研究者とともに、最近 StarCoder2-15B-Instruct 大規模コード モデルを発表しました。この革新的な成果により、コード生成タスクにおいて大きな進歩が達成され、CodeLlama-70B-Instruct を上回り、コード生成パフォーマンス リストのトップに到達しました。 StarCoder2-15B-Instruct のユニークな特徴は、その純粋な自己調整戦略であり、トレーニング プロセス全体がオープンで透過的で、完全に自律的で制御可能です。このモデルは、高価な手動アノテーションに頼ることなく、StarCoder-15B 基本モデルの微調整に応じて、StarCoder2-15B を介して数千の命令を生成します。

大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間のフィードバックを学習して、それが有用で、正直で、無害であることを確認することが重要です。 LLM を調整するという点では、ヒューマン フィードバックに基づく強化学習 (RLHF) が効果的な方法です。 RLHF 法の結果は優れていますが、最適化にはいくつかの課題があります。これには、報酬モデルをトレーニングし、その報酬を最大化するためにポリシー モデルを最適化することが含まれます。最近、一部の研究者はより単純なオフライン アルゴリズムを研究しており、その 1 つが直接優先最適化 (DPO) です。 DPO は、RLHF の報酬関数をパラメータ化することで、選好データに基づいてポリシー モデルを直接学習するため、明示的な報酬モデルの必要性がなくなります。この方法は簡単で安定しています

1. はじめに ここ数年、YOLO は、計算コストと検出パフォーマンスの効果的なバランスにより、リアルタイム物体検出の分野で主流のパラダイムとなっています。研究者たちは、YOLO のアーキテクチャ設計、最適化目標、データ拡張戦略などを調査し、大きな進歩を遂げました。同時に、後処理に非最大抑制 (NMS) に依存すると、YOLO のエンドツーエンドの展開が妨げられ、推論レイテンシに悪影響を及ぼします。 YOLO では、さまざまなコンポーネントの設計に包括的かつ徹底的な検査が欠けており、その結果、大幅な計算冗長性が生じ、モデルの機能が制限されます。効率は最適ではありませんが、パフォーマンス向上の可能性は比較的大きくなります。この作業の目標は、後処理とモデル アーキテクチャの両方から YOLO のパフォーマンス効率の境界をさらに改善することです。この目的を達成するために
