100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します-AI-php.cn

ホームページ

テクノロジー周辺機器

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 11, 2023 pm 06:58 PM

マイクロソフトモデル

寝ないと大きなモデルのボリュームについていけません...

いいえ、マイクロソフトアジア同研究所は、マルチモーダル大規模言語モデル (MLLM) - KOSMOS-1 をリリースしました。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

#論文アドレス: https://arxiv.org/pdf/2302.14045.pdf

学位論文のタイトル「必要なのは言語だけではない」は、有名な格言から来ています。

#記事の中に「私の言語の限界は、私の世界の限界である。 - オーストリアの哲学者ルートヴィヒ・ウィトゲンシュタイン」という一文があります。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

次に質問が来ます...

写真を持ってKOSMOS-1に「アヒルですかウサギですか？」と尋ねるとわかりますか？ 100年以上の歴史を持つこのミームは、Google AIを修正することはできません。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

1899 年、アメリカの心理学者ジョセフ・ジャストローは、「アヒルとウサギのグラフ」を初めて使用しました。これは、知覚は人々が見ているものだけではなく、精神的な活動でもあることを示しています。

#KOSMOS-1 では、この種の知覚モデルと言語モデルを組み合わせることができます。

#-写真には何が写っていますか?

#-アヒルのように。

#-アヒルでないとしたら、それは何ですか?

#-ウサギに似ています。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃-なぜ？

#-ウサギの耳が付いています。

#この質問をすると、KOSMOS-1 は実際には Microsoft 版の ChatGPT に少し似ています。

それだけでなく、Kosmos-1 は画像、テキスト、およびテキストを理解することもできます。テキスト、画像、OCR、画像キャプション、ビジュアル QA。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

# IQテストでも問題ありません。

「宇宙」は全能です

コスモスの語源は、ギリシャ語で「宇宙」を意味するコスモスです。

#論文によると、最新の Kosmos-1 モデルはマルチモーダルな大規模言語モデルです。

バックボーンは、Transformer に基づく因果言語モデルであり、テキストに加えて、視覚や音声などの他のモダリティをモデルに埋め込むことができます。

Transformer デコーダは、マルチモーダル入力のユニバーサルインターフェイスとして機能するため、一般的なモダリティを認識し、コンテキスト学習を実行し、指示に従うことができます。

Kosmos-1 は、テキスト指示による画像認識、視覚的な質問応答、マルチモーダル対話など、言語およびマルチモーダルタスクにおいて、微調整なしで優れたパフォーマンスを実現します。

#以下は、Kosmos-1 によって生成されたスタイルの例です。

絵の説明、絵の質問と回答、ウェブページの質問の答え、簡単な数式、数字の認識。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

では、Kosmos-1 はどのデータセットで事前トレーニングされているのでしょうか?

トレーニングに使用されるデータベースには、テキストコーパス、画像と字幕のペア、画像とテキストのクロスデータセットが含まれます。

The Pile and Common Crawl (CC) から取得したテキストコーパス;

画像- 字幕ペアのソースは英語の LAION-2B、LAION-400M、COYO-700M および概念キャプションです;

テキストクロスデータセットのソースは共通ですクロールのスナップショット。

#データベースが利用できるようになったので、次のステップはモデルを事前トレーニングすることです。

MLLM コンポーネントには 24 のレイヤー、2,048 の隠れ次元、8,192 の FFN、および 32 のアテンションヘッドがあり、約 1.3B のパラメーターになります。

最適化の安定性を確保するために、Magneto 初期化が使用されます。より速く収束するために、画像表現は事前トレーニングされた画像から導出されます。 1024 フィーチャ寸法、CLIP ViT-L/14 モデルから取得。トレーニングプロセス中、画像は 224×224 の解像度に前処理され、CLIP モデルのパラメーターは最後のレイヤーを除いてフリーズされます。

#KOSMOS-1 のパラメータの総数は約 16 億個です。

KOSMOS-1 を命令とより適切に調整するために、言語のみの命令の調整が行われました [LHV 23、HSLS22]。つまり、モデルは命令に基づいてトレーニングされ続けます。唯一の言語データであるデータがトレーニングコーパスと混合されます。

#チューニングプロセスは言語モデリング手法に従って実行され、選択された命令データセットは Unnatural 命令 [HSLS22] と FLANv2 [LHV 23] です。

#結果は、コマンド追従能力の向上がモード間で移行できることを示しています。

#つまり、MLLM は、言語からマルチモーダリティへ、またはその逆に知識を伝達する、クロスモーダル伝達の恩恵を受けることができます。5 つのカテゴリに分かれた 10 個のタスク、すべてが判明

モデルが使いやすいかどうかは、取り出して試してみるだけでわかります。

#研究チームは、KOSMOS-1 のパフォーマンスを評価するために、5 つのカテゴリの 10 のタスクを含む、さまざまな角度から実験を実施しました。

#1 言語タスク (言語理解、言語生成、OCR を使用しないテキスト分類)

2 マルチモーダル転送 (共通)感覚推論)

3 非言語推論 (IQ テスト)

4 知覚 - 言語タスク (画像の説明、ビジュアル Q&A、Web Q&A)

5 ビジョンタスク (ゼロショット画像分類、説明付きゼロショット画像分類)

OCR なしテキストの分類

#これは、光学式文字認識 (OCR) に依存しない、テキストと画像に焦点を当てた理解タスクです。

HatefulMemes およびレンダリングされた SST-2 テストセットにおける KOSMOS-1 の精度は、他のモデルよりも高くなります。

Flamingo はプロンプトに OCR テキストを明示的に提供しますが、KOSMOS-1 は外部ツールやリソースにアクセスしません。これは、KOSMOS-1 がテキストを読み取って理解していることを示しています。レンダリング画像内のテキストに固有の機能。

#IQ テスト

Raven 知能テストは評価です非言語の最も一般的に使用されるテストの 1 つ。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

KOSMOS-1 は、微調整を行わないランダム選択と比較して精度が 5.3% 向上します。微調整後は 9.3% 増加し、非言語環境における抽象的な概念パターンを認識する能力を示しています。

モデルがゼロショット Raven テストを完了できたのはこれが初めてであり、ゼロショット非言語推論に対する MLLM の可能性が示されています。知覚モデルと言語モデルを組み合わせることによって。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

画像説明 ##KOSMOS-1 は、COCO テストと Flickr30k テストの両方で優れたゼロサンプルパフォーマンスを示し、他のモデルと比較してスコアは高くなりますが、使用するパラメーターの数は少なくなります。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します #少数サンプルのパフォーマンステストでは、k 値が増加するにつれてスコアも増加します。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理しますゼロショット画像分類

#入力画像を指定して、その画像を「The photo of the」というプロンプトに接続します。次に、モデルにフィードして画像のクラス名を取得します。

# ImageNet [DDS 09] でモデルを評価することにより、制約ありと制約なしの両方で実行できます。制約された条件下では、KOSMOS-1 の画像分類効果は GIT [WYH 22] よりも大幅に優れており、視覚タスクを完了する強力な能力を示しています。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

常識的な推論

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

視覚的常識推論タスクでは、色、サイズ、形状など、現実世界の日常的なオブジェクトの特性をモデルが理解する必要があります。これらのタスクは、オブジェクトに関するより多くの情報が必要になる場合があるため、困難です。テキスト内。オブジェクトのプロパティに関する情報。

結果は、KOSMOS-1 の推論能力がサイズと色の点で LLM モデルよりも大幅に優れていることを示しています。これは主に、KOSMOS-1 がマルチモーダル転送機能を備えており、LLM のようにテキストの知識や推論の手がかりに依存することなく、視覚的な知識を言語タスクに適用できるためです。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

##Microsoft Kosmos-1 について、ネチズンは Dao を賞賛しました今後 5 年以内に、高度なロボットが Web を閲覧し、視覚的な手段のみを介して人間が入力したテキストに基づいて動作するようになるでしょう。とても興味深い時代です。

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

以上が100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7442

CakePHP チュートリアル

1371

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

MLP に代わる KAN は、オープンソースプロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Microsoft の全画面ポップアップは、Windows 10 ユーザーに急いで Windows 11 にアップグレードするよう促します Jun 06, 2024 am 11:35 AM

6 月 3 日のニュースによると、Microsoft はすべての Windows 10 ユーザーに全画面通知を積極的に送信し、Windows 11 オペレーティングシステムへのアップグレードを奨励しています。この移行には、ハードウェア構成が新しいシステムをサポートしていないデバイスが含まれます。 2015 年以来、Windows 10 は市場シェアの 70% 近くを占め、Windows オペレーティングシステムとしての優位性を確固たるものにしました。しかし、そのシェアは82％を大きく上回り、2021年に発売されるWindows 11のシェアを大きく上回っている。 Windows 11 は発売から 3 年近く経ちますが、市場への浸透はまだ遅いです。 Microsoft は、Windows 10 の技術サポートを 2025 年 10 月 14 日以降に終了すると発表しました。

Microsoft、Win11 8月累積アップデートをリリース：セキュリティの向上、ロック画面の最適化など。 Aug 14, 2024 am 10:39 AM

8 月 14 日のこのサイトのニュースによると、今日の 8 月のパッチ火曜日イベント日に、Microsoft は 22H2 および 23H2 用の KB5041585 更新プログラム、および 21H2 用の KB5041592 更新プログラムを含む、Windows 11 システム用の累積的な更新プログラムをリリースしました。 8 月の累積更新プログラムで上記の機器がインストールされた後、このサイトに添付されるバージョン番号の変更は次のとおりです。 21H2 機器のインストール後、機器のインストール後、バージョン番号は Build22000.314722H2 に増加しました。バージョン番号は Build22621.403723H2 に増加しました。装置のインストール後、バージョン番号は Build22631.4037 に増加しました。 Windows 1121H2 の更新プログラムの主な内容は次のとおりです。改善: 改善されました。

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

OpenAI データは必要ありません。大規模なコードモデルのリストに加わりましょう。 UIUC が StarCoder-15B-Instruct をリリース Jun 13, 2024 pm 01:59 PM

ソフトウェアテクノロジの最前線に立つ UIUC Zhang Lingming のグループは、BigCode 組織の研究者とともに、最近 StarCoder2-15B-Instruct 大規模コードモデルを発表しました。この革新的な成果により、コード生成タスクにおいて大きな進歩が達成され、CodeLlama-70B-Instruct を上回り、コード生成パフォーマンスリストのトップに到達しました。 StarCoder2-15B-Instruct のユニークな特徴は、その純粋な自己調整戦略であり、トレーニングプロセス全体がオープンで透過的で、完全に自律的で制御可能です。このモデルは、高価な手動アノテーションに頼ることなく、StarCoder-15B 基本モデルの微調整に応じて、StarCoder2-15B を介して数千の命令を生成します。

総合的にDPOを超える：Chen Danqi氏のチームはシンプルなプリファレンス最適化SimPOを提案し、最強の8Bオープンソースモデルも洗練させた Jun 01, 2024 pm 04:41 PM

大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間のフィードバックを学習して、それが有用で、正直で、無害であることを確認することが重要です。 LLM を調整するという点では、ヒューマンフィードバックに基づく強化学習 (RLHF) が効果的な方法です。 RLHF 法の結果は優れていますが、最適化にはいくつかの課題があります。これには、報酬モデルをトレーニングし、その報酬を最大化するためにポリシーモデルを最適化することが含まれます。最近、一部の研究者はより単純なオフラインアルゴリズムを研究しており、その 1 つが直接優先最適化 (DPO) です。 DPO は、RLHF の報酬関数をパラメータ化することで、選好データに基づいてポリシーモデルを直接学習するため、明示的な報酬モデルの必要性がなくなります。この方法は簡単で安定しています

Yolov10: 詳細な説明、展開、アプリケーションがすべて 1 か所にまとめられています。 Jun 07, 2024 pm 12:05 PM

1. はじめにここ数年、YOLO は、計算コストと検出パフォーマンスの効果的なバランスにより、リアルタイム物体検出の分野で主流のパラダイムとなっています。研究者たちは、YOLO のアーキテクチャ設計、最適化目標、データ拡張戦略などを調査し、大きな進歩を遂げました。同時に、後処理に非最大抑制 (NMS) に依存すると、YOLO のエンドツーエンドの展開が妨げられ、推論レイテンシに悪影響を及ぼします。 YOLO では、さまざまなコンポーネントの設計に包括的かつ徹底的な検査が欠けており、その結果、大幅な計算冗長性が生じ、モデルの機能が制限されます。効率は最適ではありませんが、パフォーマンス向上の可能性は比較的大きくなります。この作業の目標は、後処理とモデルアーキテクチャの両方から YOLO のパフォーマンス効率の境界をさらに改善することです。この目的を達成するために

See all articles

100 年前のミームも明確です。 Microsoft のマルチモーダル「Universe」は、わずか 16 億のパラメータで IQ テストを処理します

#論文によると、最新の Kosmos-1 モデルはマルチモーダルな大規模言語モデルです。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック