目次
PALI の目標の 1 つは、
109 言語のデータセット
大規模モデルのトレーニング
ホームページ テクノロジー周辺機器 AI 史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

Apr 12, 2023 am 09:31 AM
言語モデル google

近年の自然言語処理の進歩は、主に 大規模言語モデルによるものです。新しいモデルがリリースされるたびに、パラメーターとトレーニング データの量が新たな最高値に達し、また、既存のベンチマークランキングを大虐殺!

たとえば、今年 4 月 、Google は 5,400 億パラメータ言語モデル PaLM (Pathways Language Model) を言語モデルでリリースしました。 PaLM は一連の評価において人間を超えることに成功しており、特に 少数ショットの小規模サンプル学習シナリオ で優れたパフォーマンスを示しており、PaLM は次世代言語モデルの開発方向と考えられています。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

同様に、視覚言語モデル実は強い努力は奇跡を生み出すことができます 、モデルのサイズを 大きくすることでパフォーマンスを向上させることができます。

もちろん、 がマルチタスク のための単なる視覚言語モデルである場合、それは明らかにあまり汎用的ではなく、 複数の入力をサポートする必要があります。言語 出力するだけです。

最近、Google は、PaLM 拡張機能を、多言語と画像理解の両方を備えた PALI (Pathways Language and Image model) にアップグレードしました。機能、および は 100 の言語をサポート し、視覚的な質問応答、画像キャプション (画像キャプション)、物体検出、画像分類、OCR など、視覚、言語、マルチモーダルにわたるさまざまな画像および言語アプリケーションを実行します。 、文章推論など。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

紙のリンク: https://arxiv.org/abs/2209.06794 モデルは公開画像コレクションを使用してトレーニングされます。これには、

109 言語で自動的にクロールされる注釈が含まれます

。この記事では WebLI データ セットとも呼ばれます。 WebLI で事前トレーニングされた PaLI モデルは、COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA などの複数の画像および言語ベンチマークで最先端のパフォーマンスを実現します。 、などなど、前モデルの多言語ビジュアルキャプションおよびビジュアル質問応答のベンチマークも上回りました。

モデル アーキテクチャ

PALI の目標の 1 つは、

言語

および ビジュアル モデルを のパフォーマンスで研究することです。 の接続、特に言語イメージ モデルのスケーラビリティは同じですか? したがって、モデルのアーキテクチャ設計は、主に実験の利便性、特に再利用性と拡張性を考慮して非常にシンプルです。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポートモデルは、入力テキストを処理する Transformer エンコーダーと、出力テキストを生成する自己回帰 Transformer デコーダーで構成されます。

画像を処理する場合、Transformer エンコーダーへの入力には、ViT によって処理された画像を表すビジュアル ワードも含まれます。

PaLI モデルの重要な設計は再利用であり、研究者らは、以前にトレーニングされた単一モーダル視覚および言語モデル (mT5-XXL や大きな ViT など) の重みをシードとして使用しました。この再利用により、シングルモーダル トレーニングの機能が引き継がれるだけでなく、計算コストも節約されます。

モデルのビジュアル コンポーネントは、

これまでで最大の ViT アーキテクチャである ViT-e

を使用しています。これは 18 億パラメータの ViT-G モデルと同じ構造を持ち、同じトレーニング パラメーターを使用する場合の違いは、40 億パラメーター に拡張されることです。 スケーリング規則は視覚分野と言語分野の両方で研究されていますが、視覚と言語の結合モデルにおけるスケーリング動作についてはあまり議論されていません。視覚的なバックボーン モデルは、分類タスクのゲインの飽和につながる可能性があります。

研究者らはこれをさらに確認しており、ViT-e は ImageNet 上で ViT-G よりわずかに優れているだけであることが観察できますが、ViT-e は PaLI の視覚言語タスクにおいて大幅な改善を示しています。たとえば、ViT-e は、COCO 字幕タスクにおいて ViT-G を CIDEr ポイント 3 ポイント近く上回っています。タスクではViT-Gより3ポイント多い。これは、将来的に視覚言語タスクでより大きな ViT スケルトン モデルを使用できる余地も示唆しています。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

研究者らは、事前トレーニングされた mT5-Large (10 億パラメータ) を使用して、言語モデリング コンポーネント として mT5 バックボーンを採用しました。および mT5-XXL (130 億パラメータ) を使用して、PaLI の言語エンコーダ/デコーダを初期化し、純粋な言語理解タスクを含む多くの言語タスクのハイブリッド トレーニングを継続します。これは、mT5 の言語理解と生成能力の壊滅的な忘れを避けるのにも役立ちます。

ついに、サイズの異なる 3 つの PALI モデルが完成しました。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

109 言語のデータセット

深層学習に関連する拡張研究では、モデルが大きくなるほど、より多くのトレーニング データが必要になることが示されています。セットも大きくなりました。

そこで、言語と画像の事前トレーニング モデルの可能性を包括的に研究して公開するために、研究者はインターネットから大量の画像データとテキスト データをクロールし、新しいデータセットを構築しました。 WebLI には、109 言語の 120 億の代替テキストと 100 億の画像が含まれています。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

研究者らは、注釈にネットワーク テキストを使用することに加えて、クラウド ビジョン API を使用して画像の OCR 認識を実行し、290 億枚の画像を取得しました。 -データペアのOCR。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

ニア重複を使用して、68 の一般的なビジュアルおよびビジュアル言語データセットのトレーニング、検証、テスト部分から画像の重複を排除し、ダウンストリームでのデータ漏洩を回避します。評価タスク。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

データ品質をさらに向上させるために、研究者は「画像と代替テキスト」のクロスモーダル類似性に基づいてスコアリングし、調整することもあります。しきい値を設定し、最終的に画像の 10% のみを保持します。PaLI

大規模モデルのトレーニング

視覚言語タスク以来、合計 10 億枚の画像がトレーニングに使用されますはマルチモーダルであるため、モデルには複数のセマンティック処理機能があり、さまざまな目標を持つ必要があります。たとえば、一部のタスクではタスクを正確に解決するためにオブジェクトのローカルな位置特定が必要ですが、他のタスクではよりグローバルな意味情報が必要になる場合があります。

同様に、言語タスクによっては長い回答が必要な場合もあれば、簡潔な回答が必要な場合もあります。

これらの一貫性のない目標をすべて解決するために、研究者は WebLI の豊富な事前トレーニング データを活用し、さまざまな下流アプリケーション用のモデルを準備するための事前トレーニング タスク ミックスチャを導入しました。

モデルをより多用途にしてさまざまなタスクを解決できるようにするために、作成者はすべてのタスクを単一の共通 A​​PI (入力: 画像テキスト、出力: テキスト) に分類し、複数の API を作成しました。画像 言語タスク間で知識の共有が可能であり、事前トレーニング設定でも共有されます。

事前トレーニングに使用されるターゲットは、重み付けされたミックスとして同じ API に投影されます。その目的は、新しいタスクを実行するようにモデルをトレーニングしながら、モデル コンポーネントを再利用する機能を維持することです。 。

モデルはオープン ソースの T5X および Flaxformer フレームワークを使用し、JAX の Flax でトレーニングされています。ViT-e のビジュアル部分は、オープン ソースの BigVision フレームワークを使用して言語のワード ベクトルを生成しますパートとビジュアル パート。パッチ ベクトルはカスケードされ、マルチモーダル エンコーダ/デコーダの入力として共同使用されます。エンコーダは mT5-XXL 事前トレーニングを使用して初期化されます。 PaLI のトレーニング プロセス中、視覚コンポーネントの重みは凍結され、マルチモーダル エンコーダ/デコーダの重みのみが更新されます。

実験部分では、研究者らは共通の視覚言語ベンチマークでPaLIを比較し、PaLIモデルはこれらのタスクに関して最先端の結果を達成し、以前の文献で提案された非常に大規模な結果をも上回りました。モデル。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

たとえば、一部の VQA タスクや画像キャプション タスクでは、170 億パラメータの PALI は、800 億パラメータの Flamingo モデルよりも優れたパフォーマンスを発揮します。

また、PALI は単一言語または単一視覚タスクでも優れたパフォーマンスを維持しますが、これは PALI の主なトレーニング目標ではありません。

画像モデルと言語モデルのコンポーネントがモデル拡張に関してどのように相互作用するのか、またモデルがどこで最大の利益をもたらすのかについても調査します。

最終的な結論は、これら 2 つのコンポーネントのジョイント スケーリング (スケーリング) が、特に比較的少数のパラメーターを必要とするビジュアル コンポーネントの場合に最高のパフォーマンスをもたらすということです。スケーリングは重要ですが、スケーリングも重要です。多言語タスクのパフォーマンスを向上させます。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

PaLI をベンチマーク Crossmodal-3600 で 35 言語で評価した結果、多言語タイトル タスクでは拡張機能の恩恵がさらに大きいことがわかりました。 PaLIモデルのものが多数あります。

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

#大規模な言語および画像モデルにおける不当なバイアスの作成または強化を回避するには、使用されるデータと、モデルがそのデータをどのように使用するかを理解する必要があります。透明性を維持し、モデルの公平性をテストし、責任あるデータ分析を実施します。この記事では、データ カードとモデル カードも提供します

史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポート

以上が史上最大の ViT を便利にトレーニングしましたか? Google、ビジュアル言語モデルPaLIをアップグレード:100以上の言語をサポートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Google Pixel 9とPixel 9 Proはリリース時にクリエイティブアシスタントAIを搭載すると噂される Google Pixel 9とPixel 9 Proはリリース時にクリエイティブアシスタントAIを搭載すると噂される Jun 22, 2024 am 10:50 AM

現在、この秋には 4 つの新しい Pixel スマートフォンが発売される予定です。要約すると、このシリーズは発売時にPixel 9とPixel 9 Proを搭載すると噂されています。ただし、Pixel 9 ProはPixel 8 ProではなくiPhone 16 Proのライバルになります(最新情報)

Google Pixel 9 Pro XLはデスクトップモードでテストされる Google Pixel 9 Pro XLはデスクトップモードでテストされる Aug 29, 2024 pm 01:09 PM

Google は、Pixel 8 シリーズで DisplayPort 代替モードを導入しており、新たに発売された Pixel 9 ラインナップにも搭載されています。これは主に、接続された画面でスマートフォンのディスプレイをミラーリングするためにありますが、デスクトップにも使用できます。

Google AI、開発者向けに Gemini 1.5 Pro と Gemma 2 を発表 Google AI、開発者向けに Gemini 1.5 Pro と Gemma 2 を発表 Jul 01, 2024 am 07:22 AM

Google AI は、Gemini 1.5 Pro 大規模言語モデル (LLM) を皮切りに、拡張コンテキスト ウィンドウとコスト削減機能へのアクセスを開発者に提供し始めました。以前は待機リストを通じて利用可能でしたが、完全な 200 万トークンのコンテキストウィンドウが利用可能になりました

Pixel 9 Pro XL の Google Tensor G4 は 原神 で Tensor G2 に遅れをとっています Pixel 9 Pro XL の Google Tensor G4 は 原神 で Tensor G2 に遅れをとっています Aug 24, 2024 am 06:43 AM

Googleは最近、Pixel 9ラインのTensor G4に関するパフォーマンスの懸念に対応しました。同社は、このSoCはベンチマークを上回るように設計されていないと述べた。代わりに、チームは Google が求めている分野でパフォーマンスを向上させることに重点を置きました。

Googleアプリのベータ版APK分解により、Gemini AIアシスタントに新たな拡張機能が追加されることが明らかになりました Googleアプリのベータ版APK分解により、Gemini AIアシスタントに新たな拡張機能が追加されることが明らかになりました Jul 30, 2024 pm 01:06 PM

最新アップデート (v15.29.34.29 ベータ版) の APK 分解を考慮すると、Google の AI アシスタント Gemini はさらに高性能になる予定です。このテクノロジー巨人の新しい AI アシスタントには、いくつかの新しい拡張機能が追加される可能性があると伝えられています。これらの拡張機能は

Google Pixel 9スマートフォンは7年間のアップデート契約にもかかわらずAndroid 15では発売されない Google Pixel 9スマートフォンは7年間のアップデート契約にもかかわらずAndroid 15では発売されない Aug 01, 2024 pm 02:56 PM

Pixel 9 シリーズは、8 月 13 日のリリースが予定されており、もうすぐ登場します。最近の噂によると、Pixel 9、Pixel 9 Pro、Pixel 9 Pro XLは、128 GBのストレージから始まるPixel 8とPixel 8 Pro(Amazonで現在749ドル)をミラーリングします。

新しい Google Pixel デスクトップ モードは、Motorola Ready For と Samsung DeX の代替として新鮮なビデオで紹介されています 新しい Google Pixel デスクトップ モードは、Motorola Ready For と Samsung DeX の代替として新鮮なビデオで紹介されています Aug 08, 2024 pm 03:05 PM

Android Authority が、Google が Android 14 QPR3 Beta 2.1 内に隠していた新しい Android デスクトップ モードをデモンストレーションしてから数か月が経過しました。 Google が Pixel 8 と Pixel 8 に DisplayPort Alt Mode サポートを追加することに追随して登場

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

See all articles