杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化-AI-php.cn

# さっそく、Prophet のメソッドをサポートして GPT-3 を読み取る方法を直接見てみましょう。 . フィギュア能力。

効果的に情報を抽出し、質問に正確に回答します。Prophet はこれを行うために、独自の

研究チーム

ホームページ

テクノロジー周辺機器

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

青灯夜游

Mar 31, 2023 pm 10:42 PM

ai 紙

現在、この論文は CVPR2023 に採択されました。

画像を読み取れるGPT-4が衝撃リリース！ただし、利用するには並ぶ必要があります。。。

まずはこれを試してみませんか~

小さなモデルを追加すると、テキストのみを簡単に理解できる ChatGPT や GPT-3 などの大きな言語モデルを作成できます画像を読むあらゆる種類の 厄介な詳細 に簡単に対処できます。

そして、この小さなモデルをトレーニングします。これは 1 枚のカード (RTX 3090) で実行できます。

効果については、写真をご覧ください。

たとえば、訓練された GPT-3 に「音楽シーン」の写真を入力し、「その現場ではどのような活動が行われているのですか?」と質問します。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

GPT-3 は迷うことなく、コンサートに答えを出しました。

さらに難しくするには、GPT-3 に Jiang Zi の写真を与え、写真にあるカーテンの素材の種類を識別させます。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

GPT-3: レース。＃＃＃＃＃＃ビンゴ！ (何か付いているようです)

この方法は、杭州電子科学技術大学と合肥理工大学のチーム

Prophet

の最新の成果です。半年前にすでに開発されていたので、これに取り掛かります。論文の筆頭著者は杭州典子大学大学院生の邵振偉さんで、1歳の時に「進行性脊髄性筋萎縮症」と診断され、在学中に浙江大学に合格しなかったことを後悔していたという。受験して家から近い杭州典子大学を選びました。

この論文は CVPR2023 に採択されました。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化クロスモーダルタスクで新しい SOTA に到達する

# さっそく、Prophet のメソッドをサポートして GPT-3 を読み取る方法を直接見てみましょう。 . フィギュア能力。

まず、データセットのテスト結果を見てみましょう。

研究チームは、外部知識に基づいた 2 つの視覚的な質問と回答のデータセット、OK-VQA と A-OKVQA で Prophet をテストし、両方とも

新しい SOTA

を作成しました。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化具体的には、OK-VQA データセット上で、80B パラメーターを備えた Deepmind の大規模モデル Flamingo と比較して、Prophet は精度を達成しました成功率は61.1%で、フラミンゴ（57.8%）を破ることに成功しました。

そして、必要なコンピューティング能力リソースの点でも、Prophet は Flamingo を「上回っています」。

Flamingo-80B は

1536 TPUv4 グラフィックスカード

で 15 日間 トレーニングする必要がありますが、Prophet に必要なのは 1 つの RTX-3090 グラフィックスカード のみです。 VQA モデルを 4 日 トレーニングしてから、OpenAI API を一定回数呼び出します。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化実際、GPT-3 によるクロスモーダルタスクの処理を支援する Prophet と同様のメソッド (PICa など) や、その後の KAT や REVIVE などがありました。

ただし、一部の詳細の処理では満足できない場合があります。

栗を渡して、下の絵を一緒に読んでもらい、次の質問に答えてもらいます。絵の中の木にはどんな実がなりますか?

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化 PICa、KAT、および REVIVE が写真から抽出した唯一の情報は、背後にココナッツの木があることを完全に無視して広場を歩いている人々のグループでした。最終的な答えは推測することしかできません。

Prophet ではこのような事態は起こらず、上記の方法で抽出された画像情報が不足する問題を解決し、GPT-3 の可能性をさらに引き出します。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化では、預言者はどのようにしてそれを行ったのでしょうか?

小規模モデル大きなモデル

効果的に情報を抽出し、質問に正確に回答します。Prophet はこれを行うために、独自の

2 段階フレームワーク

を利用しています。これら 2 つの段階間の役割分担も明確です:

第 1 段階: 質問に基づいて啓発的な回答をします;
第 2 段階: これらの回答は範囲を狭め、GPT-3 の可能性を実現するのに十分なスペースを与えます。

まず、第 1 段階で、研究チームは、特定の外部知識 VQA データセットに対して、改良された MCAN モデル (VQA モデル) をトレーニングしました。

モデルをトレーニングした後、モデルから 2 つのヒューリスティックな回答 (回答候補と回答を認識した例) を抽出します。

このうち、回答候補をモデル分類層が出力する信頼度に基づいてソートし、上位10件を選出します。

応答認識の例は、モデル分類層の前の特徴をサンプル (この特徴空間で最も類似したラベル付きサンプル) の潜在的な回答特徴として使用することを指します。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

次のステップは第 2 段階ですが、これは比較的単純で大まかです。

前のステップで取得した「感動的な回答」をプロンプトに整理し、そのプロンプトを GPT-3 に入力して視覚的な質問を完成させ、特定のプロンプトの下で質問に回答します。

ただし、前のステップでいくつかの回答のヒントが示されていますが、これは GPT-3 がこれらの回答に限定されることを意味するものではありません。

プロンプトによって与えられる回答の信頼度が低すぎる場合、または正しい回答がそれらのプロンプトの中にない場合、GPT-3 が新しい回答を生成する可能性は十分にあります。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

研究チーム

もちろん、研究結果に加えて、この研究を支えたチームについても言及する必要があります。

筆頭著者Shao Zhenweiは、1歳のときに「進行性脊髄性筋萎縮症」と診断され、第1級の身体障害であり、自力でのケアができません。生活も勉強も母親の全面的な世話が必要です。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

しかし、身体的な限界にもかかわらず、シャオ・ジェンウェイの知識への渇望は衰えていません。

2017 年の大学入学試験では 644 点の高得点を獲得し、杭州電子科学技術大学コンピューター専攻に首席で入学しました。

この期間中、彼は2018年の中国大学生自己啓発スター、2020年の全国奨学金、2021年の浙江省優秀卒業生などの栄誉も獲得しました。

シャオ・ジェンウェイは学部時代に、周裕教授とともに科学研究活動を開始していました。

2021年、シャオ・ジェンウェイさんは大学院への昇進の準備をしていたときに浙江大学と偶然出会い、同大学に残り、周余教授の研究グループに参加して修士号取得を目指しました。大学院2年目。研究方向はクロスモーダル学習。

Yu Zhou教授は、この研究論文の第二著者および責任著者であり、杭州点平大学コンピューターサイエンス学部の最年少教授であり、「複雑システム研究会」のメンバーです。文部省「モデリングとシミュレーション」研究室副所長。

Yu Zhou は、長年にわたり マルチモーダルインテリジェンス の方向を専門としており、研究チームを率い、国際的なビジュアル質問応答チャレンジ VQA チャレンジで優勝と準優勝を果たしました。何度も。

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

研究チームのメンバーのほとんどは、杭州電子 メディアインテリジェンス研究所 (MIL) に所属しています。

当研究室は、国家優秀人材であるユ・ジュン教授が所長を務めており、近年では、多方面に焦点を当てたハイレベルな学会論文（TPAMI、IJCV、CVPRなど）を次々と発表しています。モーダル学習の分野で多くの IEEE ジャーナル賞を受賞しており、会議では最優秀論文賞を受賞しています。

当研究室は、国家重点研究開発計画や中国国家自然科学財団など20以上の国家プロジェクトを主催しており、浙江省自然科学賞で一等賞、教育自然科学賞で二位を受賞しています。科学賞。

以上が杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7727

Java チュートリアル

1643

CakePHP チュートリアル

1397

Laravel チュートリアル

1290

PHP チュートリアル

1233

Related knowledge

WorldCoin（WLD）価格予測2025-2031：WLDは2031年までに4ドルに達しますか？ Apr 21, 2025 pm 02:42 PM

WorldCoin（WLD）は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか？ WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

なぜ仮想通貨価格の上昇または下落があるのですか？なぜ仮想通貨価格の上昇または下落があるのですか？ Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

クロスチェーントランザクションとはどういう意味ですか？クロスチェーントランザクションとは何ですか？ Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換：1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain（ACI）の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative（ACI）の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

ハイブリッドブロックチェーン取引プラットフォームとは何ですか？ Apr 21, 2025 pm 11:36 PM

暗号通貨交換を選択するための提案：1。流動性の要件については、優先度は、その順序の深さと強力なボラティリティ抵抗のため、Binance、gate.ioまたはokxです。 2。コンプライアンスとセキュリティ、Coinbase、Kraken、Geminiには厳格な規制の承認があります。 3.革新的な機能、Kucoinのソフトステーキング、Bybitのデリバティブデザインは、上級ユーザーに適しています。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao（Kernel）Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか？ BNBホルダーはそれからどのような利点を得ることができますか？心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

Rexas Finance（RXS）は、2025年にSolana（Sol）、Cardano（ADA）、XRP、Dogecoin（Doge）を上回ることができます Apr 21, 2025 pm 02:30 PM

不安定な暗号通貨市場では、投資家は人気のある通貨を超えた代替品を探しています。 Solana（Sol）、Cardano（ADA）、XRP、Dogecoin（DOGE）などのよく知られた暗号通貨も、市場の感情、規制の不確実性、スケーラビリティなどの課題に直面しています。ただし、新しい新興プロジェクトであるRexasFinance（RXS）が出現しています。それは有名人の効果や誇大広告に依存するのではなく、現実世界の資産（RWA）とブロックチェーン技術を組み合わせて投資家に革新的な投資方法を提供することに焦点を当てています。この戦略により、2025年の最も成功したプロジェクトの1つになることを望んでいます。Rexasfi

通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

See all articles

杭州電子の人がGPT画像読み取り機能を初めて取得、1枚のカードで新しいSOTAを実現、コードはオープンソース化

# さっそく、Prophet のメソッドをサポートして GPT-3 を読み取る方法を直接見てみましょう。 . フィギュア能力。

効果的に情報を抽出し、質問に正確に回答します。Prophet はこれを行うために、独自の

研究チーム

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック