執筆者: Noah
制作 | 51CTO テクノロジー スタック (WeChat ID: blog51cto)
Siri は常にユーザーから「少々精神的に不安定」であると批判されています。知恵遅れ「助けがあるよ!
Siri は誕生以来、インテリジェント音声アシスタントの分野を代表するものの 1 つですが、そのパフォーマンスは長い間満足のいくものではありませんでした。しかし、Appleの人工知能チームが発表した最新の研究結果は、現状を大きく変えると予想されている。これらの結果は刺激的であり、この分野の将来に大きな期待を抱かせます。
関連する研究論文の中で、Apple の AI 専門家は、Siri が画像内のコンテンツを識別するだけでなく、よりスマートで実用的になるシステムについて説明しています。この機能モデルは ReALM と呼ばれ、GPT 4.0 標準に基づいており、GPT 4.0 よりも優れたベンチマーク機能を備えています。これらの専門家は、自分たちが開発したモデルを使用して、開発した機能を実装することで、Siri をよりスマートに、より実用的に、さまざまなシナリオに適したものにすることができると考えています。
Apple の研究チームによると、「会話アシスタントが、関連するコンテンツの指示を含むコンテキストを理解できるようにすることが非常に重要です。ユーザーが画面に表示されている内容に基づいて質問できるようにすることは、音声操作エクスペリエンスを確保するための重要なステップです。」
たとえば、人間とコンピューターの対話中に、ユーザーはよく次のように言及します。音声アシスタントに電話番号をダイヤルする、地図上の特定の場所に移動する、特定のアプリや Web ページを開くなどの指示など、画面上の要素またはコンテンツ。会話型アシスタントがユーザーの指示の背後にあるエンティティ参照を理解できない場合、それらのコマンドを正確に実行できません。
さらに、人間の会話ではファジー参照の現象がよく見られますが、人間とコンピュータの自然なインタラクションを実現し、ユーザーが音声アシスタントを使用して画面の内容について問い合わせるときにコンテキストを正確に理解するために、参照 世代分析機能は非常に重要です。
Apple が論文の中で言及した ReALM (Reference Resolution As Language Modeling) と呼ばれるモデルの利点は、ユーザーの画面上のコンテンツと進行中のコンテンツの両方を考慮できることです。タスクは次のとおりです。大規模な言語モデルを使用して、さまざまなタイプのエンティティ (会話エンティティと非会話エンティティを含む) の参照解決の問題を解決します。
従来のテキスト モダリティは画面に表示されるエンティティの処理には不便ですが、ReALM システムは参照解析を言語モデリングの問題に変換し、LLM を使用して画面に表示されるエンティティを処理することに成功しています。非会話的なエンティティを参照すると、この目標の達成が大幅に促進されます。これにより、高度にインテリジェントでより没入感のあるユーザーエクスペリエンスを実現することが期待されています。
従来のテキスト モーダルは、画面上にエンティティが表示されるため、画面に表示されるエンティティを処理するには不便です。画面には通常、画像、アイコン、ボタン、それらの間の相対位置など、豊富な視覚情報とレイアウト構造が含まれています。この情報は、純粋なテキスト記述で完全に表現するのは困難です。
この課題に対処するために、ReALM システムは、画面上のエンティティとその位置情報を解析して画面を再構築することを創造的に提案し、画面を反映して視覚化できるプレーン テキスト表現を生成します。コンテンツ。
エンティティ パーツは、言語モデルがエンティティが表示される場所とその周囲にどのようなテキストがあるかを理解できるように特別にマークされているため、画面上の情報を「見る」ことをシミュレートし、必要なコンテキストを提供できます。画面上の参照対象を理解および解析する際の情報。このアプローチは、大規模な言語モデルを使用して画面コンテンツからコンテキストをエンコードする初めての試みであり、従来のテキスト モダリティでは処理が難しい画面エンティティの問題を克服します。
具体的には、ReALM システムは次の手順を使用して、大規模な言語モデルが画面に表示されたエンティティを「理解」し、処理できるようにします。
まず、上位層のデータ検出器を使用して、画面テキスト内のエンティティを抽出します。これらのエンティティには、タイプ、境界ボックス、およびエンティティの周囲の非エンティティ テキスト要素のリストが含まれます。これは、画面上のすべての視覚的エンティティについて、システムがその基本情報とそれが存在するコンテキストをキャプチャすることを意味します。
そこで、ReALM は、エンティティと周囲のオブジェクトの境界ボックスの中心点を垂直 (上から下) と水平 (左から右) に分割するアルゴリズムを革新的に提案します。整然と、安定して配置されています。エンティティ間の距離が近い場合、エンティティは同じ行上にありタブで区切られているとみなされ、距離が設定されたマージンを超える場合は、次の行に配置されます。このように、上記の方法を継続的に適用することにより、エンティティ間の相対的な空間的位置関係を効果的に保持しながら、画面コンテンツを左から右、上から下に平文形式でエンコードすることができます。
このようにして、本来LLMでは直接処理することが難しかった画面の視覚情報を、言語モデルの入力に適したテキスト形式に変換し、LLMがシーケンスから完全に処理できるようにします。 - シーケンス タスク: 画面エンティティの正確な識別と参照解像度を実現するために、画面エンティティの特定の場所とコンテキストが考慮されます。
これにより、ReALM システムは、対話エンティティを参照する問題を解決する際に優れたパフォーマンスを発揮するだけでなく、非対話エンティティ、つまり、画面のパフォーマンスが向上しました。
簡単に言えば、ReALM システムが直面するタスクは、ユーザーが実行したいタスクに応じて、指定されたエンティティ セット内で、現在のユーザー クエリに関連するエンティティを検索します。
このタスクは、大規模な言語モデルの多肢選択式の質問として構成されており、ユーザーの画面に表示されているエンティティから 1 つ以上の選択肢を回答として選択することが期待されます。もちろん、場合によっては、答えが「どちらでもない」ということもあります。
実際、研究論文では、タスクに関与するエンティティを 3 つのカテゴリに分類しています:
1. 画面エンティティ: 現在のエンティティを指します。ユーザーインターフェイスに表示されるエンティティ。
2. 対話エンティティ: 会話の内容に関連するエンティティ。ユーザーの以前の発言に由来する可能性があります (たとえば、ユーザーが「お母さんに電話する」と発言した場合、連絡先リストの「お母さん」のエントリは関連するエンティティ)、または会話中の仮想アシスタントによって提供される場合もあります(ユーザーが選択できる場所のリストなど)。
3. バックグラウンド エンティティ: バックグラウンド プロセスから発生し、デフォルトで鳴る目覚まし時計やバックグラウンドで再生される音楽など、ユーザーの画面表示や仮想アシスタントとの対話に必ずしも直接反映されるわけではない関連エンティティ。
ReALM のトレーニングとテストに使用されるデータ セットは、合成データと手動で注釈が付けられたデータで構成されており、次の 3 つのカテゴリに分類できます。
まず、ダイアログ データ セット: ユーザーとエージェント間の対話に関連するエンティティのデータ ポイントが含まれています。これらのデータは、評価者に合成エンティティのリストを含むスクリーンショットを表示させ、リスト内で選択されたエンティティを明示的に指すクエリを提供するよう依頼することで収集されました。
2 番目の合成データ セット: テンプレート生成メソッドを使用してデータを取得します。このメソッドは、詳細な説明に依存せずにユーザー クエリとエンティティ タイプだけで参照を判断できる場合に特に便利です。 。合成データ セットには、同じクエリに対応する複数のエンティティを含めることもできます。
3 番目の画面データ セット: 主にユーザーの画面に現在表示されているエンティティのデータが含まれ、各データにはユーザー クエリ、エンティティ リスト、クエリに対応する正しいエンティティが含まれます。 (またはエンティティのコレクション)。各エンティティに関する情報には、エンティティ タイプと、エンティティに関連付けられた名前やその他のテキスト詳細 (目覚まし時計のラベルや時間など) などのその他のプロパティが含まれます。
画面関連のコンテキストを持つデータ ポイントの場合、コンテキスト情報は、エンティティの境界ボックスとエンティティを囲む他のオブジェクトのリストの形式で、タイプとテキストの内容とともに提供されます。これらの周囲の物体の位置情報や位置属性情報を取得します。データセット全体のサイズはカテゴリに応じてトレーニングセットとテストセットに分かれており、それぞれ一定のサイズがあります。
Apple はベンチマーク テストで、自社のシステムを GPT 3.5 および GPT 4.0 と比較しました。 ReALM モデルは、さまざまな種類の参照解析タスクを解決する際に優れた競争力を示します。
写真
論文によると、ReALM のパラメータが最も少ないバージョンでも、また、ベースライン システムと比較して 5% 以上のパフォーマンス向上も達成しました。より大きなモデルのバージョンでは、ReALM は GPT-4 よりも明らかに優れています。特に画面上に表示されるエンティティを処理する場合、モデル サイズが大きくなるにつれて、画面データ セット上の ReALM のパフォーマンス向上がより顕著になります。
さらに、ReALM モデルのパフォーマンスは、新しい分野のゼロサンプル学習シナリオでは GPT-4 のパフォーマンスに非常に近くなります。特定のフィールドでクエリを処理する場合、ReALM モデルはユーザーのリクエストに基づいて微調整されるため、GPT-4 よりも正確に実行されます。
たとえば、明るさを調整するというユーザー要求の場合、GPT-4 はその要求を設定に関連付けるだけで、バックグラウンドに存在するスマート ホーム デバイスも関連エンティティであることを無視します。 ReALM はドメイン固有のデータに基づいてトレーニングされるため、そのような特定のドメインの参照問題をよりよく理解し、正しく解析できます。
「現在の最先端の LLM である GPT-4 よりもパラメーターがはるかに少ないにもかかわらず、RealLM が以前の方法よりも優れたパフォーマンスを発揮し、純粋にテキスト フィールドに基づいた画面を処理できることを実証しました。引用すると、ReaLMも同等の性能を実現できており、また特定分野のユーザー発話においてはGPT-4よりも優れた性能を発揮するため、性能を確保しつつ開発向けのアプリケーションに適していると言える。 「これは、実用的なアプリケーション環境にとって推奨されるソリューションであり、デバイス上でローカルに効率的に実行できる参照解像度システムです。」
さらに、研究者らは、リソースが損なわれると、限られた低遅延の応答が必要である、または複数のプロセスが関与している API 呼び出しなどのステージ統合などの実際のアプリケーション シナリオでは、単一の大規模なエンドツーエンド モデルが適用できないことがよくあります。
これに関連して、モジュール式に設計された ReALM システムには、より優れた最適化の可能性と解釈可能性を提供しながら、アーキテクチャ全体に影響を与えることなく、元の基準解像度モジュールを簡単に交換およびアップグレードできるという、より多くの利点があります。 。
将来に向けて、研究の方向性は、画面領域をグリッドに分割したり、相対的な空間位置をテキスト形式でエンコードしたりするなど、より複雑な方法を指しています。これは非常に困難ではありますが、これは探究すべき有望な手段です。
人工知能の分野では、Apple は常に慎重ですが、静かに投資も行っています。マルチモーダル大型モデル MM1 であれ、AI 主導のアニメーション生成ツール Keyframer であれ、今日の ReALM であれ、Apple の研究チームは技術的なブレークスルーを達成し続けています。
Google、Microsoft、Amazon などの競合他社は、検索、クラウド サービス、オフィス ソフトウェアに AI を追加し、次々と力を入れています。 Apple が取り残されないように努めているのは明らかだ。生成 AI 実装の成果が次々と現れる中、Apple は追いつくペースを加速させています。関係者らは以前から、Appleが6月の世界開発者会議で人工知能分野に注力することを明らかにしており、新たな人工知能戦略がiOS 18アップグレードの中核となる内容となる可能性が高い。その頃には、あなたに驚きが訪れるかもしれません。
https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful -on-device-model-that-substantially-outperforms-gpt-4
https://arxiv.org/pdf/2403.20329.pdf
以上がSiri をもう精神薄弱にさせません! Apple は、「GPT-4 よりもはるかに優れた新しいデバイス側モデルを定義しています。テキストを取り除き、画面情報を視覚的にシミュレートします。最小パラメータ モデルは、ベースライン システムよりも 5% 優れています。」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。