生成型 AI チャットボットの台頭により、舞台裏で動作する基盤となる AI テクノロジーである「大規模言語モデル」という用語が一般的になりました。大規模言語モデル (LLM) は、ユーザー入力に応じて予測された言語セットに基づいて出力を生成し、AI が自分で考えることができるかのように見せます。
しかし、街に存在する大型モデルは LLM だけではありません。ラージ アクション モデル (LAM) は、AI の次の目玉となる可能性があります。
LAM は、人間の入力を理解し、対応するアクションを実行できる人工知能システムです。これは、応答の生成のみに焦点を当てた AI システムとは少し異なるアプローチです。 「ラージ アクション モデル」という用語は、rabbit r1 デバイスの開発者である Rabbit Inc. によって初めて導入されました。同社の Rabbit r1 発表ビデオでは、LAM は AI を言葉から行動に移すのに役立つ新しい基礎モデルであると述べています。
LAM は、ユーザー アクション データの大規模なデータセットでトレーニングされます。したがって、彼らは人間の行動を模倣することによって、またはデモンストレーションを通じて学習します。デモンストレーションを通じて、LAM はさまざまな Web サイトやモバイル アプリケーションのユーザー インターフェイスを理解して操作し、指示に基づいて特定のアクションを実行できます。 Rabbit 氏によると、インターフェイスがわずかに変更された場合でも、LAM はこれを実現できるとのことです。
LAM は、LLM の既存の機能の拡張であると考えることができます。 LLM は、ユーザー入力に基づいて次の単語またはトークンを予測してテキストまたはメディア出力を生成します (ユーザーが質問すると、LLM がテキストまたはメディア出力を提供します)。LAM は、ユーザーに代わって複雑なアクションを実行する機能を追加することで、さらに進化させています。 。
LAM は、ユーザーに代わって複雑なアクションを実行することを目的としています。ただし、注目すべき重要な点は、複雑なアクションを実行できることです。これにより、LAM は高度なタスクの実行にさらに役立ちますが、単純なアクションを実行できないという意味ではありません。
理論的には、これは、たとえば、近くのスターバックスでコーヒーを注文したり、Uber で配車を注文したり、ホテルの予約をしたりするなど、あなたに代わって何かをするように LAM に指示できることを意味します。したがって、Google アシスタント、Siri、または Alexa にテレビやリビングルームの照明をオンにしてもらうなどの単純なタスクを実行することとは異なります。
Rabbit Inc. が共有するビジョンによれば、内部では、LAM は関連する Web サイトや Uber などのアプリにアクセスし、そのインターフェイスをナビゲートしてアクションを実行できます。たとえば、配車を注文したり、予約を変更した場合はキャンセルしたりすることができます。心。
LAM の概念は刺激的であり、おそらく LLM よりもさらに刺激的です。 LAM は生成 AI の後の未来となり、私たちが日常的なタスクを相殺して他の充実した活動に集中できるようになります。ただし、LAM は魅力的に見えますが、まだ準備ができていません。
LAM を利用することを約束した最初の商用製品 (ウサギ r1) は、ユーザーに代わってアクションを実行するというマーケティング上の約束を完全には果たせませんでした。このデバイスはその中核となるセールスポイントで見事に失敗しており、多くの直接のレビューではまったく役に立たないと評価されていました。
さらに悪いことに、YouTuber の Coffeezilla が、r1 のコードベースの一部にアクセスできる選ばれたソフトウェア エンジニアのグループと協力して行った調査により、Rabbit が LAM の代わりに Playwright スクリプトを使用してアクションを実行していることが判明しました。したがって、デバイスは独自の AI モデルを実行するのではなく、実際には大量の If > を実行しているだけでした。次に、ステートメントのスタイルを設定します。約束されたLAMとは程遠い。
Rabbit の r1 デバイスから得られるものがあるとすれば、そうです、ビジョンがそこにあります。ただし、実現する前に作業を行う必要があるため、まだ興奮しないでください。
以上がLLM を使用しましたか?次に登場するのは LAM ですが、作業が必要ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。