小規模言語モデルが AI の世界で次に注目されるのはなぜですか?-AI-php.cn

翻訳者 | Bugatti

レビュアー | Chonglou

AI分野では、テクノロジー大手がますます開発を進めています言語モデル、現在驚くべき新しいトレンドがあります: 小さいは大きいです。大規模言語モデル (LLM) の進歩が停滞の兆候を示す中、研究者や開発者はますます小規模言語モデル (SLM) に注目を向けるようになっています。こののような、コンパクト、効率的、適応性のある AI モデルは、「大きいほど良い」という概念に挑戦的であり、私たちの AI 開発の扱い方を変えると期待されています。 LLM は停滞し始めていますか?最近リリースされた

小規模言語モデルが AI の世界で次に注目されるのはなぜですか?

ellum と HuggingFace

のパフォーマンス比較

の結果は、LLM 間のパフォーマンスの差が急速に縮まっていることを示しています。この傾向は、多肢選択問題、推論、数学の問題などの特定のタスクで特に顕著です。その差は最小限です。たとえば多肢選択問題では、Claude 3 Opus、GPT-4、Gemini Ultraの精度はすべてです83% 上記、推論タスク中、Claude 3 Opus、GPT-4、Gemini 1.5 Proの精度は92%を超えています。は、より小型のモデル (Mixtral 8x7B や Llama 2 - 70B など) を意味します。 )いくつかの側面も示されました

推論や多肢選択問題などの驚くべき結果これらの側面において、小規模モデルはいくつかの大型モデルを上回りました。。これは、モデルのサイズがのパフォーマンスを決定する唯一の要素ではなく、アーキテクチャ、トレーニングデータ、微調整技術などの他の側面が重要な役割を果たす可能性があることを示唆しています。 UberのAIの元責任者であり、著書『Rebooting AI』ゲイリー・マーカスはこう言いました: 最近の記事 12 件、それらは一般に GPT-4 と同じレベルです「」信頼できるAIを構築する方法について説明します。

マーカスは木曜日、IT海外メディア「VentureBeat」のインタビューを受けました。「一部はGPT-4よりも少し優れていますが、大きな飛躍ではありません。誰もがGPT-4の方がGPTより優れていると言うと思います- 3.5 大きな進歩です大きな進歩はありません。「」に続きますパフォーマンスの差が縮まり、より多くの

モデルがかなりの競争力のある結果を示しており、LLMが本当に停滞し始めているのかというの疑問が生じています。この傾向が続く場合、言語モデルの将来の開発と展開に重大な影響を与える可能性があり、人々の焦点は、やみくもにモデルのサイズを増やすから、より効率的に探索するに移る可能性があります、より専門化されたゲート付きアーキテクチャ。

LLMメソッド

の欠点LLM関数が強力であることは否定できませんが、明らかな欠点もあります。まず、LLM のトレーニングには大量のデータが必要で、数十億、さらには数兆のパラメーターが必要になります。これにより、トレーニングプロセスは非常にリソースを消費し、トレーニング LLM を実行するために必要な計算パワーとエネルギー消費も驚異的になります。その結果、コストが高くつき、小規模な組織や個人が中核となるLLMの開発に参加することが困難になっています。昨年、MITが主催したイベントで、OpenAI CEOサム・アルトマンは、GPT-4のトレーニングには少なくとも1の費用がかかると述べました10億米ドル。 LLM の処理に必要なツールとテクニックの複雑さにより、開発者の学習曲線

が急峻になり、アクセシビリティがさらに制限されます。モデルのトレーニングから構築とデプロイメントまで、開発者は長いサイクルに直面しており、これにより開発と実験が遅くなります。ケンブリッジ大学の最近の論文によると、企業が単一の機械学習モデルを導入するには90日以上の時間がかかる可能性があることが示されています。 LLM に関するもう 1 つの重要な問題は、 LLM が幻覚を起こす傾向があることです - 合理的に見えるが実際には現実ではない出力を生成します。これは、情報を本当に知っているのではなく、トレーニングデータのパターンに基づいて次に最も可能性の高い単語を予測するように LLM がトレーニングされている方法に由来します。したがって、LLM は自信を持って虚偽の発言をしたり、事実をでっち上げたり、無関係な概念をばかばかしい方法で組み合わせたりすることができます。この幻想現象を検出し軽減することは、信頼できる言語モデル

を開発する際に

が直面する長年の問題です。マーカスは警告します:「重大な問題を解決するためにLLMを使用する場合、クライアントを侮辱したくありません、間違った医療を受ける車の運転には依然として問題があります。信頼関係を築くには、アウトプットが不可欠です。トレーニングデータとアルゴリズムにバイアスがあると、不公平、不正確、さらには有害な出力が生じる可能性があります。 Google Geminiので見たように、LLM を「安全な

」にし、の信頼性を高めるのと同じテクノロジーは、その有効性も低下させます。さらに、LLM の集中した性質は、少数の大手テクノロジー企業の手に権力と支配が集中するのではないかという懸念を引き起こしています。小さな言語モデル(SLM)が登場今回は、小さな言語モデル

が登場します。 SLMはLLMの合理化されたバージョンであり、パラメータが少なく、設計がよりシンプルです。必要なデータとトレーニング時間は、ほんの数分から数時間ですが、LLM には数日かかります。これにより、ローカルまたは小規模なデバイスでの SLM の展開がより効率的かつ簡単になります。 SLM の主な利点の 1 つは、特定のアプリケーション環境に適していることです。

彼らはより狭い範囲にを集中させており、必要なデータが少ないため、

大規模な一般モデルよりも特定のドメインやタスクに合わせて微調整するのが簡単です。このカスタマイズにより、企業は感情分析、固有表現認識、ドメイン固有の質問応答など、特定のニーズに対して非常に効果的する SLM を作成できます。汎用モデルを使用する場合と比較して、SLM の特殊な機能により、これらのターゲットアプリケーション環境におけるパフォーマンスと効率を向上させることができます。

SLM のもう 1 つの利点は、プライバシーとセキュリティの強化が約束されることです。 SLM はコードベースが小さく、アーキテクチャがシンプルであるため、監査が容易で、予期しない脆弱性が発生する可能性が低くなります。このため、機密データを扱うアプリケーション環境や、データ侵害が重大な結果につながる可能性がある医療や金融などにとって魅力的なものとなっています。さらに、SLM は計算要件が軽減されているため、クラウドインフラストラクチャに依存するのではなく、ローカルデバイスまたはローカルサーバーでの実行により適しています。このローカル処理により、データのセキュリティがさらに向上し、送信中にデータが漏洩するリスクを軽減できます。 LLMと比較して、SLMは特定の領域で気づかれない幻覚が起こりにくいです。通常、SLM は、対象となるドメインまたはアプリケーション環境に固有の

より狭く、

よりターゲットを絞ったデータセットを使用してトレーニングされ、モデルがそのタスクや情報に最も関連するパターン、語彙を学習するのに役立ちます。これにより、無関係、予期しない、または一貫性のない出力が生成される可能性が減少します。使用するパラメータが少なく、よりスリムなアーキテクチャであるため、SLM はトレーニングデータ内のノイズやエラーを捕捉および増幅する傾向が低くなります。初期段階の AI スタートアップである HuggingFace の CEO、Clem Delangue 氏は、ユースケースの最大 99% が SLM を使用して解決できると述べ、2024 年は SLM の年になると予測しました。 HuggingFace のプラットフォームを使用すると、開発者は機械学習モデルを構築、トレーニング、展開することができ、同社は今年初めに Google との戦略的パートナーシップを発表しました。その後、両社は HuggingFace を Google の Vertex AI に統合し、開発者が Google の Vertex Model Garden を通じて数千のモデルを迅速にデプロイできるようになりました。 Google Gemmaが勢いを増しています

最初に

LLMのの利点をOpenAIに譲った後、Googleは積極的にを奪い取っています SLM の機会。 2 月に遡ると、Google は、効率性と使いやすさを向上させるために設計された小さな言語モデルの新しいファミリーである Gemma を立ち上げました。他の SLM と同様に、Gemma モデルは、特別なハードウェアや包括的な

最適化を必要とせずに、スマートフォン、タブレット、ラップトップなどのさまざまな

一般的なデバイス上で実行できます。

Gemmaのリリース以来、先月訓練されたモデルがHuggingFaceで40万回以上ダウンロードされ、いくつかのコマンドが登場しましたExciティンプロジェクト。たとえば、Cerule は、Gemma 2B と Google の SigLIP を組み合わせた機能の強力な画像および言語モデルであり、画像とテキストの広範なデータセットを使用してトレーニングされています。 Cerule は効率的なデータ選択技術を活用して、大量のデータや計算を必要とせずに高いパフォーマンスを実現します。これは、Cerule が新たなエッジコンピューティングのユースケースに適している可能性があることを意味します。

もう 1 つの例は、CodeGemma です。これは、コーディングプログラミングと数学的推論に焦点を当てた Gemma の特殊バージョンです。 CodeGemma は、さまざまなプログラミング関連アクティビティに 3 つの異なるモデルを提供し、開発者にとって高度なプログラミングツールをよりアクセスしやすくし、より効率的なものにします。の潜在力能力

特定のニーズに合わせてモデル

をカスタマイズするなどの利点がますます明らかになってきています。 SLMは、を介して費用対効果の高いをもたらし、AI アクセスを普及させ、業界のイノベーションを推進することが期待されています。 SLM をエッジに導入すると、金融、エンターテイメント、自動車システム、教育、電子商取引、ヘルスケアなどの業界における、リアルタイムでパーソナライズされた安全な

アプリケーションの可能性がもたらされます。

データをローカルで処理し、クラウドインフラストラクチャへの依存を軽減することで、エッジコンピューティングとSLMを組み合わせることで、応答時間を改善し、データプライバシーを強化し、ユーザーエクスペリエンスを向上させることができます。この分散型AIアプローチは、企業と消費者がテクノロジーで相互作用するの方法を変革し、現実世界でより個人的なをより多くすることを約束します。 LLM はコンピューティングリソースに関連した課題に直面しており、パフォーマンスのボトルネックに遭遇する可能性があるため、LLM のの台頭により、AIエコシステムが驚くべきペースで開発を継続できるようになることが期待されています。原題: Why small language models are the next big thing in AI