翻訳者 | Bugatti
レビュアー | Chonglou
AI分野では、テクノロジー大手がますます開発を進めています 言語モデル、現在驚くべき新しいトレンドがあります: 小さいは大きいです。大規模言語モデル (LLM) の進歩 が停滞の兆候 を示す中、研究者や開発者 はますます小規模言語モデル (SLM) に 注目を向けるようになっています。この のような、コンパクト、効率的、適応性のある AI モデルは、「大きいほど良い」という概念に挑戦的であり、私たちの AI 開発の扱い方を変えると期待されています 。 LLM は停滞し始めていますか?最近リリースされた
Vの結果は、LLM 間のパフォーマンスの差が急速に縮まっていることを示しています。この傾向は、多肢選択問題、推論、数学の問題などの特定のタスクで特に顕著です。その差は最小限です。 たとえば多肢選択問題では、Claude 3 Opus、GPT-4、Gemini Ultraの精度はすべてです83% 上記、推論タスク中、Claude 3 Opus、GPT-4、Gemini 1.5 Proの精度は92%を超えています。 は、 より小型のモデル (Mixtral 8x7B や Llama 2 - 70B など) を 意味します。 )いくつかの 側面も示されました
推論や多肢選択問題などの驚くべき結果これらの側面において、小規模モデルはいくつかの大型モデルを上回りました。 。これは、モデルのサイズがのパフォーマンスを決定する唯一の要素ではなく、アーキテクチャ、トレーニング データ、微調整技術などの他の側面が重要な役割を果たす可能性があることを示唆しています。 UberのAIの元責任者であり、著書『Rebooting AI』ゲイリー・マーカスはこう言いました: 最近の記事 12 件、それらは一般に GPT-4 と同じレベルです 「」信頼できるAIを構築する方法について説明します。
マーカスは木曜日、IT海外メディア「VentureBeat」のインタビューを受けました。 「一部はGPT-4よりも少し優れていますが、大きな飛躍ではありません。誰もがGPT-4の方がGPTより優れていると言うと思います- 3.5 大きな進歩です 大きな進歩はありません。 「」に続きますパフォーマンスの差が縮まり、 より多くの
モデルがかなりの競争力のある結果を示しており、LLMが本当に停滞し始めているのかというの疑問が生じています。この傾向が続く場合、言語モデルの将来の開発と展開に重大な影響を与える可能性があり、人々の焦点は、やみくもにモデルのサイズを増やすから、より効率的に探索するに移る可能性があります、 より専門化されたゲート付きアーキテクチャ。 の欠点LLM関数が強力であることは否定できませんが、明らかな欠点もあります。まず、LLM のトレーニングには大量のデータが必要で、数十億、さらには数兆のパラメーターが必要になります。これにより、トレーニング プロセス は非常に リソースを消費し、トレーニング LLM を実行するために必要な計算 パワー とエネルギー消費 も驚異的になります。その結果、コストが高くつき、小規模な組織や個人が中核となるLLMの開発に参加することが困難になっています。昨年、MITが主催したイベントで、OpenAI CEOサム・アルトマンは、GPT-4のトレーニングには少なくとも1の費用がかかると述べました10億米ドル。 LLM の処理に必要なツールとテクニック の複雑さにより、開発者 の学習曲線 が急峻になり、アクセシビリティがさらに制限されます。 モデルのトレーニングから構築とデプロイメントまで、開発者は長いサイクルに直面しており、これにより開発と実験が遅くなります。ケンブリッジ大学の最近の論文によると、企業が単一の機械学習モデルを導入するには90日以上の時間がかかる可能性があることが示されています 。 LLM に関するもう 1 つの重要な問題は、 LLM が幻覚を起こす傾向があることです - 合理的に見えるが実際には現実ではない出力 を生成します。これは、情報 を本当に知っているのではなく、トレーニング データのパターンに基づいて次に最も可能性の高い単語を予測するように LLM がトレーニングされている方法に由来します。 したがって、LLM は自信を持って虚偽の発言をしたり、事実をでっち上げたり、無関係な概念をばかばかしい方法で組み合わせたりすることができます。この幻想現象を検出し軽減することは、信頼できる言語モデル が直面する長年の問題です。 マーカスは警告します:「重大な問題を解決するためにLLMを使用する場合、クライアントを侮辱したくありません 、 間違った医療を受ける車の運転には依然として問題があります。信頼関係を築くには、アウトプット が不可欠です。トレーニング データとアルゴリズムにバイアスがあると、不公平、不正確、さらには有害な出力が生じる可能性があります。 Google Geminiので見たように、LLM を「安全な 」にし、の信頼性を高めるのと同じテクノロジーは、その有効性も低下させます。さらに、LLM の集中した性質は、少数の大手テクノロジー企業の手に権力と支配が集中するのではないかという懸念を引き起こしています。 小さな言語モデル(SLM)が登場今回は、小さな言語モデル が登場します。 SLMはLLMの合理化されたバージョンであり、パラメータが少なく、設計がよりシンプルです。 必要な データと トレーニング 時間 は、 ほんの数分から数時間ですが、LLM には数日かかります。これにより、ローカルまたは小規模な デバイスでの SLM の展開 がより効率的かつ簡単になります。 SLM の主な利点の 1 つは、特定のアプリケーション環境に適していることです。 大規模な一般モデルよりも特定のドメインやタスクに合わせて微調整するのが簡単です。このカスタマイズにより、企業は感情 分析、固有表現認識、ドメイン固有の質問応答など、特定のニーズ に対して非常に 効果的 する SLM を作成できます。汎用モデルを使用する場合と比較して、SLM の特殊な機能により、これらのターゲット アプリケーション環境におけるパフォーマンスと効率を向上させることができます。 SLM のもう 1 つの利点は、 プライバシーとセキュリティの強化が約束されることです。 SLM はコード ベースが小さく、 アーキテクチャがシンプルであるため、監査が容易で、予期しない脆弱性が発生する可能性が低くなります。このため、機密データを扱うアプリケーション環境や、データ侵害が重大な結果につながる可能性がある医療や金融などにとって魅力的なものとなっています。さらに、SLM は計算要件が軽減されているため、クラウド インフラストラクチャに依存するのではなく、ローカル デバイスまたはローカル サーバーでの実行により適しています。このローカル処理により、データのセキュリティがさらに向上し、送信中にデータが漏洩するリスクを軽減できます。 LLMと比較して、SLMは特定の領域で気づかれない幻覚が起こりにくいです。通常、SLM は、対象となるドメインまたはアプリケーション 環境に固有の よりターゲットを絞ったデータセットを使用して トレーニングされ、モデルがそのタスクや情報に最も関連するパターン、語彙を学習するのに役立ちます。これにより、無関係、予期しない、または一貫性のない出力が生成される可能性が減少します。 使用するパラメータが少なく、よりスリムなアーキテクチャであるため、SLM はトレーニング データ内のノイズ やエラーを捕捉および増幅する傾向が低くなります。 初期段階の AI スタートアップである HuggingFace の CEO、Clem Delangue 氏は、ユースケースの最大 99% が SLM を使用して解決できると述べ、2024 年は SLM の年になると予測しました。 HuggingFace のプラットフォームを使用すると、開発者 は機械学習モデルを構築、トレーニング、展開することができ、同社は今年初めに Google との戦略的パートナーシップを発表しました。その後、両社は HuggingFace を Google の Vertex AI に統合し、開発者が Google の Vertex Model Garden を通じて数千のモデルを迅速にデプロイできるようになりました。 Google Gemmaが勢いを増しています LLMのの利点をOpenAIに譲った後、Googleは積極的にを奪い取っています SLM の機会。 2 月に遡ると、Google は、効率性と使いやすさを向上させるために設計された小さな言語モデルの新しいファミリーである Gemma を立ち上げました。他の SLM と同様に、Gemma モデルは、特別なハードウェアや包括的な Gemmaのリリース以来、先月訓練されたモデルがHuggingFaceで40万回以上ダウンロードされ、いくつかのコマンドが登場しましたExciティンプロジェクト。たとえば、Cerule は、Gemma 2B と Google の SigLIP を組み合わせた機能の強力な画像および言語モデルであり、画像とテキストの広範なデータセットを使用してトレーニングされています。 Cerule は効率的なデータ選択技術を活用して、大量のデータや計算を必要とせずに高いパフォーマンスを実現します。これは、Cerule が新たなエッジ コンピューティングのユースケースに適している可能性があることを意味します。 もう 1 つの例は、CodeGemma です。これは、コーディングプログラミングと数学的推論に焦点を当てた Gemma の特殊バージョンです。 CodeGemma は、さまざまなプログラミング 関連アクティビティに 3 つの異なるモデルを提供し、開発者にとって高度な プログラミング ツールをよりアクセスしやすく し、より効率的なものにします。 の潜在力能力 をカスタマイズするなどの利点 がますます明らかになってきています。 SLMは、を介して費用対効果の高いをもたらし、AI アクセスを普及させ、業界のイノベーションを推進することが期待されています。 SLM をエッジに導入すると、金融、エンターテイメント、自動車システム、教育、電子商取引、ヘルスケアなどの業界における、リアルタイムでパーソナライズされた安全な データをローカルで処理し、クラウド インフラストラクチャへの依存を軽減することで、エッジ コンピューティングとSLMを組み合わせることで、応答時間を改善し、データ プライバシーを強化し、ユーザー エクスペリエンスを向上させることができます。この分散型AIアプローチは、企業と消費者がテクノロジーで相互作用するの方法を変革し、現実世界でより個人的なをより多くすることを約束します。 LLM はコンピューティング リソースに関連した課題に直面しており、パフォーマンスのボトルネックに遭遇する可能性があるため、LLM のの台頭により、AIエコシステムが驚くべきペースで開発を継続できるようになることが期待されています。 原題: Why small language models are the next big thing in AI
LLMメソッド
彼らはより狭い範囲にを集中させており、必要なデータが少ないため、
一般的なデバイス上で実行できます。
アプリケーションの可能性がもたらされます。
以上が小規模言語モデルが AI の世界で次に注目されるのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。