ホームページ テクノロジー周辺機器 AI CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。

Aug 01, 2024 pm 06:29 PM
プロジェクト

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この記事の主な著者は清華大学とカーネギー メロン大学 (CMU) です。彼らは、清華大学コンピューターサイエンス学部卒業生のZhao Chenyang氏と、カーネギーメロン大学の修士課程学生であるJia Xueying氏です。大規模言語モデル (LLM) は多くの自然言語処理タスクでは良好に機能しますが、特定のタスクでは満足のいく結果が得られません。特定の自然言語タスクにおけるモデルのパフォーマンスを向上させるために、既存の方法は主に、手動で注釈が付けられた高品質のデータに依存しています。この種のデータを収集するプロセスは時間と労力がかかり、データが不足しているタスクでは特に困難です。
この問題を解決するために、一部の研究では、強力な教師モデルを通じてトレーニング データを生成し、特定のタスクにおける生徒モデルのパフォーマンスを向上させようとしています。ただし、このアプローチは、コスト、拡張性、法的遵守の点で依然として多くの課題に直面しています。人間による高品質の監視信号を継続的に取得できない場合、モデルを継続的に反復する機能が緊急に解決すべき問題になります。
カーネギーメロン大学と清華大学の研究チームがSELF-GUIDE手法を提案しました。この方法は、言語モデル自体によってタスク固有のデータセットを生成し、このデータセットに基づいて微調整することで、大量の外部の高品質データやより強力な外部データに依存することなく、特定のタスクにおけるモデルの能力を大幅に向上させます。教師モデル。具体的には、約 3 つの外部入力サンプルを使用して、SELF-GUIDE は多段階の生成およびフィルタリング メカニズムを使用して、モデルによって生成された合成データを使用してモデルを微調整し、特定のタスクでモデルのパフォーマンスを向上させます。

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。ペーパーアドレス: https://arxiv.org/abs/2407.12874 コードリポジトリ: https://github.com/zhaochenyang20/Prompt2Model-SELF-GUIDE

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。 図 1: SELF-GUIDE はモデルを使用して自律そうだデータの合成 特定のタスクを実行するモデルの能力を向上させる機能。

方法

具体的には、研究チームはSELF-GUIDE方法を入力データ生成、出力データ生成、品質最適化の3つの主要な段階に分解しました。

入力データの生成

SELF-GUIDE フレームワークの設計と実装のプロセスでは、研究者はまずタスクの種類 (生成タスクまたは分類タスク) に応じて異なるプロンプト テンプレートを指定しました。生成タスクの場合、SELF-GUIDE フレームワークは比較的単純なプロンプト テンプレートを使用します。分類タスクの場合、SELF-GUIDE フレームワークは別の戦略を採用します。分類タスクの場合、SELF-GUIDE フレームワークは最初にすべてのラベル空間からラベルをランダムに選択し、それを条件付きで生成された擬似ラベルとして使用して、入力データの生成をガイドします。擬似ラベルを選択した後、SELF-GUIDE フレームワークはより複雑な条件を使用してテンプレートを生成し、選択した擬似ラベルに対応する入力コンテンツを生成するようにモデルをガイドします。

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。図 2: SELF-GUIDE の中核は、言語モデルが段階的に入出力データの組み合わせを生成する効率的な多段階生成メカニズムにあります。生成とフィルタリングの後、自己生成されたデータは言語モデル自体を微調整するためにさらに使用されます。この図は、SELF-GUIDE のビルド タスクの流れを示しています。

テンプレートが選択され、いくつかのショットのサンプルが入力された後、完全なプロンプトが LLM に渡されて、入力データが生成されます。プロンプトの各ラウンドの後、新しく生成された入力が入力ライブラリに追加されます。入力のサブセットがこのライブラリからランダムにサンプリングされ、最初の例の入力とマージされて新しいキューが形成され、LLM によって生成される入力セットが徐々に拡張され、重複が減ります。 SELF-GUIDE は入力生成を 1 ラウンドのみ実行し、その後、ルールベースのフィルターを適用して低品質の入力を削除する品質最適化フェーズが実行されます。

CMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。
Rajah 3: Rajah ini menerangkan proses PANDUAN KENDIRI menyelesaikan tugas pengelasan. Untuk data daripada tugas pengelasan, PANDUAN DIRI mula-mula menjana label pseudo, kemudian menjana input yang sepadan, dan akhirnya menjana semula label sebenar.
Penjanaan data output
Fasa penjanaan data output menggunakan kaedah pembelajaran konteks biasa: penyelidik menyediakan arahan tugasan dan contoh asal kepada model, membenarkan model melabelkan setiap input yang dijana dalam fasa penjanaan input. Selepas semua output diperoleh, satu lagi pusingan penapisan berasaskan peraturan dilakukan untuk memilih set data sintetik akhir.
Pengoptimuman Kualiti
Kualiti data yang dijana adalah penting untuk kejayaan latihan hiliran. PANDUAN KENDIRI menggunakan dua strategi untuk meningkatkan kualiti: melaraskan parameter penjanaan untuk meningkatkan kualiti penjanaan dan menapis sampel berkualiti rendah berdasarkan peraturan.
Laraskan suhu: Melaraskan suhu ialah strategi biasa untuk mengimbangi kepelbagaian dan kualiti. Rangka kerja PANDUAN DIRI menggunakan suhu yang lebih tinggi dalam peringkat penjanaan input untuk menggalakkan kepelbagaian dan suhu yang lebih rendah pada peringkat lain untuk memastikan keluaran kebarangkalian tertinggi, sekali gus memastikan kualiti data keseluruhan. Walau bagaimanapun, pelarasan suhu sahaja tidak mencukupi untuk mencapai keseimbangan yang diingini. Oleh itu, PANDUAN KENDIRI juga melakukan dua pusingan penapisan data berasaskan peraturan selepas penjanaan input dan selepas anotasi output.
Penapis Bunyi: Penyelidik menyusun senarai istilah hingar secara manual, termasuk sapaan biasa dan aksara hingar (contohnya, "”" dalam kandungan yang dijana jika ada yang muncul dalam input atau output contoh yang dijanakan Istilah bising daripada ini senarai, PANDUAN KENDIRI akan membuang keseluruhan contoh
Penapis Panjang: Walaupun panjang contoh mungkin berat sebelah, penyelidik percaya bahawa contoh ini masih mewakili dari segi pengagihan panjang tugasan tertentu panjang contoh mengikuti taburan normal, dan mengira min μ dan sisihan piawai σ contoh input Penyelidik menganggap bahawa panjang input dan output contoh yang dijana harus mematuhi taburan normal yang sama, dan memerlukan panjang untuk. berada dalam (μ − 2σ, μ + 2σ). titik data, termasuk Bilangan input dan output yang dijana, suhu di mana data input dijana, suhu di mana data output dijana, parameter penalaan halus, dsb. Penyelidik membahagikan tugas ujian eksperimen kepada dua bahagian: satu bahagian boleh menggunakan semua data untuk pengesahan untuk melaraskan parameter penjanaan, yang dipanggil tugas pengesahan ; parameter yang "memaksimumkan prestasi tugas yang paling teruk" pada tugas pengesahan dan membetulkannya untuk menilai PANDUAN KENDIRI pada tugasan ujian
Hasil eksperimen
Untuk menilai keberkesanan PANDUAN KENDIRI, penyelidik memilih 14 tugasan klasifikasi dan 8 generasi. tugasan daripada tanda aras Super-NaturalInstructions V2 Para penyelidik memilih secara rawak separuh daripada tugasan untuk carian Parameter Super-Natural, separuh lagi digunakan untuk penilaian Dari segi model, penyelidik memilih Vicuna-7b-1.5 sebagai model asas untuk penjanaan input, penjanaan keluaran dan penalaan halus Dari segi penunjuk penilaian, penyelidik menggunakan tanda aras Arahan Super-Natural ialah Padanan Tepat untuk tugasan klasifikasi dan ROUGE-L untuk tugasan penjanaan Untuk menggambarkan kesan PANDUAN KENDIRI, penyelidik membandingkan PANDUAN KENDIRI dengan kaedah pembelajaran mengikut arahan dan konteks yang lain:
1. Sedikit- Tembakan ICL: Sebagai penanda aras utama, penyelidik membandingkan dengan model bahasa petunjuk langsung bergantung secara langsung pada kebolehan mengikut arahan model
2. Self-ICL menggunakan contoh yang dijana sendiri untuk meningkatkan arahan sifar rujukan sampel dengan menjana sendiri seberapa banyak contoh yang mungkin (bukannya bilangan contoh tetap) untuk mengisi perkataan gesaan.
3.Finetuning Few-Shot: Gunakan secara langsung sebilangan kecil sampel input untuk penalaan halus.
PANDUAN KENDIRI Keputusan percubaan utama teks asal adalah seperti berikut. Pada metrik penilaian garis dasar, peningkatan mutlak untuk tugas klasifikasi mencapai 14.5%, manakala peningkatan mutlak untuk tugas penjanaan mencapai 17.9%. Keputusan ini menunjukkan bahawa PANDUAN KENDIRI amat berkesan dalam membimbing LLM ke arah pengkhususan tugasan, walaupun data sangat terhad. Ini menyerlahkan potensi data yang dijana sendiri untuk menyesuaikan LLM kepada tugas tertentu pada skala. Untuk lebih banyak keputusan eksperimen dan eksperimen ablasi, sila rujuk kertas asal. . separuh digunakan untuk menggunakan parameter nyahpepijat ini Parameter menguji prestasi PANDUAN KENDIRI. Kami menggunakan parameter penyahkodan dan templat kiu yang sama untuk menilai prestasi model sebelum dan selepas PANDUAN KENDIRI.

Ringkasan

Rangka kerja PANDUAN DIRI menggalakkan model untuk menjana data latihan secara autonomi dan memperhalusi data ini. Keputusan eksperimen menunjukkan bahawa kaedah ini mempunyai potensi besar dalam meningkatkan keupayaan profesional model bahasa berskala besar untuk tugasan tertentu, terutamanya apabila data terhad, PANDUAN KENDIRI dapat menyelesaikan masalah kekurangan data latihan dengan berkesan. Pada masa yang sama, ini juga menyediakan rujukan untuk meneroka teknologi untuk penyesuaian model autonomi dan pembelajaran berterusan. Para penyelidik berharap bahawa kerja ini akan menggalakkan pembangunan sistem AI dalam penjajaran autonomi dan mekanisme penambahbaikan untuk menjadikannya lebih konsisten dengan niat manusia.

以上がCMU と清華社の新しい取り組み: LLM がデータを合成して自ら学習できるようにすると、特定のタスクのパフォーマンスも大幅に向上します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。 。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェア エンジニアのリストのトップに立つ UIUC のエージェントレス ソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します オープンソース AI ソフトウェア エンジニアのリストのトップに立つ UIUC のエージェントレス ソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナ シャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

RLHF から DPO、TDPO に至るまで、大規模なモデル アライメント アルゴリズムはすでに「トークンレベル」になっています RLHF から DPO、TDPO に至るまで、大規模なモデル アライメント アルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッション プラットフォームはオンライン、LeCun は気に入っています arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッション プラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯!紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープン ディスカッション フォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッション エリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

LLM は時系列予測にはあまり適していません。推論機能も使用しません。 LLM は時系列予測にはあまり適していません。推論機能も使用しません。 Jul 15, 2024 pm 03:59 PM

言語モデルは本当に時系列予測に使用できるのでしょうか?ベタリッジの見出しの法則 (疑問符で終わるニュース見出しは「いいえ」と答えることができます) によれば、答えは「いいえ」であるはずです。このような強力な LLM は時系列データを適切に処理できないという事実は真実のようです。時系列、つまり時系列とは、その名の通り、時間順に並べられた一連のデータ点のことを指します。時系列分析は、病気の蔓延予測、小売分析、ヘルスケア、金融などの多くの分野で重要です。時系列分析の分野では、多くの研究者が最近、大規模言語モデル (LLM) を使用して時系列の異常を分類、予測、検出する方法を研究しています。これらの論文では、テキスト内の逐次依存関係の処理に優れた言語モデルは時系列にも一般化できると想定しています。

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニング コードなどはすべてオープンソースです 最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニング コードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに 近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

See all articles