ツリーベースのモデルが依然として表形式データの深層学習よりも優れているのはなぜですか?
ディープラーニングは、画像、言語、さらにはオーディオなどの分野で大きな進歩を遂げました。ただし、表形式データの処理に関しては、深層学習のパフォーマンスは平凡です。表形式のデータは、特性が不均一である、サンプルサイズが小さい、極値が大きいなどの特徴があるため、対応する不変量を見つけることが困難です。
ツリーベースのモデルは微分可能ではなく、深層学習モジュールと共同でトレーニングすることができないため、テーブル固有の深層学習アーキテクチャの作成は非常に活発な研究分野です。多くの研究は、ツリーベースのモデルに勝るか、それに匹敵することができると主張していますが、その研究には多くの懐疑的な見方があります。
表形式のデータからの学習には確立されたベンチマークがないという事実により、研究者は手法を評価する際に大きな自由が得られます。さらに、オンラインで入手できるほとんどの表形式データセットは、他の機械学習サブドメインのベンチマークと比較して小さいため、評価がより困難になります。
これらの懸念を軽減するために、フランス国立情報自動化研究所、ソルボンヌ大学、およびその他の機関の研究者は、最新の深層学習モデルを評価できる表形式のデータ ベンチマークを提案しました。ツリーベースのモデルが中規模の表形式データセットでも SOTA であることを示しています。
この結論として、この記事では、表形式のデータでは、深層学習 (最新のアーキテクチャであっても) よりもツリーベースの手法を使用した方が優れた予測を達成するのが簡単であるという決定的な証拠を研究者が発見したことを示しています。理由。
文書アドレス: https://hal.archives-ouvertes.fr/hal-03723551/document この論文の著者の 1 人が、Scikit-learn プロジェクトのリーダーの 1 人である Gaël Varoquaux であることは言及する価値があります。このプロジェクトは現在、GitHub で最も人気のある機械学習ライブラリの 1 つになりました。 Gaël Varoquaux による記事「Scikit-learn: Python での機械学習」には 58,949 件の引用があります。
この記事の貢献は次のように要約できます:
この調査は新しいベンチマークを作成します(選択された 45 のオープン データセット)、これらのデータセットを OpenML を通じて共有すると、使いやすくなります。
この研究では、表形式データのさまざまな設定の下で深層学習モデルとツリーベースのモデルを比較し、ハイパーパラメーターの選択にかかるコストを検討します。この研究では、ランダム検索の生の結果も共有されており、研究者は固定のハイパーパラメータ最適化予算で新しいアルゴリズムを安価にテストできるようになります。
表形式データでは、ツリーベースのモデルがディープ ラーニング手法よりも優れたパフォーマンスを示します
新しいベンチマークは 45 の表形式データ セットを参照しており、選択されたベンチマークは次のとおりです:
- 異種列、列は異なる性質の特徴に対応する必要があるため、画像または信号データ セットは除外されます。
- 次元数が低く、データセットの d/n 比は 1/10 未満です。
- 無効なデータ セット。利用可能な情報がほとんどないデータ セットを削除します。
- I.I.D. (独立して同一に分散) データ。ストリーム状のデータ セットまたは時系列を削除します。
- 実世界のデータ。人工的なデータセットは削除されますが、いくつかのシミュレートされたデータセットは保持されます。
- データ セットが小さすぎることはできません。特徴が少なすぎる (
- 単純すぎるデータ セットを削除します。
- ポーカーやチェスなどのゲームのデータ セットは本質的に決定的であるため、データ セットを削除してください。
研究者らは、ツリーベースのモデルの中で、Scikit Learn の RandomForest、GradientBoostingTrees (GBT)、および XGBoost の 3 つの SOTA モデルを選択しました。この調査では、MLP、Resnet、FT Transformer、SAINT のディープ モデルに関するベンチマークを実行しました。図 1 と 2 は、さまざまなタイプのデータ セットのベンチマーク結果を示しています
実証的調査: ツリーベースのモデルが依然として表形式データでの深層学習よりも優れている理由
帰納的バイアス 。ツリーベースのモデルは、さまざまなハイパーパラメーターの選択肢にわたってニューラル ネットワークに勝ります。実際、表形式データを処理する最適な方法には 2 つの共通の特性があります。それらはアンサンブル方法、バギング (ランダム フォレスト) またはブースティング (XGBoost、GBT) であり、これらの方法で使用される弱学習器はデシジョン ツリーです。
調査結果 1: ニューラル ネットワーク (NN) は、ソリューションを滑らかにしすぎる傾向があります。
図 3 に示すように、小規模なスケールでは、トレーニング セットの目的関数を平滑化するとツリーベースのモデルの精度が大幅に低下しますが、NN にはほとんど影響がないことが示されています。これらの結果は、データセットの目的関数が滑らかではなく、NN がツリーベースのモデルと比較してこれらの不規則な関数に適応するのが難しいことを示しています。これは、NN が低周波関数に偏っていることを発見した Rahaman らの発見と一致しています。デシジョン ツリー ベースのモデルは、そのようなバイアスなしで区分定数関数を学習します。
調査結果 2: 有益ではない機能は MLP のような NN に大きな影響を与える可能性があります
表形式のデータ セットには多くの有益でない特徴が含まれており、各データ セットについて、研究では特徴の重要性に基づいて特定の割合の特徴 (通常はランダム フォレストによって並べ替えられます) を破棄することが選択されます。図 4 からわかるように、特徴の半分以上を削除しても、GBT の分類精度にはほとんど影響がありません。
図 5 非有益な特徴 (5a) を削除すると、MLP (Resnet) 間の差異が減少することがわかります。および他のモデル (FT Transformer とツリーベースのモデル間のパフォーマンスのギャップ) に対して、非有益な機能を追加するとギャップが拡大します。これは、MLP が非有益な機能に対して堅牢でないことを示しています。図 5a では、研究者が特徴の大部分を削除すると、それに応じて有用な情報特徴も削除されます。図 5b は、これらの特徴の削除によって生じる精度の低下は、非有益な特徴を削除することで補償できることを示しています。これは、他のモデルと比較して MLP にとってより有益です (同時に、この調査では冗長な特徴も削除されており、モデルのパフォーマンスには影響しません) )。
#発見 3: 回転を通じてデータは不変ではない
MLP が他のモデルに比べて有益ではない特徴の影響を受けやすいのはなぜですか? 1 つの答えは、MLP はローテーション不変であるということです。トレーニング セットで MLP を学習し、テスト セットでそれを評価するプロセスは、ローテーションがトレーニング セットとテスト セットの特徴に適用されるときに不変です。実際、回転不変学習プロセスでは最悪の場合のサンプルの複雑さがあり、少なくとも無関係な特徴の数が線形に増加します。直感的には、不要なフィーチャを削除するには、回転不変アルゴリズムで最初にフィーチャの元の方向を見つけてから、情報が最も少ないフィーチャを選択する必要があります。
図 6a は、データセットがランダムに回転されたときのテスト精度の変化を示しており、Resnet のみが回転不変であることが確認されています。特に、ランダムな回転はパフォーマンスの順序を逆転させます。結果は、ツリーベースのモデルの上に NN があり、FT Transformer の上に Resnet があり、回転の不変性が望ましくないことを示しています。実際、表形式のデータには、年齢、体重などの個別の意味があることがよくあります。図 6b: 各データセットの特徴の最も重要度の低い半分を削除すると (回転前)、Resnets を除くすべてのモデルのパフォーマンスが低下しますが、特徴を削除せずにすべての特徴を使用した場合と比較すると、低下は小さくなります。
以上がツリーベースのモデルが依然として表形式データの深層学習よりも優れているのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由 信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間のフィードバックを学習して、それが有用で、正直で、無害であることを確認することが重要です。 LLM を調整するという点では、ヒューマン フィードバックに基づく強化学習 (RLHF) が効果的な方法です。 RLHF 法の結果は優れていますが、最適化にはいくつかの課題があります。これには、報酬モデルをトレーニングし、その報酬を最大化するためにポリシー モデルを最適化することが含まれます。最近、一部の研究者はより単純なオフライン アルゴリズムを研究しており、その 1 つが直接優先最適化 (DPO) です。 DPO は、RLHF の報酬関数をパラメータ化することで、選好データに基づいてポリシー モデルを直接学習するため、明示的な報酬モデルの必要性がなくなります。この方法は簡単で安定しています

ソフトウェア テクノロジの最前線に立つ UIUC Zhang Lingming のグループは、BigCode 組織の研究者とともに、最近 StarCoder2-15B-Instruct 大規模コード モデルを発表しました。この革新的な成果により、コード生成タスクにおいて大きな進歩が達成され、CodeLlama-70B-Instruct を上回り、コード生成パフォーマンス リストのトップに到達しました。 StarCoder2-15B-Instruct のユニークな特徴は、その純粋な自己調整戦略であり、トレーニング プロセス全体がオープンで透過的で、完全に自律的で制御可能です。このモデルは、高価な手動アノテーションに頼ることなく、StarCoder-15B 基本モデルの微調整に応じて、StarCoder2-15B を介して数千の命令を生成します。

1. はじめに ここ数年、YOLO は、計算コストと検出パフォーマンスの効果的なバランスにより、リアルタイム物体検出の分野で主流のパラダイムとなっています。研究者たちは、YOLO のアーキテクチャ設計、最適化目標、データ拡張戦略などを調査し、大きな進歩を遂げました。同時に、後処理に非最大抑制 (NMS) に依存すると、YOLO のエンドツーエンドの展開が妨げられ、推論レイテンシに悪影響を及ぼします。 YOLO では、さまざまなコンポーネントの設計に包括的かつ徹底的な検査が欠けており、その結果、大幅な計算冗長性が生じ、モデルの機能が制限されます。効率は最適ではありませんが、パフォーマンス向上の可能性は比較的大きくなります。この作業の目標は、後処理とモデル アーキテクチャの両方から YOLO のパフォーマンス効率の境界をさらに改善することです。この目的を達成するために

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。
