機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴
回帰は統計における最も強力なツールの 1 つです。機械学習の教師あり学習アルゴリズムは、分類アルゴリズムと回帰アルゴリズムの 2 つのタイプに分類されます。回帰アルゴリズムは連続分布の予測に使用され、離散的なカテゴリ ラベルだけでなく連続的なデータを予測できます。
回帰分析は、製品の売上、交通の流れ、住宅価格、気象条件などの予測など、機械学習の分野で広く使用されています。回帰アルゴリズムは、一般的に使用される機械学習です。変数 X と従属変数 Y の間の関係を自動的に確立するためのアルゴリズム。機械学習の観点から見ると、属性 X とラベル Y の間のマッピング関係を実現するためのアルゴリズム モデル (関数) を構築するために使用されます。学習プロセス中、アルゴリズムは適合度が最適になるように最良のパラメーター関係を見つけようとします。回帰アルゴリズムでは、アルゴリズム (関数) の最終結果は連続データ値です。入力値 (属性値) は d 次元の属性/数値ベクトルです。一般的に使用される回帰アルゴリズムには、線形回帰、多項式回帰、決定木回帰、リッジ回帰、ラッソ回帰、ElasticNet 回帰などが含まれます。この記事では、いくつかの一般的な回帰アルゴリズムとそれぞれの特徴を紹介します
- ##線形回帰
- ##多項式回帰
- サポート ベクター マシン回帰
- デシジョン ツリー回帰
- ランダム フォレスト回帰
- LASSO 回帰
- Ridge のリターン
- ElasticNet のリターン
- XGBoost のリターン
- 局所加重線形回帰
- 1. 線形回帰 線形回帰多くの場合、これは人々が機械学習とデータ サイエンスについて学ぶ最初のアルゴリズムです。線形回帰は、入力変数 (X) と単一の出力変数 (y) の間に線形関係があると仮定する線形モデルです。一般的に、次の 2 つの状況があります。
単変量線形回帰は、単一の入力変数 (つまり、単一の特徴変数) と単一の出力変数の間の関係を分析するために使用されるモデリング手法です。関係
多変数線形回帰 (多重線形回帰とも呼ばれます): 複数の入力変数 (複数の特徴変数) と 1 つの出力変数の間の関係をモデル化します。
線形回帰に関するいくつかの重要なポイント:
モデル化が迅速かつ簡単
- これは、モデル化したい関係がそれほど複雑ではなく、大量のデータがない場合に特に役立ちます。
- 非常に直感的な理解と説明。
- 異常値に対して非常に敏感です。
- 2. 多項式回帰 多項式回帰は、非線形分離可能データのモデルを作成する場合に最も一般的な選択肢の 1 つです。これは線形回帰に似ていますが、変数 X と y の間の関係を使用して、データ ポイントに適合する曲線を描く最適な方法を見つけます。
多項式回帰に関するいくつかの重要なポイント:
は非線形の分離可能なデータをモデル化できますが、線形回帰ではそれを実現できません。一般に、これはより柔軟であり、かなり複雑な関係をモデル化できます。
- 特徴変数 (設定する指数) のモデリングを完全に制御します。 #慎重な設計が必要です。最適なインデックスを選択するには、ある程度のデータ知識が必要です。
- インデックスが適切に選択されていない場合、過剰適合が発生しやすくなります。
- 3. サポート ベクター マシン回帰
- サポート ベクター マシンは分類問題でよく知られています。回帰における SVM の使用は、サポート ベクター回帰 (SVR) と呼ばれます。 Scikit-learn では、このメソッドが SVR() に組み込まれています。
これは、性別の外れ値に対して堅牢です。高次元空間で効果的です
- 優れた一般化機能 (これまで見たことのない新しいデータに正しく適応する機能) を備えています。
- If特徴の数はサンプルの数よりもはるかに大きいため、過学習が起こりやすくなります
- 4. デシジョン ツリー回帰
- デシジョン ツリーは、次のタイプです。使用される分類と回帰にはノンパラメトリック教師あり学習方法が使用されます。目標は、データの特徴から推測される単純な決定ルールを学習することによって、ターゲット変数の値を予測するモデルを作成することです。ツリーは区分的定数近似として見ることができます。
デシジョン ツリーに関するいくつかの重要なポイント:
- 理解しやすく、説明しやすい。樹木を視覚化することができます。
- カテゴリ値と連続値の両方に適用されます
- DT (予測データ) の使用コストは、使用されるデータ ポイントの数に比例します。ツリーを対数的にトレーニングするには
- #決定木の予測は滑らかでも連続的でもありません (上の図に示すように、区分的定数近似です)
ランダム フォレスト回帰は、基本的にデシジョン ツリー回帰と非常によく似ています。これは、データセットのさまざまなサブサンプルに複数のデシジョン ツリーを適合させ、それらを平均して予測精度を向上させ、過剰適合を制御できるメタ推定ツールです。
ランダム フォレスト リグレッサーのパフォーマンスは、回帰問題におけるデシジョン ツリー (一般的に分類問題では優れていますが) は、ツリー構築アルゴリズムに固有の微妙な過適合と過小適合により発生します。 :
デシジョン ツリーの過学習を軽減し、精度を向上させます。
- カテゴリ値と連続値にも機能します。
- 多くのデシジョン ツリーに適合して出力を結合するため、多くのコンピューティング能力とリソースが必要になります。
- 6. LASSO 回帰 LASSO 回帰は、収縮線形回帰の変形です。縮小とは、データ値を平均として中心点まで縮小するプロセスです。このタイプの回帰は、重度の多重共線性 (特徴間の相関が高い) を持つモデルに最適です。
Lasso 回帰に関するいくつかのポイント:
#自動変数を削除し、機能を選択するために最も一般的に使用されます。
- これは、重度の多重共線性 (特徴が互いに高度に相関している) を示すモデルに適しています。
- LASSO 回帰は L1 正則化を利用します
- LASSO 回帰は、一部の特徴のみを選択し、他の特徴を組み合わせると係数が に削減されるため、Ridge よりも優れていると考えられます。ゼロ。
- 7. リッジ回帰 リッジ回帰は、どちらの手法も収縮法を使用するため、LASSO 回帰と非常によく似ています。 Ridge 回帰と LASSO 回帰はどちらも、重度の多重共線性の問題 (つまり、特徴間の高い相関) を伴うモデルに適しています。それらの主な違いは、Ridge が L2 正則化を使用することです。つまり、LASSO 回帰のように係数がゼロになることはありません (しかしゼロに近い)
リッジ回帰に関するいくつかのポイント:
深刻な多重共線性 (特徴が互いに高度に相関している) モデルを示すのに非常に適しています。 。
- リッジ回帰では L2 正則化が使用されます。貢献度が低い特徴の係数はゼロに近くなります。
- L2 正則化の性質により、リッジ回帰は LASSO よりも悪いと考えられています。
- 8. ElasticNet 回帰 ElasticNet は、L1 および L2 正則化を使用してトレーニングされた別の線形回帰モデルです。これは、Lasso 回帰手法と Ridge 回帰手法を組み合わせたものであるため、重度の多重共線性 (特徴が互いに高度に相関している) を示すモデルにも適しています。
Lasso と Ridge を比較検討する場合、実際的な利点は、Elastic-Net が回転時の Ridge の安定性の一部を継承できることです。
9. XGBoost 回帰XGBoost は、勾配ブースティング アルゴリズムの効率的かつ効果的な実装です。勾配ブースティングは、分類または回帰問題に使用できるアンサンブル機械学習アルゴリズムの一種です。
XGBoost は、もともと Chen Tianqi が 2016 年の論文「XGBoost: A」で開発したオープン ソース ライブラリです。 「ブースティングシステム」で開発された「スケーラブルツリー」。このアルゴリズムは、計算効率が高く効率的になるように設計されています。
關於 XGBoost 的幾點:
- #XGBoost 在稀疏和非結構化資料上表現不佳。
- 該演算法被設計為計算效率和高效,但是對於大型資料集的訓練時間仍然相當長。
- 它對異常值很敏感。
十、局部加權線性迴歸
在局部加權線性迴歸(Local Weights Linear Regression)中,我們也是在進行線性迴歸。然而,與普通線性迴歸不同的是,局部加權線性迴歸是一種局部線性迴歸方法。它透過引入權值(核函數),在進行預測時,只使用與測試點相近的部分樣本來計算迴歸係數。普通線性迴歸則是全域線性迴歸,它使用全部的樣本來計算迴歸係數
優缺點& 適用場景
優點就是透過核函數加權來預防欠擬合,缺點也很明顯K需要調試。當多元線性迴歸過擬合的時候,可以嘗試高斯核局部加權來預防過擬合。
十一、貝葉斯嶺迴歸
使用貝葉斯推論方法求解的線性迴歸模型稱為貝葉斯線性迴歸
#貝葉斯線性迴歸是一種將線性模型的參數視為隨機變數的方法,並透過先驗計算後驗。貝葉斯線性迴歸可以透過數值方法求解,在特定條件下也可以得到解析形式的後驗或相關統計量
貝葉斯線性迴歸具有貝葉斯統計模型的基本性質,可以求解權重係數的機率密度函數,進行線上學習以及基於貝葉斯因子(Bayes factor)的模型假設檢定
優缺點& 適用場景
貝葉斯迴歸的優點是其具有資料自適應能力,可以重複利用資料並防止過度擬合。在估計過程中,可以引入正規化項,例如在貝葉斯線性迴歸中引入L2正則化項,就可以實現貝葉斯嶺迴歸
缺點就是學習過程開銷太大。當特徵數在10個以為,可以嘗試貝葉斯回歸。
以上が機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











画像の注釈は、ラベルまたは説明情報を画像に関連付けて、画像の内容に深い意味と説明を与えるプロセスです。このプロセスは機械学習にとって重要であり、画像内の個々の要素をより正確に識別するために視覚モデルをトレーニングするのに役立ちます。画像に注釈を追加することで、コンピュータは画像の背後にあるセマンティクスとコンテキストを理解できるため、画像の内容を理解して分析する能力が向上します。画像アノテーションは、コンピュータ ビジョン、自然言語処理、グラフ ビジョン モデルなどの多くの分野をカバーする幅広い用途があり、車両が道路上の障害物を識別するのを支援したり、障害物の検出を支援したりするなど、幅広い用途があります。医用画像認識による病気の診断。この記事では主に、より優れたオープンソースおよび無料の画像注釈ツールをいくつか推奨します。 1.マケセンス

機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

平たく言えば、機械学習モデルは、入力データを予測された出力にマッピングする数学関数です。より具体的には、機械学習モデルは、予測出力と真のラベルの間の誤差を最小限に抑えるために、トレーニング データから学習することによってモデル パラメーターを調整する数学関数です。機械学習には、ロジスティック回帰モデル、デシジョン ツリー モデル、サポート ベクター マシン モデルなど、多くのモデルがあります。各モデルには、適用可能なデータ タイプと問題タイプがあります。同時に、異なるモデル間には多くの共通点があったり、モデル進化の隠れた道が存在したりすることがあります。コネクショニストのパーセプトロンを例にとると、パーセプトロンの隠れ層の数を増やすことで、それをディープ ニューラル ネットワークに変換できます。パーセプトロンにカーネル関数を追加すると、SVM に変換できます。これです

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合 モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニング セット スコアとひどい検証セット/テスト スコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニング セットとしての小さなデータ セットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由 信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

機械学習の分野における Go 言語の応用可能性は次のとおりです。 同時実行性: 並列プログラミングをサポートし、機械学習タスクにおける計算量の多い操作に適しています。効率: ガベージ コレクターと言語機能により、大規模なデータ セットを処理する場合でもコードの効率が保証されます。使いやすさ: 構文が簡潔なので、機械学習アプリケーションの学習と作成が簡単です。
