機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴-AI-php.cn

モデル化が迅速かつ簡単

は非線形の分離可能なデータをモデル化できますが、線形回帰ではそれを実現できません。一般に、これはより柔軟であり、かなり複雑な関係をモデル化できます。

十、局部加權線性迴歸

十一、貝葉斯嶺迴歸

ホームページ

テクノロジー周辺機器

機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 29, 2023 pm 05:29 PM

機械学習統計

回帰は統計における最も強力なツールの 1 つです。機械学習の教師あり学習アルゴリズムは、分類アルゴリズムと回帰アルゴリズムの 2 つのタイプに分類されます。回帰アルゴリズムは連続分布の予測に使用され、離散的なカテゴリラベルだけでなく連続的なデータを予測できます。

回帰分析は、製品の売上、交通の流れ、住宅価格、気象条件などの予測など、機械学習の分野で広く使用されています。

回帰アルゴリズムは、一般的に使用される機械学習です。変数 X と従属変数 Y の間の関係を自動的に確立するためのアルゴリズム。機械学習の観点から見ると、属性 X とラベル Y の間のマッピング関係を実現するためのアルゴリズムモデル (関数) を構築するために使用されます。学習プロセス中、アルゴリズムは適合度が最適になるように最良のパラメーター関係を見つけようとします。

回帰アルゴリズムでは、アルゴリズム (関数) の最終結果は連続データ値です。入力値 (属性値) は d 次元の属性/数値ベクトルです。

一般的に使用される回帰アルゴリズムには、線形回帰、多項式回帰、決定木回帰、リッジ回帰、ラッソ回帰、ElasticNet 回帰などが含まれます。

この記事では、いくつかの一般的な回帰アルゴリズムとそれぞれの特徴を紹介します

##多項式回帰
サポートベクターマシン回帰
デシジョンツリー回帰
ランダムフォレスト回帰
LASSO 回帰
Ridge のリターン
ElasticNet のリターン
XGBoost のリターン
局所加重線形回帰
1. 線形回帰

単変量線形回帰は、単一の入力変数 (つまり、単一の特徴変数) と単一の出力変数の間の関係を分析するために使用されるモデリング手法です。関係

多変数線形回帰 (多重線形回帰とも呼ばれます): 複数の入力変数 (複数の特徴変数) と 1 つの出力変数の間の関係をモデル化します。

線形回帰に関するいくつかの重要なポイント:

モデル化が迅速かつ簡単

これは、モデル化したい関係がそれほど複雑ではなく、大量のデータがない場合に特に役立ちます。
非常に直感的な理解と説明。
異常値に対して非常に敏感です。
2. 多項式回帰

多項式回帰に関するいくつかの重要なポイント:

は非線形の分離可能なデータをモデル化できますが、線形回帰ではそれを実現できません。一般に、これはより柔軟であり、かなり複雑な関係をモデル化できます。

特徴変数 (設定する指数) のモデリングを完全に制御します。
サポートベクターマシンは分類問題でよく知られています。回帰における SVM の使用は、サポートベクター回帰 (SVR) と呼ばれます。 Scikit-learn では、このメソッドが SVR() に組み込まれています。

サポートベクター回帰に関するいくつかの重要なポイント:

これは、性別の外れ値に対して堅牢です。高次元空間で効果的です

デシジョンツリーは、次のタイプです。使用される分類と回帰にはノンパラメトリック教師あり学習方法が使用されます。目標は、データの特徴から推測される単純な決定ルールを学習することによって、ターゲット変数の値を予測するモデルを作成することです。ツリーは区分的定数近似として見ることができます。

機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴

デシジョンツリーに関するいくつかの重要なポイント:

理解しやすく、説明しやすい。樹木を視覚化することができます。
カテゴリ値と連続値の両方に適用されます
DT (予測データ) の使用コストは、使用されるデータポイントの数に比例します。ツリーを対数的にトレーニングするには
#決定木の予測は滑らかでも連続的でもありません (上の図に示すように、区分的定数近似です)

5. ランダムフォレスト回帰

ランダムフォレスト回帰は、基本的にデシジョンツリー回帰と非常によく似ています。これは、データセットのさまざまなサブサンプルに複数のデシジョンツリーを適合させ、それらを平均して予測精度を向上させ、過剰適合を制御できるメタ推定ツールです。

ランダムフォレストリグレッサーのパフォーマンスは、回帰問題におけるデシジョンツリー (一般的に分類問題では優れていますが) は、ツリー構築アルゴリズムに固有の微妙な過適合と過小適合により発生します。 :

デシジョンツリーの過学習を軽減し、精度を向上させます。

カテゴリ値と連続値にも機能します。
多くのデシジョンツリーに適合して出力を結合するため、多くのコンピューティング能力とリソースが必要になります。
6. LASSO 回帰

Lasso 回帰に関するいくつかのポイント:

機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴

#自動変数を削除し、機能を選択するために最も一般的に使用されます。

これは、重度の多重共線性 (特徴が互いに高度に相関している) を示すモデルに適しています。
LASSO 回帰は L1 正則化を利用します
LASSO 回帰は、一部の特徴のみを選択し、他の特徴を組み合わせると係数がに削減されるため、Ridge よりも優れていると考えられます。ゼロ。
7. リッジ回帰

リッジ回帰に関するいくつかのポイント:

機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴

深刻な多重共線性 (特徴が互いに高度に相関している) モデルを示すのに非常に適しています。。

リッジ回帰では L2 正則化が使用されます。貢献度が低い特徴の係数はゼロに近くなります。
L2 正則化の性質により、リッジ回帰は LASSO よりも悪いと考えられています。
8. ElasticNet 回帰

Lasso と Ridge を比較検討する場合、実際的な利点は、Elastic-Net が回転時の Ridge の安定性の一部を継承できることです。

9. XGBoost 回帰

XGBoost は、勾配ブースティングアルゴリズムの効率的かつ効果的な実装です。勾配ブースティングは、分類または回帰問題に使用できるアンサンブル機械学習アルゴリズムの一種です。

XGBoost は、もともと Chen Tianqi が 2016 年の論文「XGBoost: A」で開発したオープンソースライブラリです。「ブースティングシステム」で開発された「スケーラブルツリー」。このアルゴリズムは、計算効率が高く効率的になるように設計されています。

關於 XGBoost 的幾點：

#XGBoost 在稀疏和非結構化資料上表現不佳。
該演算法被設計為計算效率和高效，但是對於大型資料集的訓練時間仍然相當長。
它對異常值很敏感。

十、局部加權線性迴歸

在局部加權線性迴歸（Local Weights Linear Regression）中，我們也是在進行線性迴歸。然而，與普通線性迴歸不同的是，局部加權線性迴歸是一種局部線性迴歸方法。它透過引入權值（核函數），在進行預測時，只使用與測試點相近的部分樣本來計算迴歸係數。普通線性迴歸則是全域線性迴歸，它使用全部的樣本來計算迴歸係數

優缺點& 適用場景

優點就是透過核函數加權來預防欠擬合，缺點也很明顯K需要調試。當多元線性迴歸過擬合的時候，可以嘗試高斯核局部加權來預防過擬合。

十一、貝葉斯嶺迴歸

使用貝葉斯推論方法求解的線性迴歸模型稱為貝葉斯線性迴歸

#貝葉斯線性迴歸是一種將線性模型的參數視為隨機變數的方法，並透過先驗計算後驗。貝葉斯線性迴歸可以透過數值方法求解，在特定條件下也可以得到解析形式的後驗或相關統計量

貝葉斯線性迴歸具有貝葉斯統計模型的基本性質，可以求解權重係數的機率密度函數，進行線上學習以及基於貝葉斯因子（Bayes factor）的模型假設檢定

優缺點& 適用場景

貝葉斯迴歸的優點是其具有資料自適應能力，可以重複利用資料並防止過度擬合。在估計過程中，可以引入正規化項，例如在貝葉斯線性迴歸中引入L2正則化項，就可以實現貝葉斯嶺迴歸

缺點就是學習過程開銷太大。當特徵數在10個以為，可以嘗試貝葉斯回歸。

以上が機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7695

Java チュートリアル

1640

CakePHP チュートリアル

1393

Laravel チュートリアル

1287

PHP チュートリアル

1229

Related knowledge

オープンソースの無料画像注釈ツールおすすめ 15 選 Mar 28, 2024 pm 01:21 PM

画像の注釈は、ラベルまたは説明情報を画像に関連付けて、画像の内容に深い意味と説明を与えるプロセスです。このプロセスは機械学習にとって重要であり、画像内の個々の要素をより正確に識別するために視覚モデルをトレーニングするのに役立ちます。画像に注釈を追加することで、コンピュータは画像の背後にあるセマンティクスとコンテキストを理解できるため、画像の内容を理解して分析する能力が向上します。画像アノテーションは、コンピュータビジョン、自然言語処理、グラフビジョンモデルなどの多くの分野をカバーする幅広い用途があり、車両が道路上の障害物を識別するのを支援したり、障害物の検出を支援したりするなど、幅広い用途があります。医用画像認識による病気の診断。この記事では主に、より優れたオープンソースおよび無料の画像注釈ツールをいくつか推奨します。 1.マケセンス

この記事では、SHAP: 機械学習のモデルの説明について説明します。 Jun 01, 2024 am 10:58 AM

機械学習とデータサイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

学習曲線を通じて過学習と過小学習を特定する Apr 29, 2024 pm 06:50 PM

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニングセットスコアとひどい検証セット/テストスコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニングセットとしての小さなデータセットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

透明！主要な機械学習モデルの原理を徹底的に分析！ Apr 12, 2024 pm 05:55 PM

平たく言えば、機械学習モデルは、入力データを予測された出力にマッピングする数学関数です。より具体的には、機械学習モデルは、予測出力と真のラベルの間の誤差を最小限に抑えるために、トレーニングデータから学習することによってモデルパラメーターを調整する数学関数です。機械学習には、ロジスティック回帰モデル、デシジョンツリーモデル、サポートベクターマシンモデルなど、多くのモデルがあります。各モデルには、適用可能なデータタイプと問題タイプがあります。同時に、異なるモデル間には多くの共通点があったり、モデル進化の隠れた道が存在したりすることがあります。コネクショニストのパーセプトロンを例にとると、パーセプトロンの隠れ層の数を増やすことで、それをディープニューラルネットワークに変換できます。パーセプトロンにカーネル関数を追加すると、SVM に変換できます。これです

宇宙探査と人類居住工学における人工知能の進化 Apr 29, 2024 pm 03:25 PM

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマートポインター、最新のスレッドライブラリ、SIMD 命令、サードパーティライブラリの使用、コーディングスタイルガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

フラッシュアテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました May 30, 2024 pm 01:24 PM

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニングプロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニングプロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。

See all articles