教師なし学習は、ラベル付きの例を使用しない機械学習手法であり、その目的はデータ内のパターンや構造を発見することです。このアルゴリズムには入力データのみが提供され、データの構造を独自に検出します。
このアルゴリズムは、類似性に基づいてサンプルをクラスターにグループ化するために使用されます。クラスタリングの目的は、各グループの例の類似性が高くなるようにデータをグループに分割することです。
クラスタリング手法には、重心ベースの手法、密度ベースの手法、階層型手法など、数多くあります。 K 平均法などの重心ベースの方法では、データが K 個のクラスターに分割され、各クラスターは重心によって定義されます (つまり、代表的な例)。 DBSCAN などの密度ベースの方法では、サンプルの密度に基づいてデータをクラスターに分割します。凝集クラスタリングなどの階層的手法は、各例が最初に独自のクラスターであるとみなされ、その後、類似性に基づいてクラスターがマージされるクラスターの階層構造を構築します。
次元削減アルゴリズムは、データ セット内の特徴の数を削減するために使用される手法です。その目標は、できる限り多くの情報を保持しながら、データの複雑さを軽減し、過剰適合を防ぐことです。機械学習では、学習アルゴリズムのパフォーマンスを向上させるために、次元削減アルゴリズムがよく使用されます。さらに、次元の数を減らし、データを低次元の空間にマッピングすることで、データの管理と描画を容易にする、データの視覚化にも使用できます。
次元削減には、線形法や非線形法など、さまざまな方法があります。線形手法には、データ内の最大の分散を捉える特徴の線形結合を見つける主成分分析 (PCA) や線形判別分析 (LDA) などの手法が含まれます。非線形手法には、データのローカル構造を保存する t-SNE や ISOMAP などの手法が含まれます。
線形および非線形方法に加えて、特徴選択方法 (最も重要な特徴のサブセットを選択する) および特徴抽出方法 (データをより少ないデータで新しい空間に変換する) もあります。寸法)。
これは教師なし学習の一種で、残りの部分と比較して異常または予期しない例を特定することが含まれます。データ。異常検出アルゴリズムは、不正行為の検出や故障した機器の特定によく使用されます。異常検出には、統計的手法、距離ベースの手法、密度ベースの手法など、さまざまな手法があります。統計的手法には、平均や標準偏差などのデータの統計的特性を計算し、特定の範囲外にある例を識別することが含まれます。距離ベースの方法では、サンプルとデータの大部分の間の距離を計算し、遠すぎるサンプルを特定します。密度ベースの手法には、データの低密度領域の例の識別が含まれます
オートエンコーダは、次元性を測定するために使用される手法です。リダクションニューラルネットワーク。これは、入力データを低次元表現にエンコードし、それを元の空間にデコードして戻すことによって機能します。オートエンコーダーは、データ圧縮、ノイズ除去、異常検出などのタスクに一般的に使用されます。これらは、最も重要な特徴を捕捉するデータの低次元表現を学習できるため、高次元で多数の特徴を持つデータセットに特に役立ちます。
これらのアルゴリズムは、データの分布を学習し、トレーニング データに似た新しいサンプルを生成するために使用されます。人気のある生成モデルには、敵対的生成ネットワーク (GAN) や変分オートエンコーダー (VAE) などがあります。生成モデルには、データ生成、画像生成、言語モデリングなど、多くの用途があります。これらは、スタイル転送や画像の超解像度などのタスクにも使用されます。
このアルゴリズムは、データセット内の変数間の関係を発見するために使用されます。頻繁に購入される商品を特定するために、ショッピング カート分析でよく使用されます。一般的な相関ルール学習アルゴリズムは、Apriori アルゴリズムです。
自己組織化マップ (SOM) は、視覚化と特徴学習に使用されるニューラル ネットワークです。建築。これらは、高次元データの構造を発見するために使用できる教師なし学習アルゴリズムです。 SOM は、データの視覚化、クラスタリング、異常検出などのタスクに一般的に使用されます。これらは、元のデータでは明らかではないパターンや関係を明らかにできるため、2 次元空間で高次元データを視覚化する場合に特に役立ちます。
以上が一般的に使用される教師なし学習アルゴリズムを紹介するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。