Python の KNN アルゴリズム (k 最近傍アルゴリズム) の詳細な紹介 (例付き)
この記事では、Python の KNN アルゴリズム (k 最近傍アルゴリズム) について詳しく説明します (例付き)。これには一定の参考値があります。必要な友人は参照できます。お役に立てば幸いです。 . 助かりました。
KNN アルゴリズムはデータ分類アルゴリズムであり、サンプルからの k 個の最近傍データのカテゴリがサンプルのカテゴリを表すため、k 最近傍アルゴリズムとも呼ばれます。 KNN アルゴリズムはデータ マイニングの最も単純な方法の 1 つであり、次のステップに大まかに分割できます。
トレーニング データ: 元のデータ セット内のすべてのデータ カテゴリのデータ。
テスト データ: テストに使用するデータ サンプル。
データの処理
取得するテスト データは、通常、トレーニング データとは次元が異なります。現時点では、テスト データ 次元はトレーニング データと同じです。Python の numpy には、テスト データの次元を増やすのに役立つ tile() 関数が付属しています。
データのベクトル化
テスト データの次元が増加した後、サンプル ポイントからの距離を計算するには、次のものが必要です。このときデータをベクトル化するのですが、いわゆるベクトル化は非常に単純で、同じ次元の 2 つのデータを差し引くだけです。
ユークリッド距離の計算
ユークリッド距離、つまりユークリッド距離は、ピタゴラスの定理を使用して計算できます。テストデータとトレーニングデータを減算して得られるベクトルグループ内の各ベクトルの平方根を使用して、距離から構成されるベクトルグループを取得できます。
距離による分類
サンプル点からの距離が最も小さいデータを k 個選択し、その k データのうちどのデータ カテゴリに属するかを数えます。発生頻度が最も高いと、サンプル ポイントのデータ カテゴリを決定できます。
アルゴリズム実装:
1. まず、numpy と演算子を導入する必要があり、from numpy import *
と import 演算子
を入力します。
2. 次に、knn 関数を定義する必要があります。knn 関数では、k、トレーニング データ、テスト データ、データ カテゴリの 4 つのパラメーターを導入する必要があります。
3. 次に、最初にデータに対して次元拡張操作を実行する必要があります。numpy で tile(a,(b,c)) 関数を使用する必要があります。a は、実行されるデータです。次元拡張操作、つまりテスト データ、b はテスト データにアップグレードされる行データ、c はテスト データにアップグレードされる列データです。
4. 前の操作では、通常、トレーニング データの行数と列数を取得する必要があります。 Shape() 関数を使用すると、shape() 関数はトレーニング データの行と列で構成されるタプルを返します。トレーニング データの行数または列数を知りたい場合は、配列を通じて参照するだけで済みます。要素の添字。
5. データの次元が同じになったら、2 つのデータを減算してベクトルを取得し、合計を計算する必要があります。このベクトルの各値の 2 乗の平方根はテスト データからトレーニング データまでの距離であり、argsort() 関数を呼び出して距離を昇順に並べ替えますが、この関数は配列の添字を返します。要素。
6. 次に、さまざまなデータ カテゴリの出現数を直感的に確認するには、空の辞書を設定して、ディクショナリの後を取得した後、さまざまなデータ カテゴリの出現数に従ってディクショナリを降順に並べ替えてから、ディクショナリの最初の値を返してテスト データのデータ カテゴリを取得する必要があります。
7. アルゴリズム コードは次のとおりです:
from numpy import * import operator def knn(k, test_data, train_data, labels): train_size = train_data.shape[0] #获取训练数据的行数 test_size = tile(test_data, (train_size, 1)) #将测试数据的行升维 minus = test_size-train_data #得到向量 sq_minus = minus**2 sum_sq_minus = sq_minus.sum(axis=1) #得到平方后的每个数组内元素的和 distc = sum_sq_minus**0.5 sort_distc = distc.argsort() #将距离按升序排列 static = {} for i in range(0, k): vote = labels[sort_distc[i]] #获取数据类型 static[vote] = static.get(vote, 0)+1 #统计每个数据类型的出现次数 sort_static = sorted(static.items(), key=operator.itemgetter(1), reverse=True) #将字典中的元素按出现次数降序排列 return sort_static[0][0] #返回出现次数最多的数据类型
8. 辞書はアルゴリズムでソートされる必要があるため、sorted() 関数を使用する必要があります。 items. ()、operator.itemgetter()、reverse の 3 つのパラメータがあります。デフォルトの並べ替えは昇順です。降順で並べ替えたい場合は、3 番目のパラメータを True に設定する必要があります。ここでは次に従って並べ替えています。辞書の値なので、演算子に値を入力する場合は sorted(static.items(), key=operator.itemgetter(1), reverse=True)
と入力する必要があります。 itemgetter()関数が1の場合は辞書の値に従ってソートされ、値が0の場合は辞書のキーに従ってソートされます。
以上がPython の KNN アルゴリズム (k 最近傍アルゴリズム) の詳細な紹介 (例付き)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

CentOSシステムでのPytorchモデルの効率的なトレーニングには手順が必要であり、この記事では詳細なガイドが提供されます。 1。環境の準備:Pythonおよび依存関係のインストール:Centosシステムは通常Pythonをプリインストールしますが、バージョンは古い場合があります。 YumまたはDNFを使用してPython 3をインストールし、PIP:sudoyumupdatepython3(またはsudodnfupdatepython3)、pip3install-upgradepipをアップグレードすることをお勧めします。 cuda and cudnn(GPU加速):nvidiagpuを使用する場合は、cudatoolをインストールする必要があります

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1)Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2)Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3)どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

CentOSでPytorchバージョンを選択する場合、次の重要な要素を考慮する必要があります。1。CUDAバージョンの互換性GPUサポート:NVIDIA GPUを使用してGPU加速度を活用したい場合は、対応するCUDAバージョンをサポートするPytorchを選択する必要があります。 NVIDIA-SMIコマンドを実行することでサポートされているCUDAバージョンを表示できます。 CPUバージョン:GPUをお持ちでない場合、またはGPUを使用したくない場合は、PytorchのCPUバージョンを選択できます。 2。PythonバージョンPytorch

NGINXのインストールをインストールするには、次の手順に従う必要があります。開発ツール、PCRE-Devel、OpenSSL-Develなどの依存関係のインストール。 nginxソースコードパッケージをダウンロードし、それを解凍してコンパイルしてインストールし、/usr/local/nginxとしてインストールパスを指定します。 nginxユーザーとユーザーグループを作成し、アクセス許可を設定します。構成ファイルnginx.confを変更し、リスニングポートとドメイン名/IPアドレスを構成します。 nginxサービスを開始します。依存関係の問題、ポート競合、構成ファイルエラーなど、一般的なエラーに注意する必要があります。パフォーマンスの最適化は、キャッシュをオンにしたり、ワーカープロセスの数を調整するなど、特定の状況に応じて調整する必要があります。

MINIOオブジェクトストレージ:CENTOSシステムの下での高性能展開Minioは、Amazons3と互換性のあるGO言語に基づいて開発された高性能の分散オブジェクトストレージシステムです。 Java、Python、JavaScript、Goなど、さまざまなクライアント言語をサポートしています。この記事では、CentosシステムへのMinioのインストールと互換性を簡単に紹介します。 Centosバージョンの互換性Minioは、Centos7.9を含むがこれらに限定されない複数のCentosバージョンで検証されています。
