다층으로 구성된 신경망을 사용하여 데이터의 복잡한 패턴을 모델링하고 이해하는 데 중점을 둔 머신러닝의 하위 집합입니다.
신경망은 예측 오류를 기반으로 뉴런 간의 연결 가중치를 조정하여 데이터에서 학습하도록 설계된 일종의 기계 학습 알고리즘입니다.
신경망의 기본 단위는 인공 뉴런으로, 흔히 뉴런이라고도 합니다. 인공 뉴런은 인간 두뇌의 생물학적 뉴런에서 영감을 얻어 네트워크에서 소규모의 특정 계산을 수행하는 역할을 담당합니다.
1) 각 뉴런은 하나 이상의 입력을 받아 처리한 후(주로 수학적 함수를 적용하여) 출력을 생성합니다.
2) 뉴런은 일반적으로 비선형성을 도입하기 위해 활성화 함수가 뒤따르는 입력의 가중 합을 적용합니다. 이 함수의 출력은 네트워크의 다음 계층으로 전달되거나 출력 계층에 있는 경우 최종 출력으로 사용됩니다.
입력: 퍼셉트론은 각각 부동 소수점 숫자로 표시되는 여러 입력을 받습니다.
가중치: 각 입력에는 부동 소수점 숫자이기도 한 해당 가중치가 곱해집니다. 가중치는 의사결정 과정에서 입력의 중요성을 결정합니다.
합계: 그런 다음 가중치가 적용된 입력을 합산하여 단일 값을 생성합니다.
임계값(또는 바이어스): 퍼셉트론은 합산 결과를 임계값과 비교합니다
출력:
합이 0(또는 임계값)보다 큰 경우 퍼셉트론은 1(또는 일부 버전에서는 1)을 출력합니다.
합이 0보다 작거나 같다면 퍼셉트론은 -1(또는 일부 버전에서는 0)을 출력합니다.
(참고: 퍼셉트론은 선형 분리가 가능한 문제를 해결하는 데만 제한됩니다. 즉, 직선으로 분리할 수 있는 데이터만 분류할 수 있습니다.)
가장 흥미로운 문제는 물론 매우 단순한 문제도 퍼셉트론의 능력으로는 해결할 수 없는 문제임이 입증되었습니다. 대략 1970년대부터 1990년대까지 지속된 이 기간을 AI 겨울이라고 불렀습니다.
이 기간은 확장성과 실제 적용에 어려움을 겪는 전문가 시스템과 같은 초기 AI 기술에 실망한 시기였습니다. 그 결과 정부와 기관의 자금이 고갈되고 AI 연구도 크게 둔화되었습니다.
1) 변경 1:
이는 편향이라는 추가 입력을 추가하는 것입니다. 다른 입력과 달리 편향은 외부 데이터나 이전 뉴런의 출력에 연결되지 않습니다.
バイアスは、重み付けされた入力の合計に直接追加される定数値です。これは各ニューロンが持つ個別のパラメーターとして機能し、入力値とは独立して出力を調整するのに役立ちます。
2) 変更 2:
単に合計をしきい値と比較して -1 または 1 を出力する代わりに、数学関数 を通して合計 (バイアスを含む) を渡すことができます。この関数は、特定の範囲内の任意の場所にある新しい浮動小数点値を出力します
活性化/数学/伝達関数
ニューロンが受け取る入力に基づいて、ニューロンがどの程度「アクティブ」になるかを決定します。多くの活性化関数は非線形性を導入し、ネットワークが非線形関係を学習できるようにします。これは、より複雑な問題を解決するために不可欠です。
例
シグモイド関数: 0 から 1 までの値を出力します。二値分類問題に役立ちます。
Tanh (双曲線正接) 関数: -1 から 1 までの値を出力します。シグモイドに似ていますが、中心が 0 になります。
ReLU (整流線形単位): 入力が正の場合は出力し、それ以外の場合は 0 を出力します。
Leaky ReLU: ReLU に似ていますが、入力が負の場合に小さなゼロ以外の勾配を許可し、「瀕死の ReLU」問題の回避に役立ちます。
活性化関数の種類:
1) 直線関数
a.アイデンティティ関数:
恒等関数は、出力が入力と正確に等しい直線関数です。
f(x)=x
b.線形関数:
線形関数は、直線として表すことができる関数です。
f(x) = mx b
2) ステップ関数
a.階段関数:
階段関数は、特定の入力値で急激に変化する複数の線形セグメントで構成されます。滑らかな曲線ではなく、離散的なジャンプが特徴です。
例
0 から 0.2 未満の入力に対して 0 を出力し、0.2 から 0.4 未満の入力に対して 0.2 を出力する関数。
b.単位ステップ関数:
入力値が閾値未満の場合は 0 を出力し、入力値が閾値以上の場合は 1 を出力します。
c.ヘビサイド関数:
3) 区分的線形関数
a. ReLU (整流線形ユニット)
関数定義:
x≥0 の場合:
f(x)=x
x
f(x)=0
b. Leaky ReLU
函數定義:
對於 x≥0:
f(x)=x
對於 x
f(x)=αx(其中 α 是一個小常數,例如 0.01)
c.參數化 ReLU (PReLU)
函數定義:
對於 x≥0:
f(x)=x
對於 x
f(x)=αx(其中 α 是可學習參數)
4) 平滑的活化功能
a. Softplus功能
它是 ReLU 函數的平滑逼近。它透過提供連續且可微的替代方案來解決零處的急劇過渡。
Softplus(x) = ln(1 ex)
b. S 型函數
sigmoid 函數將輸入值壓縮到 0 到 1 之間的範圍
σ(x)= 1 / 1 e−x
c.雙曲正切 (tanh) 函數
tanh 函數與 sigmoid 類似,但將輸入值壓縮到 [−1,1] 範圍內。它以零為中心,這對於標準化資料很有用。
tanh(x)=ex e−x
/ex−e−x
softmax 函數是神經網路分類任務中的關鍵組成部分,特別是當目標是預測多個類別的機率時。
Softmax 將輸出神經元的原始輸出分數(通常稱為 logits)轉換為各個類別的機率分佈。每個輸出值都會轉換為所有類別中總和為 1 的機率。
1) 前饋神經網路
前饋網絡是一種人工神經網絡,其中神經元之間的連接不形成循環。換句話說,資料從輸入到輸出單向流動,不會循環返回。
結構:
前饋網路分為多個層:輸入層、一個或多個隱藏層和輸出層。
每個神經元接收來自前一層的輸入,對這些輸入應用權重,將它們相加,添加偏差項,並將結果傳遞給激活函數以產生輸出。
前饋網路的類型:
單層感知器:
最簡單形式的前饋網絡,只有輸入層和輸出層
前任。用於資料線性可分的二元分類問題。
多層感知器(MLP):
它在輸入層和輸出層之間包含一個或多個隱藏層。
前任。它用於分類、迴歸和函數逼近等任務。
放射基底関数 (RBF) ネットワーク
隠れ層の活性化関数として放射基底関数を使用します。
元。関数近似とパターン認識に使用されます。
アプリケーション:
画像認識
音声認識
医学的診断
データが入力から出力まで通過するレイヤーの数です。入力層と出力層(入力層を除く)の間の層です。ネットワークの深さは、これらの隠れ層の数によって決まります。
これらは、それぞれが前の層のすべてのニューロンから入力を受け取るニューロンのセットです。レイヤーを作成した場合
稠密な層のみからなるネットワークは、完全接続ネットワークと呼ばれることもあります。
0 次元配列
例
ニューラル ネットワーク層にニューロンが 1 つだけある場合、その出力は単一のスカラー値になります。数学的には、この出力は 0 次元配列として表すことができます。
1 次元配列 (1D 配列)
例
ニューラル ネットワークの層に複数のニューロンがある場合、出力は値のリストまたはベクトルとして表すことができます。たとえば、レイヤーに 12 個のニューロンが含まれる場合、出力は 12 個の要素を含む 1D 配列になります。
(注: ニューラル ネットワークがどれほど大きくても、複雑であっても、活性化関数がなく、それらが加算、減算などの線形関数である場合、常に単一のニューロンと同等になります。)
任意の次元数のボックス状に配置された数値の配列を表す一般用語。これには、1 次元 (ベクトル)、2 次元 (行列)、3 次元 (ボリューム)、および高次元の配列が含まれます。
ニューラル ネットワークのトレーニングには、予測の誤差を最小限に抑えるためにネットワークの重みを調整することが含まれます。これは、コストまたは損失関数を削減するためにネットワークのパラメーターを反復的に更新するプロセスを通じて行われます
これらは、教師なし学習に使用されるニューラル ネットワークの一種です。重要なアイデアは、入力を低次元のコードに圧縮し、このコードから元の入力を再構築することです。
Encoder:
Dieser Teil komprimiert die Eingabedaten in eine kompakte Darstellung.
Beispiel: Bei einem Bild könnte der Encoder seine Abmessungen beispielsweise von 128 x 128 Pixel auf einen kleineren Vektor reduzieren, etwa 32-dimensional
Decoder:
Dieser Teil rekonstruiert die ursprünglichen Eingabedaten aus der komprimierten Darstellung.
Beispiel: Der Decoder würde den 32-dimensionalen Vektor nehmen und versuchen, das 128 x 128 Pixel große Bild neu zu erstellen.
Sie sind darauf trainiert, den Unterschied zwischen der Eingabe und der rekonstruierten Ausgabe zu minimieren. Dies erfolgt normalerweise mithilfe einer Verlustfunktion, wie z. B. Mean Squared Error (MSE) für kontinuierliche Daten oder binäre Kreuzentropie für binäre Daten. Ziel ist es, die Gewichte des Netzwerks so anzupassen, dass die Rekonstruktion so nah wie möglich an der ursprünglichen Eingabe liegt.
1) Entrauschen von Autoencodern
2) Variationale Autoencoder
3) Sparse Autoencoder
1) Verlustfrei:
Es handelt sich um eine Art der Datenkomprimierung, bei der die Originaldaten aus den komprimierten Daten perfekt rekonstruiert werden können. Dies bedeutet, dass während des Komprimierungsprozesses keine Informationen verloren gehen und die dekomprimierten Daten mit dem Original identisch sind.
Algorithmen: Verwenden Sie Methoden wie Entropiekodierung und wörterbuchbasierte Techniken. Beispiele hierfür sind:Huffman-Codierung: Codiert häufig vorkommende Symbole mit kürzeren Codes und weniger häufige Symbole mit längeren Codes.Lempel-Ziv-Welch (LZW): Erstellt ein Wörterbuch von Sequenzen aus den Daten und verwendet kürzere Codes für häufige Sequenzen.Lauflängencodierung (RLE): Komprimiert Sequenzen wiederholter Zeichen durch Speichern des Zeichens und seiner Anzahl.Beispiel. PNG,FLAC,ZIP
2) Verlustbehaftet:
Es reduziert die Dateigröße durch das Entfernen einiger Daten, oft auf eine Weise, die für die menschlichen Sinne weniger wahrnehmbar ist, aber zu einem gewissen Verlust an Wiedergabetreue führt. Ziel ist es, eine deutliche Reduzierung der Dateigröße zu erreichen und gleichzeitig eine akzeptable Qualität für den beabsichtigten Verwendungszweck beizubehalten.
Ex. JPEG, H.264 oder HEVC, MP3Transform Coding: Konvertiert Daten in einen anderen Bereich (z. B. Frequenzbereich) und quantisiert sie. Beispiele hierfür sind: Diskrete Kosinustransformation (DCT): Wird bei der JPEG-Bildkomprimierung verwendet. Diskrete Wavelet-Transformation (DWT): Wird bei JPEG 2000 verwendet.
1) Dimensionsreduktion
2) Rauschunterdrückung
Optimierer: Passt Gewichte an, um die Verlustfunktion zu minimieren.
Verlustfunktion: Misst, wie gut die Vorhersagen des Modells mit den tatsächlichen Werten übereinstimmen.
Aktivierungsfunktion: Fügt dem Modell Nichtlinearität hinzu, sodass es komplexe Muster lernen kann.
Bleiben Sie in Verbindung!
Wenn Ihnen dieser Beitrag gefallen hat, vergessen Sie nicht, mir in den sozialen Medien zu folgen, um weitere Updates und Einblicke zu erhalten:
Twitter: madhavganesan
Instagram: madhavganesan
LinkedIn: madhavganesan
Atas ialah kandungan terperinci Keperluan Pembelajaran Mendalam. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!