機器學習技術的進步必定推動手寫辨識技術的發展。本文將重點放在目前表現優異的手寫辨識技術和演算法。
#膠囊網路是神經網路中最新、最先進的架構之一,被視為對現有機器學習技術的改進。
卷積塊中的池化層用於降低資料維度並實現空間不變性,以便識別和分類影像中的物件。然而,池化的一個缺點是在過程中會失去大量有關物件旋轉、位置、比例和其他位置屬性的空間資訊。因此,儘管影像分類的準確性很高,但定位物件在影像中的精確位置的表現較差。
膠囊是一種神經元模組,用於儲存關於物件在高維度向量空間中的位置、旋轉、比例等資訊。每個維度表示物件的特殊特徵。
產生特徵圖和提取視覺特徵的核心透過組合稱為膠囊的多個群組的個人意見與動態路由一起工作。與CNN相比,這導致核心之間的等方差並提高了效能。
產生特徵圖和提取視覺特徵的核心透過組合多個群組(稱為膠囊)的個人意見,與動態路由一起工作。這導致了核心之間的等價性,並與CNN相比提高了效能。
#RNN/LSTM(長短期記憶)處理順序資料僅限於處理一維數據,例如文本,它們不能直接擴展到圖像。
多維循環神經網路可用與資料中的維度一樣多的循環單元替換標準循環神經網路中的單一循環連接。
在前向傳遞過程中,在資料序列的每一點,網路的隱藏層都會接收外部輸入和其自身的激活,這些激活都是從一個維度向後一步進行的。
識別系統中的主要問題是將二維影像轉換為一維標籤序列。這是透過將輸入資料傳遞給MDRNN層的層次結構來完成的。選擇區塊的高度將2D影像逐漸折疊到1D序列上,然後輸出層可以對其進行標記。
多維循環神經網路旨在使語言模型對輸入維度的每種組合,例如圖像旋轉和剪切、筆畫的歧義和不同的手寫風格的局部失真具有穩健性,並允許它們靈活地建模多維上下文。
#這是一種處理語音辨識、手寫辨識等任務的演算法,將整個輸入資料映射到輸出類別/文字。
傳統識別方法涉及將圖像映射到相應的文本,然而我們不知道圖像的補丁是如何與字元對齊的。 CTC則可以在不知道語音音訊的特定部分或手寫影像如何與特定字元對齊的情況下繞過。
此演算法的輸入是手寫文字圖像的向量表示。影像像素表示和字元序列之間沒有直接對齊。 CTC旨在透過對它們之間所有可能對齊的機率求和來找到此映射。
使用CTC訓練的模型通常使用循環神經網路來估計每個時間步長的機率,因為循環神經網路會考慮輸入中的上下文。它輸出每個序列元素的字元分數,由矩陣表示。
對於解碼,我們可以使用:
#最佳路徑解碼:涉及透過連接每個時間戳最可能的字元來預測句子以形成完整的單詞,從而產生最佳路徑。在下一次訓練迭代中,重複的字元和空格被刪除以更好地解碼文字。
波束搜尋解碼器:以最高機率建議多個輸出路徑。丟棄具有較小機率的路徑以保持波束大小恆定。透過這種方法獲得的結果更準確,並且通常與語言模型結合以給出有意義的結果。
Transformer模型採用不同的策略,使用自註意力來記住整個序列。可以使用transformer模型實作一種非循環的手寫方法。
Transformer模型結合視覺層和文字層的多頭自註意力層,可以學習要解碼的字元序列的語言模型相關依賴關係。語言知識嵌入模型本身中,因此不需要使用語言模型進行任何額外的處理步驟,它也非常適合預測不屬於詞彙表的輸出。
此架構有兩個部分:
文字轉錄器,透過相互關注視覺和語言相關的特徵來輸出解碼字元。
視覺特徵編碼器,旨在透過專注於各種字元位置及其上下文訊息,從手寫文字圖像中提取相關資訊。
訓練手寫辨識系統總是受到訓練資料稀缺的困擾,為了解決這個問題,該方法利用文字的預訓練特徵向量作為起點。最先進的模型將注意力機制與RNN結合使用,以專注於每個時間戳記的有用特徵。
完整的模型架構可以分為四個階段:對輸入文字影像進行歸一化,將歸一化輸入影像編碼為2D視覺特徵圖,使用雙向LSTM進行解碼以進行順序建模,解碼器的上下文資訊的輸出向量被轉換為單字。
#這是一種使用注意力機制進行端對端手寫辨識的方法。它一次掃描整個頁面。因此,它不依賴事先將整個單字分割成字元或行。此方法使用多維LSTM(MDLSTM)架構作為與上述相似的特徵提取器。唯一的區別是最後一層,其中提取的特徵圖垂直折疊,並應用softmax激活函數來識別相應的文字。
這裡使用的注意力模型是基於內容的注意力和基於位置的注意力的混合組合。解碼器LSTM模組採用先前的狀態和注意力圖以及編碼器特徵來產生最終輸出字元和用於下一次預測的狀態向量。
#這是一種基於注意力機制的手寫文字辨識序列到序列模型。架構包含三個主要部分:
循環神經網路最適合文字的時間特性。當與此類循環架構配對時,注意力機制在每個時間步驟專注於正確的特徵方面發揮著至關重要的作用。
合成手寫產生可以產生逼真的手寫文本,它可用於提升現有資料集。
深度學習模型需要大量資料進行訓練,而獲取大量不同語言的註解手寫影像的語料庫是一項繁瑣的任務。我們可以使用生成對抗網路生成訓練資料來解決這個問題。
ScrabbleGAN是一種用於合成手寫文字影像的半監督方法。它依賴於一個生成模型,該模型可以使用完全卷積網路生成任意長度的單字圖像。
以上是手寫辨識技術及其演算法分類的詳細內容。更多資訊請關注PHP中文網其他相關文章!