필기인식 기술 및 알고리즘 분류-일체 포함-php.cn

컨벌루션 블록의 풀링 레이어는 이미지의 객체를 식별하고 분류하기 위해 데이터 차원을 줄이고 공간 불변성을 달성하는 데 사용됩니다. 그러나 풀링의 단점은 객체 회전, 위치, 크기 및 기타 위치 속성에 대한 많은 양의 공간 정보가 프로세스에서 손실된다는 것입니다. 따라서 이미지 분류의 정확도는 높지만, 이미지에서 객체의 정확한 위치를 찾는 성능은 낮습니다.

Capsule은 고차원 벡터 공간에서 객체의 위치, 회전, 크기 및 기타 정보에 대한 정보를 저장하는 데 사용되는 뉴런 모듈입니다. 각 차원은 물체의 특별한 특성을 나타냅니다.

특징 맵을 생성하고 시각적 특징을 추출하는 커널은 캡슐이라는 여러 그룹의 개별 의견을 결합하여 동적 라우팅으로 작동합니다. 이로 인해 커널 간에 등분산이 발생하고 CNN에 비해 성능이 향상됩니다.

특징 맵을 생성하고 시각적 특징을 추출하는 커널은 여러 그룹(캡슐이라고 함)의 개별 의견을 결합하여 동적 라우팅으로 작동합니다. 이로 인해 CNN에 비해 커널이 동등해지고 성능이 향상됩니다.

Multi-Dimensional Recurrent Neural Network (MDRNN)

RNN/LSTM(Long Short-Term Memory) 순차 데이터 처리는 텍스트 등 1차원 데이터 처리로 제한되며 직접 확장할 수 없습니다. 이미지.

다차원 RNN은 표준 RNN의 단일 반복 연결을 데이터의 차원 수만큼 반복 단위로 대체할 수 있습니다.

순방향 전달 동안 데이터 시퀀스의 각 지점에서 네트워크의 숨겨진 계층은 외부 입력과 자체 활성화를 수신하며 이는 한 차원에서 한 단계 뒤로 수행됩니다.

인식 시스템의 주요 문제는 2차원 이미지를 1차원 레이블 시퀀스로 변환하는 것입니다. 이는 입력 데이터를 MDRNN 계층의 계층 구조에 전달하여 수행됩니다. 블록의 높이를 선택하면 2D 이미지가 점차적으로 1D 시퀀스로 축소되며, 그런 다음 출력 레이어에서 레이블을 지정할 수 있습니다.

다차원 순환 신경망은 이미지 회전 및 전단, 획의 모호함, 다양한 필기 스타일의 로컬 왜곡과 같은 입력 차원의 모든 조합에 대해 강력한 언어 모델을 만들고 모듈형 다차원을 유연하게 구축할 수 있도록 설계되었습니다. 문맥.

Connectionist Temporal Classification(CTC)

음성 인식, 필기 인식 등의 작업을 처리하여 전체 입력 데이터를 출력 클래스/텍스트에 매핑하는 알고리즘입니다.

기존 인식 방법에는 이미지를 해당 텍스트에 매핑하는 것이 포함되지만 이미지 패치가 문자와 어떻게 정렬되는지는 알 수 없습니다. 음성 오디오의 특정 부분이나 손으로 쓴 이미지가 특정 문자와 어떻게 일치하는지 알지 못한 채 CTC를 우회할 수 있습니다.

알고리즘에 대한 입력은 손으로 쓴 텍스트 이미지의 벡터 표현입니다. 이미지 픽셀 표현과 문자 시퀀스 사이에는 직접적인 정렬이 없습니다. CTC는 이들 사이의 가능한 모든 정렬 확률을 합산하여 이 매핑을 찾는 것을 목표로 합니다.

CTC를 사용하여 훈련된 모델은 일반적으로 순환 신경망을 사용하여 각 시간 단계의 확률을 추정합니다. 순환 신경망은 입력의 컨텍스트를 고려하기 때문입니다. 행렬로 표시되는 각 시퀀스 요소의 문자 점수를 출력합니다.

디코딩을 위해 다음을 사용할 수 있습니다.

최상의 경로 디코딩: 각 타임스탬프에서 가장 가능성이 높은 문자를 연결하여 완전한 단어를 형성함으로써 최상의 경로를 생성함으로써 문장을 예측하는 것과 관련됩니다. 다음 훈련 반복에서는 텍스트의 더 나은 디코딩을 위해 반복되는 문자와 공백이 제거됩니다.

빔 검색 디코더: 가장 높은 확률로 여러 출력 경로를 제안합니다. 빔 크기를 일정하게 유지하기 위해 확률이 더 작은 경로는 삭제됩니다. 이 접근 방식을 통해 얻은 결과는 더 정확하며 종종 언어 모델과 결합되어 의미 있는 결과를 제공합니다.

transformer 모델

Transformer 모델은 self-attention을 사용하여 전체 시퀀스를 기억하는 다른 전략을 채택합니다. 변환기 모델을 사용하면 비순환적 필기 방법을 구현할 수 있습니다.

Transformer 모델은 시각적 계층의 다중 헤드 self-attention 계층과 텍스트 계층을 결합하여 디코딩할 문자 시퀀스의 언어 모델 관련 종속성을 학습합니다. 언어 지식은 모델 자체에 내장되어 있으므로 언어 모델을 사용하는 추가 처리 단계가 필요하지 않으며 어휘의 일부가 아닌 출력을 예측하는 데에도 적합합니다.

이 아키텍처는 두 부분으로 구성됩니다.

서로의 시각적 및 언어 관련 기능에 주의를 기울여 디코딩된 문자를 출력하는 텍스트 전사기.

다양한 문자 위치와 문맥 정보에 초점을 맞춰 손으로 쓴 텍스트 이미지에서 관련 정보를 추출하도록 설계된 시각적 특징 인코더입니다.

인코더-디코더 및 주의 네트워크

손글씨 인식 시스템 훈련은 항상 훈련 데이터 부족으로 인해 어려움을 겪습니다. 이 문제를 해결하기 위해 이 방법은 사전 훈련된 텍스트의 특징 벡터를 출발점으로 활용합니다. 최첨단 모델은 RNN과 함께 주의 메커니즘을 사용하여 각 타임스탬프의 유용한 기능에 중점을 둡니다.

전체 모델 아키텍처는 입력 텍스트 이미지 정규화, 정규화된 입력 이미지를 2D 시각적 특징 맵으로 인코딩, 순차 모델링을 위해 양방향 LSTM을 사용하여 디코딩, 디코더 등 4단계로 나눌 수 있습니다. 상황별 정보의 출력 벡터가 변환됩니다. 말로.

Scan, Attend and Read

주의 메커니즘을 사용한 엔드투엔드 필기 인식 방법입니다. 전체 페이지를 한 번에 스캔합니다. 따라서 전체 단어를 미리 문자나 줄로 분할하는 데 의존하지 않습니다. 이 방법은 위와 유사한 특징 추출기로 다차원 LSTM(MDLSTM) 아키텍처를 사용합니다. 유일한 차이점은 추출된 특징 맵이 수직으로 접혀 있고 해당 텍스트를 식별하기 위해 소프트맥스 활성화 함수가 적용되는 마지막 레이어입니다.

여기서 사용된 어텐션 모델은 콘텐츠 기반 어텐션과 위치 기반 어텐션의 하이브리드 조합입니다. 디코더 LSTM 모듈은 이전 상태와 주의 맵, 인코더 기능을 사용하여 다음 예측을 위한 최종 출력 문자와 상태 벡터를 생성합니다.