표적 탐지의 정의는 이미지/공간에서 관심 객체의 위치와 크기를 찾는 것입니다.
일반적으로 이미지, 비디오 또는 포인트 클라우드를 입력하고 객체 카테고리 및 감지 프레임 좌표를 출력합니다. 왼쪽 아래 그림은 이미지에서 객체 감지의 예입니다. 자율 주행 시나리오의 차량 및 보행자 감지, 도크 관리의 정박 감지 등 표적 감지를 위한 다양한 애플리케이션 시나리오가 있습니다. 둘 다 객체 감지에 직접 적용됩니다. 표적 탐지는 공장에서 사용되는 침입 탐지 및 얼굴 인식과 같은 많은 CV 애플리케이션의 기본 작업이기도 하며, 탐지 작업을 완료하려면 보행자 탐지 및 얼굴 탐지가 필요합니다. 표적 탐지는 일상 생활에서 많은 중요한 응용 분야를 가지고 있으며 CV 구현에서의 위치도 매우 중요하므로 경쟁이 치열한 분야라고 볼 수 있습니다.
현재 고유한 특성을 가진 많은 대상 탐지 프레임워크가 있습니다. 실제 사용에서 축적된 경험을 바탕으로 우리는 현재 감지 프레임워크가 실제 적용에서 여전히 다음과 같은 문제점을 가지고 있음을 발견했습니다.
① 모델 규모 변경이 충분히 유연하지 않고 다양한 컴퓨팅 성능 시나리오에 적응하기 어렵습니다. . 예를 들어 YOLO 시리즈의 감지 프레임워크는 일반적으로 12개에서 100개 이상의 플롭에 이르는 3~5개 모델의 계산량만 제공하므로 다양한 컴퓨팅 성능 시나리오를 다루기가 어렵습니다.
② 다중 규모 감지 기능이 약하고, 특히 작은 물체 감지 성능이 좋지 않아 모델 적용 시나리오가 매우 제한됩니다. 예를 들어, 드론 탐지 시나리오에서는 결과가 이상적이지 않은 경우가 많습니다.
3 속도/정확도 곡선이 충분히 이상적이지 않으며, 속도와 정확도가 동시에 양립하기 어렵습니다.
위의 상황에 대응하여 DAMO-YOLO를 디자인하고 오픈소스화했습니다. DAMO-YOLO는 주로 산업적 구현에 중점을 두고 있습니다. 다른 표적 탐지 프레임워크와 비교할 때 세 가지 명백한 기술적 이점이 있습니다.
① 자체 개발한 NAS 기술을 통합하여 사용자가 저렴한 비용으로 모델을 맞춤화할 수 있어 칩 컴퓨팅 성능을 최대한 활용할 수 있습니다.
② 효율적인 RepGFPN과 HeavyNeck 모델 설계 패러다임을 결합하면 모델의 다중 스케일 감지 기능을 크게 향상시키고 모델 적용 범위를 확장할 수 있습니다.
3 소형, 중형, 대형 모델의 정확도를 손쉽게 향상시킬 수 있는 본격적인 증류 기술을 제안합니다.
아래에서는 DAMO-YOLO의 3가지 기술적 장점의 가치를 더욱 자세히 분석하겠습니다.
DAMO-YOLO는 자체 개발한 MAE-NAS 알고리즘을 기반으로 저비용 모델 맞춤화를 실현합니다. 지연 시간이나 FLOPS 예산을 기준으로 저렴한 비용으로 모델을 맞춤 설정할 수 있습니다. 모델 평가 점수를 제공하기 위해 모델 훈련이나 실제 데이터 참여가 필요하지 않으며 모델 검색 비용이 저렴합니다. FLOPS를 대상으로 하면 칩 컴퓨팅 성능을 최대한 활용할 수 있습니다. 예산에 따른 지연 검색은 지연에 대한 엄격한 요구 사항이 있는 다양한 시나리오에 매우 적합합니다. 우리는 또한 다양한 하드웨어 지연 시나리오를 지원하는 데이터베이스 구축 솔루션을 제공하여 모든 사람이 지연을 대상으로 사용하여 더 쉽게 검색할 수 있도록 합니다.
다음 그림은 모델 검색에 시간 지연을 사용하는 방법을 보여줍니다. 먼저 대상 칩 또는 대상 장치를 샘플링하여 가능한 모든 연산자의 지연을 얻은 다음 지연 데이터를 기반으로 모델의 지연을 예측합니다. 예측된 모델 규모가 미리 설정된 목표를 충족하면 모델은 후속 모델 업데이트 및 점수 계산을 시작합니다. 마지막으로 반복 업데이트를 통해 지연 제약 조건을 충족하는 최적의 모델을 얻습니다.
다음으로 모델의 다중 스케일 감지 기능을 향상시키는 방법을 소개하겠습니다. DAMO-YOLO는 제안된 Efficient RepGFPN과 혁신적인 HeavyNeck을 결합하여 다중 규모 감지 기능을 크게 향상시킵니다. 효율적인 RepGFPN은 다중 규모 기능 융합을 효율적으로 완료할 수 있습니다. HeavyNeck 패러다임은 모델의 많은 FLOPS를 기능 융합 레이어에 할당하는 것을 의미합니다. 모델 FLOPS 비율 테이블과 같은. DAMO-YOLO-S를 예로 들면, 넥의 계산량이 전체 모델의 거의 절반을 차지하는데, 이는 주로 백본에 계산량을 두는 다른 모델들과 큰 차이가 있습니다.
마지막으로 증류 모델이 소개됩니다. 증류(distillation)란 큰 모델의 지식을 작은 모델에 옮겨 추론의 부담을 주지 않으면서 작은 모델의 성능을 향상시키는 것을 말한다. 모델 증류는 탐지 모델의 효율성을 향상시키는 강력한 도구이지만 학계 및 산업계에서의 탐색은 대부분 대형 모델에 국한되어 있으며 소형 모델을 위한 증류 솔루션이 부족합니다. DAMO-YOLO는 전체 규모 모델에 공통적인 증류 세트를 제공합니다. 이 솔루션은 실물 크기 모델에서 상당한 개선을 이룰 수 있을 뿐만 아니라 견고성이 높습니다. 또한 매개변수를 조정할 필요 없이 동적 가중치를 사용하며 원클릭 스크립트로 증류를 완료할 수 있습니다. 또한, 이 방식은 이종 증류에도 견고하며, 이는 위에서 언급한 저가형 맞춤형 모델에 큰 의미가 있습니다. NAS 모델에서는 검색을 통해 얻은 소형 모델과 대형 모델 간의 구조적 유사성이 보장되지 않습니다. 이질적으로 견고한 증류가 있는 경우 NAS와 증류의 장점을 최대한 활용할 수 있습니다. 아래 그림은 증류 성능을 보여줍니다. T 모델, S 모델, M 모델 모두 증류 후 안정적인 개선이 있음을 알 수 있습니다.
3. DAMO-YOLO 적용 가치위의 기술 가치를 기준으로 적용 가치를 얼마나 환산할 수 있나요? 다음은 DAMO-YOLO와 다른 현재 SOTA 탐지 프레임워크 간의 비교를 소개합니다.
DAMO-YOLO 기존 SOTA와 비교하여 동일한 정확도에서 모델 속도는 20~40% 빨라지고, 계산량은 15~50%, 매개변수는 6% 감소합니다. -50%. 본격적인 증가는 명백하며, 적용 범위가 넓습니다. 또한 작은 개체와 큰 개체 모두에서 눈에 띄는 개선이 이루어졌습니다.
위의 데이터 비교에서 볼 수 있듯이 DAMO-YOLO는 빠르고 Flop이 적으며 광범위한 응용 프로그램을 갖추고 있으며 컴퓨팅 성능을 기반으로 모델을 맞춤화하여 칩 활용 효율성을 향상시킬 수도 있습니다.
ModelScope에 관련 모델이 출시되었습니다. 3~5줄의 코드를 구성하여 추론 및 학습을 수행할 수 있습니다. 사용 중 질문이나 의견이 있으면 메시지를 남겨주세요. 댓글 영역.
다음으로 DAMO-YOLO의 3가지 기술적 장점에 중점을 두고 그 원리를 소개하여 모두가 DAMO-YOLO를 더 잘 이해하고 사용할 수 있도록 도와드리겠습니다.
4. DAMO-YOLO네트워크 모델링의 아이디어는 다음과 같습니다. 네트워크 F의 토폴로지 구조를 그래프 G=(V,E)로 추상화합니다. 여기서 정점 V는 기능을 나타내고 가장자리 E는 다양한 연산자를 나타냅니다. 이를 바탕으로 h(v)와 h(e)를 사용하여 정점과 가장자리의 값을 각각 표현할 수 있으며, 네트워크의 연속 상태 공간과 엔트로피를 정의하는 집합 S가 생성될 수 있습니다. 집합 S는 네트워크나 정보 시스템 F에 있는 정보의 총량을 나타낼 수 있습니다. 꼭짓점의 정보량은 네트워크의 표현 능력을 측정하고, 에지의 정보량은 에지의 엔트로피이기도 하여 네트워크의 복잡도를 측정합니다. DAMO-YOLO 객체 감지 작업에서 우리의 주요 관심사는 네트워크의 표현 능력을 극대화하는 것입니다. 실제 응용에서는 네트워크 기능의 엔트로피만 관련됩니다. 가우스 분포 미분 엔트로피와 가우스 엔트로피 상한 정리에 따라 특징 맵의 분산을 사용하여 네트워크 특징 엔트로피의 상한을 근사화합니다.
실제 작업에서는 먼저 표준 가우스 분포로 네트워크 백본의 가중치를 초기화하고 표준 가우스 노이즈 이미지를 입력으로 사용합니다. 순방향 전달을 위해 가우스 잡음이 네트워크에 공급된 후 몇 가지 특징을 얻을 수 있습니다. 그런 다음 각 척도 특성의 단일 척도 엔트로피 또는 분산을 계산한 다음 가중치를 적용하여 다중 척도 엔트로피를 얻습니다. 가중치 프로세스에서는 다양한 규모에서 특징의 표현 능력의 균형을 맞추기 위해 선험적 계수가 사용됩니다. 이 매개변수는 일반적으로 [0,0,1,1,6]으로 설정됩니다. 이렇게 설정한 이유는 다음과 같습니다. 탐지 모델에서 일반적인 특징은 5단계, 즉 1/2부터 1/32까지 5가지 해상도로 구분되기 때문입니다. 효율적인 기능 활용을 유지하기 위해 마지막 세 단계만 활용합니다. 그래서 사실 처음 두 단계는 모델의 예측에 참여하지 않으므로 0과 0이 됩니다. 나머지 3개에 대해서는 광범위한 실험을 수행한 결과 1, 1, 6이 더 나은 모델 비율이라는 것을 확인했습니다.
위의 핵심 원리를 기반으로 네트워크의 다중 규모 엔트로피를 성능 프록시로 사용할 수 있으며, 정화 알고리즘을 기본 프레임워크로 사용하여 다음을 구성하는 네트워크 구조를 검색할 수 있습니다. 완전한 MAE-NAS. NAS에는 많은 장점이 있습니다. 우선, 다중 추론 예산 제한을 지원하며 FLOPS, 매개변수 양, 대기 시간 및 네트워크 계층 수를 사용하여 모델 검색을 수행할 수 있습니다. 둘째, 세분화된 네트워크 구조의 매우 다양한 변형도 지원합니다. 여기에서는 네트워크 검색을 수행하기 위해 진화된 알고리즘이 사용되기 때문에 더 많은 네트워크 구조가 지원될수록 검색 중 사용자 정의 수준과 유연성이 높아집니다. 또한 사용자가 검색 프로세스를 쉽게 맞춤화할 수 있도록 공식 튜토리얼을 제공합니다. 마지막으로 가장 중요한 것은 MAE-NAS가 제로 쇼트(zero-short)입니다. 즉, 검색에 실제 데이터 참여가 필요하지 않으며 실제 모델 교육이 필요하지 않습니다. CPU에서 수십 분 동안 검색하여 현재 제약 조건 하에서 최적의 네트워크 결과를 생성할 수 있습니다.
DAMO-YOLO에서는 지연이 다른 T/S/M 모델의 백본 네트워크를 검색 대상으로 MAE-NAS를 사용하고, 검색된 백본 네트워크 인프라를 패키징하고 소규모 모델에는 ResStyle을 사용합니다. 대형 모델은 CSPStyle을 사용합니다.
아래 표에서 볼 수 있듯이 CSP-Darknet은 CSP 구조를 사용하여 수동으로 설계된 네트워크이며 YOLO v 5 /V6에서도 널리 적용되었습니다. MAE-NAS를 사용하여 기본 구조를 생성하고 이를 CSP로 패키징한 후 모델의 속도와 정확도가 크게 향상되었음을 확인했습니다. 또한 작은 모델에서는 정확도가 더 높은 MAE-ResNet 형식을 볼 수 있습니다. 48.7에 도달할 수 있는 대형 모델에 CPS 구조를 사용하면 분명한 이점이 있습니다.
MAE-NAS를 사용하여 백본 검색을 수행하는 방법은 무엇입니까? 여기에서는 이미 ModelScope에 온라인으로 제공되는 TinyNAS 도구 상자를 소개합니다. 웹 페이지의 시각적 구성을 통해 원하는 모델을 쉽게 얻을 수 있습니다. 동시에 MAE-NAS는 github에서도 오픈 소스로 공개되었습니다. 관심 있는 학생들은 오픈 소스 코드를 기반으로 보다 자유롭게 원하는 모델을 검색할 수 있습니다.
다음으로 DAMO-YOLO가 네트워크의 다양한 규모 기능을 융합하여 다중 규모 감지 기능을 향상시키는 방법을 소개합니다. 이전 탐지 네트워크에서는 다양한 규모의 기능 깊이가 크게 다릅니다. 예를 들어, 고해상도 특징은 작은 물체를 감지하는 데 사용되지만 특징 깊이가 얕아서 작은 물체 감지 성능에 영향을 미칩니다.
ICLR2022에서 제안한 작업 - GFPN은 높은 수준의 의미 정보와 낮은 수준의 공간 정보를 동일한 우선순위로 동시에 처리하며, 다중 규모 기능의 융합과 보완에 매우 친화적입니다. GFPN 설계에서는 GFPN을 더 깊게 설계할 수 있도록 먼저 건너뛰기 레이어를 도입했습니다. 기능을 재사용하고 중복성을 줄이기 위해 log2n-link를 사용합니다.
Queen 융합은 다양한 규모와 깊이의 특징의 상호작용적 융합을 높이는 것입니다. Queen fusion의 각 노드는 대각선 위아래로 서로 다른 스케일 기능을 수신하는 것 외에도 동일한 기능 깊이에서 서로 다른 스케일 기능을 수신하므로 기능 융합 중에 정보의 양이 크게 증가하고 동일한 깊이에서 다중 스케일 정보를 촉진합니다. 융합 중.
GFPN의 기능 재사용 및 고유한 연결 디자인으로 인해 모델 정확도가 향상되었지만. 스킵 레이어와 Queen 융합은 다중 스케일 기능 노드에서 융합 작업은 물론 업샘플링 및 다운샘플링 작업을 수행하므로 시간이 많이 걸리는 추론을 크게 늘리고 업계의 구현 요구 사항을 충족하기 어렵게 만듭니다. 실제로 GFPN은 FLOPS 효율적이지만 지연은 비효율적인 구조입니다. GFPN의 일부 결함을 고려하여 그 이유를 다음과 같이 분석하고 원인을 제시했습니다.
① 우선, 서로 다른 규모의 기능은 실제로 채널 수를 공유하므로 기능 중복성과 네트워크 구성이 많이 있습니다. 충분히 유연하지 않습니다.
② 둘째, Queen 기능에는 업샘플링 및 다운샘플링 연결이 있으며, 업샘플링 및 다운샘플링 연산자에는 훨씬 더 많은 시간이 소요됩니다.
3 셋째, 노드가 쌓일 때 동일한 기능 깊이의 직렬 연결은 GPU의 병렬 효율성을 감소시키며, 각 스택이 가져오는 직렬 경로의 성장은 매우 중요합니다.
이러한 문제를 해결하기 위해 우리는 이에 상응하는 최적화를 수행하고 Efficient RepGFPN을 제안했습니다.
최적화는 크게 두 가지로 나뉘는데, 하나는 토폴로지 구조의 최적화이고, 다른 하나는 융합 방식의 최적화입니다.
토폴로지 구조 최적화 측면에서 Efficient RepGFPN은 다양한 스케일 기능에 대해 서로 다른 채널 번호를 사용하므로 경량 계산의 제약 하에서 상위 수준 기능과 하위 수준 기능의 표현 기능을 유연하게 제어할 수 있습니다. FLOPS 및 지연 근사의 경우 유연한 구성을 통해 최고의 정확성과 속도 효율성을 얻을 수 있습니다. 또한 퀸 퓨전의 연결에 대한 효율성 분석도 수행한 결과 업샘플링 연산자의 부담은 크지만 정확도 향상은 작아서 다운샘플링 연산자의 이점에 비해 훨씬 낮은 것으로 나타났습니다. 그래서 우리는 퀸 퓨전에서 업샘플링 연결을 제거했습니다. 표에서 볼 수 있듯이 대각선 아래쪽의 틱은 실제로는 업샘플링이고 대각선 위쪽의 틱은 다운샘플링입니다. 왼쪽 그림과 비교하면 아래쪽으로 갈수록 작은 해상도가 점점 커지는 것을 확인할 수 있으며, 오른쪽 하단 표시 목적은 작은 해상도 기능을 업샘플링하여 이를 큰 해상도 기능에 연결하고 이를 큰 해상도 기능으로 융합하는 것입니다. 최종 결론은 다운샘플링 연산자의 수익이 더 높은 반면, 업샘플링 연산자의 수익은 매우 낮다는 것입니다. 따라서 전체 GFPN의 효율성을 향상시키기 위해 Queen 기능에서 업샘플링 연결을 제거했습니다.
통합 방법 측면에서도 일부 최적화가 이루어졌습니다. 먼저, 이전처럼 더 깊은 GFPN을 생성하기 위해 지속적으로 융합을 쌓는 대신 각 모델에서 두 개의 융합만 수행되도록 융합 노드 수를 수정합니다. 이렇게 하면 직렬 링크의 지속적인 증가로 인한 병렬 효율성이 줄어드는 것을 방지할 수 있습니다. 또한 기능 융합을 위해 특별히 융합 블록을 설계했습니다. fusion 블록에서는 융합 효과를 더욱 향상시키기 위해 Heavy 매개변수화 메커니즘 및 다층 집합 연결과 같은 기술을 도입합니다.
넥 외에도 감지 헤드 헤드도 감지 모델의 중요한 부분입니다. Neck에서 출력된 특성을 입력으로 사용하고 회귀 및 분류 결과 출력을 담당합니다. 우리는 Efficient RepGFPN과 Head 사이의 균형을 확인하기 위한 실험을 설계했으며, 모델 대기 시간이 엄격하게 제어될 때 Efficient RepGFPN이 깊을수록 더 좋다는 것을 발견했습니다. 따라서 네트워크 설계에서 계산량은 주로 Efficient RepGFPN에 할당되고, 선형 투영의 한 레이어만 분류 및 회귀 작업을 위해 Head 부분에 예약됩니다. 하나의 분류 레이어와 하나의 회귀 비선형 매핑 레이어만 있는 헤드를 ZeroHead라고 부릅니다. 이러한 계산 부하를 주로 Neck에 할당하는 디자인 패턴을 HeavyNeck 패러다임이라고 합니다.
DAMO-YOLO의 최종 모델 구조는 아래 그림과 같습니다.
위는 모델 디자인에 대한 몇 가지 생각입니다. 마지막으로 증류 방식을 소개하겠습니다.
DAMO-YOLO는 Efficient RepGFPN의 출력 기능을 증류에 사용합니다. 학생 기능은 먼저 align모듈을 통과하여 채널 번호를 교사에 맞춰 정렬합니다. 모델 자체의 편향을 제거하기 위해 학생과 교사의 특징을 Unbiased BN으로 정규화한 후 증류 손실을 계산합니다. 증류하는 동안 우리는 과도한 손실이 학생 자신의 분류 분기의 수렴을 방해한다는 것을 관찰했습니다. 그래서 우리는 훈련에 따라 감소하는 동적 가중치를 사용하기로 결정했습니다. 실험 결과에서 동적 균일 증류 중량은 T/S/M 모델에 견고합니다.
DAMO-YOLO의 증류 체인은 L 증류 M, M 증류 S 입니다. M이 S를 증류할 때 M은 CSP 패키징을 사용하고 S는 Res 패키징을 사용하는 반면 구조적으로 M과 S는 이성질체라는 점을 언급할 가치가 있습니다. 그러나 DAMO-YOLO 증류 방식을 사용하는 경우 M은 S를 증류하고 증류 후 1.2포인트의 개선도 있을 수 있으며 이는 우리의 증류 방식이 이성질체에도 강함을 나타냅니다. 요약하자면, DAMO-YOLO의 증류 방식은 매개변수가 자유롭고, 모든 범위의 모델을 지원하며, 이질적이고 견고합니다.
마지막으로 다모욜로를 정리해보겠습니다. DAMO-YOLO는 MAE-NAS 기술을 결합하여 저비용 모델 사용자 정의를 가능하게 하며 효율적인 RepGFPN 및 HeavyNeck 패러다임과 결합되어 다중 스케일 감지 기능을 향상시키고 광범위한 모델 애플리케이션을 제공합니다. 규모 증류 방식을 사용하면 모델 효율성을 더욱 향상시킬 수 있습니다.
DAMO-YOLO 모델이 ModelScope에서 출시되었으며 github의 오픈 소스입니다. 누구나 사용해 볼 수 있습니다.
5. DAMO-YOLO 개발 계획DAMO-YOLO가 출시된 지 얼마 되지 않았지만 아직 개선하고 최적화해야 할 부분이 많습니다. 우리는 단기적으로 배포 도구를 개선하고 ModelScope를 지원할 계획입니다. 또한 UAV 소형 표적 탐지, 회전 표적 탐지 등 그룹 내 경쟁 챔피언 솔루션을 기반으로 더 많은 응용 사례가 제공될 예정입니다. 또한 디바이스용 Nano 모델, 클라우드용 Large 모델 등 더 많은 예시 모델을 출시할 계획입니다. 마지막으로 모두가 관심을 갖고 긍정적인 피드백을 제공해주기를 바랍니다.
위 내용은 DAMO-YOLO: 속도와 정확성을 모두 고려한 효율적인 표적 탐지 프레임워크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!