YOLO는 불멸이다! YOLOv9 출시: 성능과 속도 SOTA~
오늘날의 딥러닝 방법은 모델의 예측 결과가 실제 상황에 가장 가깝도록 가장 적합한 목적 함수를 설계하는 데 중점을 두고 있습니다. 동시에 예측을 위한 충분한 정보를 얻을 수 있도록 적합한 아키텍처를 설계해야 합니다. 기존 방법은 입력 데이터가 레이어별 특징 추출 및 공간 변환을 거치면 많은 양의 정보가 손실된다는 사실을 무시합니다. 이 글에서는 딥 네트워크를 통해 데이터를 전송할 때 중요한 문제, 즉 정보 병목 현상과 가역 기능을 살펴보겠습니다. 이를 바탕으로 다중 목적을 달성하기 위해 심층 네트워크에서 요구되는 다양한 변화에 대처하기 위해 PGI(Programmable Gradient Information) 개념을 제안합니다. PGI는 목적 함수를 계산하기 위해 대상 작업에 대한 완전한 입력 정보를 제공할 수 있으므로 네트워크 가중치를 업데이트하기 위한 신뢰할 수 있는 기울기 정보를 얻을 수 있습니다. 또한 경사 경로 계획을 기반으로 하는 새로운 경량 네트워크 아키텍처인 GELAN(Generalized Efficient Layer Aggregation Network)이 설계되었습니다.
검증 결과에 따르면 GELAN 아키텍처는 경량 모델에서 PGI를 통해 상당한 이점을 얻는 것으로 나타났습니다. MS COCO 데이터 세트에 대한 실험에서는 PGI와 결합된 GELAN이 기존 컨볼루션 연산자만 사용하는 심층 컨볼루션 기반의 최첨단 방법보다 더 나은 매개변수 활용을 달성할 수 있음을 보여줍니다. PGI의 다양성은 경량 모델부터 대형 모델까지 다양한 모델에 적합합니다. PGI를 사용하면 모델에 완전한 정보가 제공되므로 대규모 데이터 세트에 대해 사전 훈련된 최첨단 모델보다 처음부터 훈련된 모델을 사용하여 더 나은 결과를 얻을 수 있습니다.
글 주소: https://arxiv.org/pdf/2402.13616
코드 링크: https://github.com/WongKinYiu/yolov9
뛰어난 성능
MS COCO 데이터 세트의 실시간 목표에 따르면 탐지기 비교 결과는 GELAN과 PGI를 기반으로 한 표적 탐지 방법이 표적 탐지 성능 측면에서 처음부터 훈련된 이전 방법보다 훨씬 앞서 있음을 보여줍니다. 새로운 방법은 정확도 측면에서 대규모 데이터 세트 사전 훈련에 의존하는 RT DETR보다 성능이 뛰어나고 매개변수 활용 측면에서 심층 컨볼루션 설계를 기반으로 하는 YOLO MS보다 성능이 뛰어납니다. 이러한 결과는 GELAN 및 PGI 방법이 표적 탐지 분야에서 잠재적인 이점을 가지며 향후 연구 및 응용 분야에서 중요한 기술 선택이 될 수 있음을 나타냅니다.
이 기사의 기고
- 는 기존 심층 신경망 아키텍처를 가역 기능의 관점에서 이론적으로 분석합니다. 이러한 과정을 통해 과거에는 설명하기 어려웠던 많은 현상을 성공적으로 설명합니다. PGI와 보조 가역 분기도 이 분석을 바탕으로 설계하여 우수한 결과를 얻었습니다.
- 설계된 PGI는 심층 감독이 극도로 심층적인 신경망 아키텍처에만 사용될 수 있다는 문제를 해결하여 새로운 경량 아키텍처를 일상 업무에 실제로 적용할 수 있게 해줍니다.
- 설계된 GELAN은 전통적인 컨볼루션만을 사용하여 최첨단 기술을 기반으로 한 Deep Convolution 설계보다 더 높은 매개변수 사용을 달성하는 동시에 가볍고 빠르며 정확하다는 큰 장점을 보여줍니다.
- 제안된 PGI와 GELAN을 결합하면 MS COCO 데이터 세트에서 YOLOv9의 객체 감지 성능이 모든 측면에서 기존 실시간 객체 감지기를 크게 능가합니다.
Method
PGI 및 관련 네트워크 아키텍처 및 방법
아래 그림과 같이 (a) Path Aggregation Network(PAN), (b) Reversible Column(RevCol), (c) Traditional Depth 감독 및 (d) YOLOv9에서 제안한 PGI(Programmable Gradient Information).
PGI는 주로 다음 세 가지 구성 요소로 구성됩니다.
- 기본 분기: 추론을 위한 아키텍처
- 보조 가역 분기: 기본 분기에서 역방향 전송을 위한 신뢰할 수 있는 그라디언트 생성
- 다단계 보조 정보 제어 프로그래밍 가능한 다단계 의미 정보를 학습하기 위한 메인 브랜치입니다.
GELAN
의 아키텍처는 아래 그림과 같습니다. (a) CSPNet, (b) ELAN, (c) YOLOv9에서 제안하는 GELAN입니다. CSPNet을 모방하고 ELAN을 GELAN으로 확장하여 모든 컴퓨팅 블록을 지원할 수 있습니다.
결과 비교
기존 기술과의 비교
다음 표에는 YOLOv9와 처음부터 훈련된 다른 실시간 객체 감지기와의 비교가 나열되어 있습니다. 전반적으로 기존 방법 중 가장 성능이 좋은 방법은 경량 모델의 경우 YOLO MS-S, 중형 모델의 경우 YOLO MS, 일반 모델의 경우 YOLOv7 AF, 대형 모델의 경우 YOLOv8-X입니다. 경량 및 중형 모델의 YOLO MS와 비교하여 YOLOv9는 매개변수가 약 10% 적고 계산량이 5~15% 적지만 AP는 여전히 0.4~0.6% 향상됩니다. YOLOv7 AF와 비교하여 YOLOv9-C는 매개변수가 42% 적고 계산 수가 21% 적지만 동일한 AP(53%)를 달성합니다. YOLOv8-X와 비교하여 YOLOv9-X는 매개변수가 15% 적고 계산이 25% 적으며 AP가 1.7%로 크게 증가합니다. 위의 비교 결과는 YOLOv9가 모든 측면에서 기존 방식에 비해 크게 개선되었음을 보여줍니다.
최첨단 실시간 물체 감지기와 비교
비교에 참여하는 방법은 모두 RT DETR, RTMDet 및 PP-YOLOE를 포함하여 ImageNet을 사전 훈련 가중치로 사용합니다. 스크래치 훈련 방법을 사용하는 YOLOv9는 다른 방법의 성능을 확실히 능가합니다.
시각화된 결과
특징 맵(시각화된 결과): 다양한 깊이에서 PlainNet, ResNet, CSPNet 및 GELAN의 무작위 초기 가중치로 출력됩니다. 100개의 레이어가 지나면 ResNet은 대상 정보를 혼동하기에 충분한 피드포워드 출력을 생성하기 시작합니다. 여기서 제안된 GELAN은 150번째 레이어에서 여전히 완전한 정보를 유지할 수 있으며, 200번째 레이어에서도 여전히 충분한 식별 능력을 가지고 있습니다.
GELAN 및 YOLOv9(GELAN + PGI)의 PAN 기능 맵(시각화 결과): 바이어스 워밍업 라운드 후. GELAN은 초기에 약간의 차이가 있었지만 PGI의 가역 분기를 추가한 후 대상 개체에 더 잘 집중할 수 있었습니다.
다양한 네트워크 아키텍처에 대한 무작위 초기 가중치 출력 특징 맵의 시각화 결과: (a) 입력 이미지, (b) PlainNet, (c) ResNet, (d) CSPNet 및 (e) 제안된 GELAN. 그림에서 볼 수 있듯이 다양한 아키텍처에서는 목적 함수의 손실을 계산하기 위해 제공되는 정보의 정도가 다르며, 우리의 아키텍처는 가장 완전한 정보를 유지하고 목적 함수 계산을 위해 가장 신뢰할 수 있는 기울기 정보를 제공할 수 있습니다.
결론
이 기사에서는 정보 병목 현상 문제와 심층 감독 메커니즘이 경량 신경망에 적합하지 않은 문제를 해결하기 위해 PGI를 사용할 것을 제안합니다. 효율적이고 가벼운 신경망인 GELAN을 설계했습니다. 표적 탐지 측면에서 GELAN은 다양한 컴퓨팅 모듈 및 깊이 설정에서 강력하고 안정적인 성능을 보여줍니다. 실제로 다양한 추론 장치에 적합한 모델로 광범위하게 확장 가능합니다. 위의 두 가지 문제에 대한 대응으로 PGI의 도입으로 경량 모델과 심층 모델 모두 정확도가 크게 향상되었습니다. PGI와 GELAN을 결합해 설계된 YOLOv9은 강력한 경쟁력을 보여준다. 우수한 설계 덕분에 심층 모델은 YOLOv8에 비해 매개변수 수를 49%, 계산량을 43% 줄이면서도 MS COCO 데이터 세트에서는 AP가 0.6% 향상되었습니다.
원본 링크: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw
위 내용은 YOLO는 불멸이다! YOLOv9 출시: 성능과 속도 SOTA~의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











오늘날의 딥러닝 방법은 모델의 예측 결과가 실제 상황에 가장 가깝도록 가장 적합한 목적 함수를 설계하는 데 중점을 두고 있습니다. 동시에 예측을 위한 충분한 정보를 얻을 수 있도록 적합한 아키텍처를 설계해야 합니다. 기존 방법은 입력 데이터가 레이어별 특징 추출 및 공간 변환을 거치면 많은 양의 정보가 손실된다는 사실을 무시합니다. 이 글에서는 딥 네트워크를 통해 데이터를 전송할 때 중요한 문제, 즉 정보 병목 현상과 가역 기능을 살펴보겠습니다. 이를 바탕으로 다중 목표를 달성하기 위해 심층 네트워크에서 요구되는 다양한 변화에 대처하기 위해 PGI(Programmable Gradient Information) 개념을 제안합니다. PGI는 목적 함수를 계산하기 위해 대상 작업에 대한 완전한 입력 정보를 제공할 수 있으므로 네트워크 가중치를 업데이트하기 위한 신뢰할 수 있는 기울기 정보를 얻을 수 있습니다. 또한 새로운 경량 네트워크 프레임워크가 설계되었습니다.

그래프 신경망(GNN)은 최근 몇 년 동안 빠르고 놀라운 발전을 이루었습니다. 그래프 딥러닝, 그래프 표현 학습(그래프 표현 학습) 또는 기하학적 딥러닝이라고도 알려진 그래프 신경망은 머신러닝, 특히 딥러닝 분야에서 가장 빠르게 성장하고 있는 연구 주제입니다. 이번 공유의 제목은 "GNN의 기본, 프론티어 및 응용"이며, Wu Lingfei, Cui Peng, Pei Jian 및 Zhao 학자가 편찬한 종합 도서 "그래프 신경망의 기본, 프론티어 및 응용"의 일반적인 내용을 주로 소개합니다. 리앙. 1. 그래프 신경망 소개 1. 그래프를 연구하는 이유는 무엇입니까? 그래프는 복잡한 시스템을 설명하고 모델링하기 위한 보편적인 언어입니다. 그래프 자체는 복잡하지 않으며 주로 간선과 노드로 구성됩니다. 노드를 사용하여 모델링하려는 개체를 나타내고 가장자리를 사용하여 두 개체를 나타낼 수 있습니다.

현재 주류 AI 칩은 크게 GPU, FPGA, ASIC 세 가지 범주로 나뉜다. GPU와 FPGA는 모두 초기 단계에서 상대적으로 성숙한 칩 아키텍처이며 범용 칩입니다. ASIC은 특정 AI 시나리오에 맞게 맞춤화된 칩입니다. 업계에서는 CPU가 AI 컴퓨팅에 적합하지 않지만 AI 애플리케이션에도 필수적이라는 점을 확인했다. GPU와 CPU의 GPU 솔루션 아키텍처 비교 CPU는 von Neumann 아키텍처를 따르며, 그 핵심은 프로그램/데이터 저장 및 직렬 순차 실행입니다. 따라서 CPU 아키텍처는 저장 장치(Cache)와 제어 장치(Control)를 배치하는 데 많은 공간이 필요한 반면, 컴퓨팅 장치(ALU)는 작은 부분만 차지하므로 CPU가 대규모 작업을 수행합니다. 병렬 컴퓨팅.

마인크래프트에서 레드스톤은 매우 중요한 아이템이다. 스위치, 레드스톤 횃불, 레드스톤 블록은 게임 내 고유한 재료로 전선이나 물체에 전기와 같은 에너지를 공급할 수 있습니다. 레드스톤 회로는 다른 기계를 제어하거나 활성화하기 위한 구조물을 만드는 데 사용할 수 있습니다. 이 회로 자체는 플레이어의 수동 활성화에 응답하도록 설계할 수도 있고, 반복적으로 신호를 출력하거나 생물체 움직임과 같은 비플레이어에 의한 변경에 응답할 수도 있습니다. 아이템 낙하, 식물 성장, 낮과 밤 등. 따라서 내 세계에서 레드스톤은 자동문, 조명 스위치, 스트로보 전원 공급 장치와 같은 단순한 기계부터 거대한 엘리베이터, 자동 농장, 소형 게임 플랫폼, 심지어 게임 내 컴퓨터까지 매우 다양한 유형의 기계를 제어할 수 있습니다. . 최근 B 스테이션 UP 메인@

바람이 우산을 날릴 만큼 강하면 드론은 다음과 같이 안정적입니다. 바람을 타고 비행하는 것은 공중 비행의 일부이므로 조종사가 항공기를 착륙시킬 때 풍속은 다음과 같습니다. 더 작은 수준에서는 돌풍이 드론 비행에 영향을 미칠 수도 있습니다. 현재 드론은 바람 없이 통제된 조건에서 비행하거나 사람이 원격 조종을 사용해 조종합니다. 드론은 연구자들이 개방된 하늘에서 대형을 이루어 비행하도록 제어하지만 이러한 비행은 일반적으로 이상적인 조건과 환경에서 수행됩니다. 그러나 드론이 패키지 배송과 같이 필요하지만 일상적인 작업을 자율적으로 수행하려면 실시간으로 바람 조건에 적응할 수 있어야 합니다. 바람에 날릴 때 드론의 기동성을 높이기 위해 Caltech의 엔지니어 팀

비전 작업(예: 이미지 분류)을 위한 딥 러닝 모델은 일반적으로 단일 시각적 영역(예: 자연 이미지 또는 컴퓨터 생성 이미지)의 데이터를 사용하여 엔드투엔드 학습됩니다. 일반적으로 여러 도메인에 대한 비전 작업을 완료하는 애플리케이션은 각 개별 도메인에 대해 여러 모델을 구축하고 이를 독립적으로 교육해야 합니다. 추론 중에는 각 모델이 특정 도메인 입력 데이터를 처리합니다. 서로 다른 분야를 지향하더라도 이러한 모델 간 초기 레이어의 일부 기능은 유사하므로 이러한 모델의 공동 학습이 더 효율적입니다. 이렇게 하면 대기 시간과 전력 소비가 줄어들고, 각 모델 매개변수를 저장하는 데 드는 메모리 비용이 줄어듭니다. 이러한 접근 방식을 다중 도메인 학습(MDL)이라고 합니다. 또한 MDL 모델은 단일 모델보다 성능이 뛰어날 수도 있습니다.

오늘은 보행자 속성 분석 시스템에 대해 알려드리고자 합니다. 비디오 또는 카메라 비디오 스트림을 통해 보행자를 식별할 수 있으며 각 사람의 속성을 표시할 수 있습니다. 식별된 속성에는 다음 10개의 카테고리가 포함됩니다. 신체 방향이 전면, 측면, 후면인 경우 일부 카테고리에는 여러 속성이 있으므로 최종 트레이닝에는 26개의 속성이 있습니다. 이러한 시스템을 구현하려면 다음 3단계가 필요합니다. YOLOv5를 사용하여 보행자 식별 ByteTrack을 사용하여 동일한 사람을 추적 및 표시 다중 레이블 이미지 분류 네트워크를 훈련하여 보행자의 26개 속성 식별 1. 보행자 인식 및 추적 보행자 인식은 YOLOv5 대상 감지 모델을 사용 , 모델을 직접 학습하거나 YOLOv5 사전 학습된 모델을 직접 사용할 수 있습니다. 보행자 추적은 다중 객체 추적 기술(MOT)을 사용합니다.

논문 주소: https://arxiv.org/abs/2307.09283 코드 주소: https://github.com/THU-MIG/RepViTRepViT는 모바일 ViT 아키텍처에서 잘 작동하며 상당한 이점을 보여줍니다. 다음으로, 본 연구의 기여를 살펴보겠습니다. 기사에서는 경량 ViT가 일반적으로 시각적 작업에서 경량 CNN보다 더 나은 성능을 발휘한다고 언급했는데, 그 이유는 주로 모델이 전역 표현을 학습할 수 있는 MSHA(Multi-Head Self-Attention 모듈) 때문입니다. 그러나 경량 ViT와 경량 CNN 간의 아키텍처 차이점은 완전히 연구되지 않았습니다. 본 연구에서 저자는 경량 ViT를 효과적인
