생성적 의미 분할의 새로운 패러다임인 GMMSeg는 닫힌 집합 인식과 열린 집합 인식을 모두 처리할 수 있습니다.
현재 주류 의미론적 분할 알고리즘은 본질적으로 p(클래스|픽셀 특징)를 직접 모델링하고 기본 픽셀 데이터 분포, 즉 p(클래스|픽셀 특징)를 완전히 무시하는 소프트맥스 분류기를 기반으로 하는 차별적 분류 모델입니다. 이는 OOD(분포 외) 데이터에 대한 모델의 표현력과 일반화를 제한합니다.
최근 연구에서 Zhejiang University, University of Technology Sydney 및 Baidu 연구소의 연구원들은 GMM(Gaussian Mixture Model) ModelGMMSeg를 기반으로 하는 생성적 의미 분할 패러다임인 새로운 의미 분할 패러다임을 제안했습니다.
- 문서 링크: https://arxiv.org/abs/2210.02025
- 코드 링크: https://github.com/leonnnop/GMMSeg
GMM세그 픽셀과 카테고리의 결합 분포를 모델링하고, EM 알고리즘을 통해 픽셀 특징 공간에서 가우스 혼합 분류기(GMM Classifier)를 학습하고 생성 패러다임을 사용하여 각 카테고리의 픽셀 특징 분포를 세밀하게 캡처합니다. 한편 GMMSeg는 차별적 손실을 채택하여 심층 특징 추출기를 엔드 투 엔드로 최적화합니다. 이는 GMMSeg에 차별적 모델과 생성적 모델 모두의 장점을 제공합니다.
실험 결과에 따르면 GMMSeg는 다양한 분할 아키텍처와 백본 네트워크에서 성능 향상을 달성하는 동시에 후처리나 미세 조정(이상 분할) 없이 이상 분할에 직접 적용할 수 있습니다. 작업.
지금까지 의미론적 분할 방법이 단일 모델 인스턴스를 사용할 수 있는 것은 이번이 처음이며, closed-set 및 open-world 조건에서 동시 발전을 달성 성능을 달성했습니다. 또한 생성 분류기가 대규모 비전 작업에서 장점을 보여준 것은 이번이 처음입니다.
Discriminant vs. Generative Classifier
기존 분할 패러다임과 제안된 방법을 살펴보기 전에 판별 및 생성 분류기의 개념을 간략하게 소개합니다.
샘플-레이블 쌍(x, y)을 포함하는 데이터 세트 D가 있다고 가정합니다. 분류기의 궁극적인 목표는 샘플 분류 확률 p(y|x)를 예측하는 것입니다. 분류 방법은 판별 분류기와 생성 분류기의 두 가지 범주로 나눌 수 있습니다.
- 차별적 분류기: 조건부 확률 p(y|x)를 직접 모델링합니다. 표본 자체의 분포를 전혀 고려하지 않고 분류의 최적 결정 경계만 학습하므로 표본의 특성을 반영할 수 없습니다. 샘플.
- 생성 분류기: 먼저 결합 확률 분포 p(x, y)를 모델링한 다음 베이즈 정리를 통해 분류 조건부 확률을 도출합니다. 이는 데이터 자체의 분포를 명시적으로 모델링합니다. 종종 해당 모델은 다음과 같습니다. 각 카테고리별로 제작되었습니다. 판별 분류기와 비교하여 표본의 특성 정보를 충분히 고려합니다.
주류 의미론적 분할 패러다임: 차별적인 Softmax 분류기
현재 주류인 픽셀별 분할 모델은 주로 딥 네트워크를 사용하여 픽셀 특징을 추출한 다음 소프트맥스 분류기를 사용하여 픽셀 특징을 분류합니다. 네트워크 아키텍처는
두 부분으로 구성됩니다. 첫 번째 부분은 픽셀 특징 추출기입니다. 일반적인 아키텍처는 RGB 공간의 픽셀 입력을 D차원 고차원으로 매핑하는 인코더-디코더 쌍입니다. 차원 공간적으로 픽셀 특징을 얻습니다.
두 번째 부분은 주류 소프트맥스 분류자인 픽셀 분류기입니다. 이는 입력 픽셀 특징을 C 클래스 실제 출력(로지트)으로 인코딩한 다음 소프트맥스 기능을 사용하여 출력을 정규화합니다( 로짓) 통일하고 확률적 의미를 부여합니다. 즉, 로짓을 사용하여 픽셀 분류의 사후 확률을 계산합니다.
마지막으로 두 부분으로 구성된 완전한 모델은 교차 엔트로피를 통해 처음부터 끝까지 최적화됩니다. loss:
이 과정에서 모델은 픽셀 자체의 분포를 무시하고 픽셀 분류 예측의 조건부 확률 p(c|x)를 직접 추정합니다. 주류 소프트맥스 분류기는 본질적으로 차별적 분류기임을 알 수 있습니다.
판별 분류기는 구조가 간단하고, 최적화 목표가 바로 판별 오류를 줄이는 것을 목표로 하기 때문에 우수한 판별 성능을 얻을 수 있는 경우가 많습니다. 그러나 동시에 기존 작업의 관심을 끌지 못한 몇 가지 치명적인 단점이 있으며 이는 소프트맥스 분류기의 분류 성능 및 일반화에 큰 영향을 미칩니다.
- 우선 결정 경계만 모델링합니다. ; 픽셀 특징의 분포가 완전히 무시되므로 각 카테고리의 특정 특성을 모델링하고 활용할 수 없으며 표현 능력이 약화됩니다.
- 두 번째로, 단일 매개변수 쌍(w,b)을 사용하여 카테고리를 모델링합니다. 즉, 소프트맥스 분류기는 매우 강력하고 지나치게 단순화된 가정에 의존하므로 실제로는 실용적이지 않습니다. 유지하지 못하여 최적의 성능을 발휘하지 못합니다.
- 마지막으로, 소프트맥스 분류기의 출력은 실제 확률적 의미를 정확하게 반영할 수 없습니다. 최종 예측은 다른 카테고리와 비교할 때 참조로만 사용할 수 있습니다. 이는 다수의 주류 세분화 모델이 OOD 입력을 감지하기 어려운 근본적인 이유이기도 합니다.
이러한 문제에 대응하여 저자는 현재의 주류 차별적 패러다임을 재고해야 한다고 믿으며 이에 대한 해결책은 Generative Semantic Segmentation Model - GMMSeg 문서에 제시되어 있습니다.
생성 의미 분할 모델: GMMSeg
저자는 생성 모델의 관점에서 의미 분할 과정을 재구성했습니다. 분류 확률 p(c|x)를 직접 모델링하는 것과 비교하여 생성 분류기는 결합 분포 p(x, c)를 모델링한 다음 베이즈 정리를 사용하여 분류 확률을 도출합니다.
그 중 일반화를 위해 카테고리 사전 p(c)는 균등 분포로 설정되는 경우가 많으며, 픽셀 특성의 카테고리 조건부 분포 p(x|c)를 어떻게 모델링할지가 현재 주요 이슈가 됩니다.
이 기사에서는 GMMSeg에서 가우스 혼합 모델을 사용하여 p(x|c)를 모델링합니다. 그 형식은 다음과 같습니다. 제한적 의 경우. 이를 바탕으로 이 기사에서는 최대 우도 추정을 사용하여 모델 매개변수를 최적화합니다.
고전적인 솔루션은 EM 알고리즘, 즉 F 함수의 2단계 단계적 최적화인 E-M을 교대로 실행하는 것입니다. :
가우스 혼합 모델의 최적화에 특정합니다. EM 알고리즘은 실제로 데이터 포인트가 E-단계의 각 하위 모델에 속할 확률을 재추정합니다. 즉, E-단계에서 픽셀에 대해 소프트 클러스터링을 수행한 다음 M-단계에서 클러스터링 결과를 사용하여 모델 매개변수를 다시 업데이트할 수 있습니다.
그러나 실제 응용에서 저자는 표준 EM 알고리즘이 느리게 수렴되고 최종 결과가 좋지 않다는 것을 발견했습니다. 저자는 EM 알고리즘이 매개변수 최적화의 초기값에 너무 민감하여 더 나은 국지적 극단점으로 수렴하기 어렵다고 의심합니다. 최적 전송 이론을 기반으로 한 일련의 최신 클러스터링 알고리즘에서 영감을 받아 저자는 혼합 모델 분포에 앞서 추가 균일성을 도입합니다.
이에 따라 매개변수 최적화 프로세스의 E - 단계는 제약된 모델로 변환됩니다.
이 프로세스는 클러스터링 프로세스에 등분할 제약 조건을 도입하는 것으로 직관적으로 이해할 수 있습니다. 클러스터링 프로세스 중에 데이터 포인트를 결정할 수 있습니다. 정도는 각 하위 모델에 균등하게 분배됩니다. . 이 제약 조건을 도입한 후 이 최적화 프로세스는 다음 공식에 나열된 최적 전송 문제와 동일합니다.
이 공식은 Sinkhorn-Knopp 알고리즘을 사용하여 빠르게 풀 수 있습니다. 전체 개선된 최적화 프로세스는 Sinkhorn EM으로 명명되었으며, 이는 일부 이론적 작업을 통해 표준 EM 알고리즘과 동일한 전역 최적 솔루션을 가지며 로컬 최적 솔루션에 빠질 가능성이 적다는 것이 입증되었습니다.
온라인 하이브리드 최적화
이후 전체 최적화 프로세스에서 기사는 온라인 하이브리드 최적화 모드를 사용합니다. 생성적 Sinkhorn EM을 통해 점진적으로 업데이트되는 기능 공간에서 가우스 혼합 분류기가 지속적으로 최적화됩니다. 전체 프레임워크의 또 다른 부분인 픽셀 특징 추출 부분인 판별적 교차 엔트로피 손실은 생성 분류기의 예측 결과를 기반으로 최적화에 사용됩니다. 두 부분은 교대로 최적화되고 서로 정렬되어 전체 모델이 긴밀하게 결합되고 엔드 투 엔드 교육이 가능해집니다.
이 프로세스에서 특징 추출 부분은 그라데이션 역전파를 통해서만 최적화됩니다. 생성 분류 프로세서 부분은 SinkhornEM을 통해서만 최적화됩니다. 전체 모델을 콤팩트하게 통합하고 판별 모델과 생성 모델의 장점을 상속할 수 있는 것이 바로 이러한 교대 최적화 설계입니다.
결국 GMMSeg는 생성적 분류 아키텍처와 온라인 하이브리드 훈련 전략의 이점을 활용하여 차별적 소프트맥스 분류기가 갖지 못한 장점을 보여줍니다.
- 첫째, 범용 아키텍처의 이점을 활용하는 GMMSeg는 대부분의 주류 분할 모델과 호환됩니다. 즉, 분류에 소프트맥스를 사용하는 모델과 호환됩니다. 기존 모델 성능을 고통 없이 향상하려면 차별적인 소프트맥스 분류기만 교체하면 됩니다.
- 둘째, GMMSeg는 하이브리드 훈련 모드를 적용하여 생성 분류기와 판별 분류기의 장점을 결합하고, 소프트맥스가 클래스 내 변화를 모델링할 수 없는 문제를 어느 정도 해결하여 판별 성능을 크게 향상시킵니다.
- 셋째, GMMSeg는 픽셀 특징의 분포, 즉 p(x|c)를 명시적으로 모델링합니다. GMMSeg는 샘플이 각 카테고리에 속할 확률을 직접 제공할 수 있으므로 보이지 않는 OOD 데이터를 자연스럽게 처리할 수 있습니다. .
실험 결과
실험 결과는 CNN 아키텍처 기반이든 Transformer 아키텍처 기반이든 GMMSeg가 널리 사용되는 의미론적 분할 데이터 세트(ADE20K, Cityscapes, COCO-Stuff) 성능 향상에 대해 안정적이고 명확한 결과를 얻을 수 있음을 보여줍니다. .
또한 이상치 분할 작업에서는 닫힌 집합 작업에서 훈련된 모델을 수정할 필요가 없습니다. 즉, 일반 의미론적 분할 작업을 사용할 수 있습니다. 모든 일반적인 평가에서 지표 측면에서는 특별한 후처리가 필요한 다른 방법을 능가합니다.
위 내용은 생성적 의미 분할의 새로운 패러다임인 GMMSeg는 닫힌 집합 인식과 열린 집합 인식을 모두 처리할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

AI는 실제로 수학을 변화시키고 있습니다. 최근 이 문제에 주목하고 있는 타오저쉬안(Tao Zhexuan)은 '미국수학회지(Bulletin of the American Mathematical Society)' 최신호를 게재했다. '기계가 수학을 바꿀 것인가?'라는 주제를 중심으로 많은 수학자들이 그들의 의견을 표현했습니다. 저자는 필즈상 수상자 Akshay Venkatesh, 중국 수학자 Zheng Lejun, 뉴욕대학교 컴퓨터 과학자 Ernest Davis 등 업계의 유명 학자들을 포함해 강력한 라인업을 보유하고 있습니다. AI의 세계는 극적으로 변했습니다. 이 기사 중 상당수는 1년 전에 제출되었습니다.

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

오늘 저는 시계열 예측 성능을 향상시키기 위해 잠재 공간에서 시계열 데이터를 대규모 자연어 처리(NLP) 모델과 정렬하는 방법을 제안하는 코네티컷 대학의 최근 연구 작업을 공유하고 싶습니다. 이 방법의 핵심은 잠재 공간 힌트(프롬프트)를 사용하여 시계열 예측의 정확성을 높이는 것입니다. 논문 제목: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting 다운로드 주소: https://arxiv.org/pdf/2403.05798v1.pdf 1. 큰 문제 배경 모델

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.
