화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.
이 기사에서는 머신러닝 분야 최고의 국제 학회인 AAAI 2023에서 채택된 "Improving Training and Inference of Face Recognition Models via Random 온도 Scaling" 논문을 소개합니다. 본 논문은 분류 손실 함수의 온도 조정 매개변수와 분류 불확실성 사이의 내부 관계를 확률론적 관점에서 혁신적으로 분석하여, 분류 손실 함수의 온도 조정 인자가 Gumbel 분포를 따르는 불확실성 변수의 척도 계수임을 밝혔습니다. 따라서 특징 추출의 신뢰성을 모델링하기 위해 RTS라는 새로운 훈련 프레임워크가 제안되었습니다. RTS 훈련 프레임워크를 기반으로 보다 신뢰할 수 있는 인식 모델이 훈련되어 훈련 프로세스가 더욱 안정적으로 이루어지고, 배포 중에 샘플 불확실성에 대한 측정 점수를 제공하여 불확도가 높은 샘플을 거부하고 보다 강력한 비전 인식 시스템을 구축하는 데 도움을 줍니다. 광범위한 실험을 통해 RTS는 견고한 시각적 인식 시스템을 구축하기 위해 불확실성 측정값을 안정적으로 훈련하고 출력할 수 있음을 보여줍니다. 주소 주소 : https://arxiv.org/abs/2212.01015
open 소스 모델 : https://modelscope.cn/models/damo/cv_ir_face-recognition - ood_rts/summary
- Background
- 불확실성 문제: 시각 인식 시스템은 일반적으로 실제 장면에서 다양한 간섭에 직면합니다. 예: 폐색(장식 또는 복잡한 전경), 이미지 흐림(초점 흐림 또는 동작 흐림), 극단적인 조명(노출 과다 또는 노출 부족 등). 이러한 간섭은 노이즈의 영향으로 요약될 수 있습니다. 또한 잘못 감지된 사진, 일반적으로 고양이 얼굴 또는 강아지 얼굴이 있습니다. 이러한 잘못 감지된 데이터를 OOD(Out-of-Distribution) 데이터라고 합니다. 시각적 인식의 경우 위에서 언급한 노이즈 및 OOD 데이터는 불확실성의 원인이 됩니다. 영향을 받은 샘플은 깊이 모델을 기반으로 추출된 특징에 불확실성을 중첩시켜 시각적 인식 시스템에 간섭을 일으킵니다. 예를 들어, 기본 라이브러리 이미지가 불확실한 간섭을 갖는 샘플로 오염되면 '특징 블랙홀'이 형성되어 시각 인식 시스템에 숨겨진 위험을 가져오게 됩니다. 따라서 표현 신뢰성을 모델링할 필요가 있습니다. 특성화 신뢰성 모델링 관련 작업
시각 인식 링크의 신뢰성을 제어하는 전통적인 방법은 독립적인 품질 모델을 통해 수행됩니다. 일반적인 이미지 품질 모델링 방법은 다음과 같습니다.
1. 주석 데이터를 수집하고 선명도, 교합 유무, 자세 등 품질에 영향을 미치는 특정 요소에 주석을 답니다. 2. 영향 요인의 라벨에 따라 품질 점수를 1부터 10까지 매핑합니다. 점수가 높을수록 품질이 좋은 것입니다. 구체적인 예는 아래 그림의 왼쪽 예를 참조하세요. .
3. 처음 두 단계에서 품질 점수 주석을 얻은 후 아래 그림의 오른쪽 예와 같이 배포 단계에서 품질 점수를 예측하기 위해 순서 회귀 학습을 수행합니다.
독립적인 품질 모델 솔루션은 시각적 인식 링크에 새로운 모델을 도입해야 하며, 훈련은 주석 정보에 의존합니다.
DUL
불확실성 모델링 방법에는 특징을 가우스 분포의 평균과 분산의 합으로 모델링하고 불확실성이 포함된 특징을 전송 후 변환하는 "얼굴 인식의 데이터 불확실성 학습"이 포함됩니다. 훈련을 위해 분류자에게 전달됩니다. 따라서 배포 단계에서 이미지 품질과 관련된 불확실성 점수를 얻을 수 있습니다.
DUL은 불확실성을 설명하기 위해 합산 방법을 사용하며, 노이즈 추정의 규모도 특정 유형의 데이터의 특성 분포와 밀접한 관련이 있습니다. 데이터 분포가 상대적으로 촘촘하면 DUL에서 추정한 노이즈의 규모도 상대적으로 작습니다. OOD 분야의 연구에서는 데이터 분포의 밀도가 OOD 식별을 위한 좋은 척도가 아니라는 점을 지적합니다.
GODIN
OOD 분야의 연구 "일반화된 오딘: 분포 외부 데이터로부터 학습하지 않고 분포 외부 이미지 검출"은 두 개의 독립적인 분기 h(x)를 사용하여 결합 확률 분포 형식을 사용하여 OOD 데이터를 처리합니다. (x) 분류 확률 값과 온도 조정 값을 각각 추정합니다.
온도 값은 확률 값으로 모델링되므로 범위가 0~1 사이로 제한되어 더 나은 온도 모델링을 제공하지 않습니다.
Method
위의 문제점과 관련 작업에 대응하여 본 논문에서는 온도 조정 인자와 분류 손실 함수의 불확실성 사이의 관계를 확률론적 관점에서 분석하고 RTS 훈련 프레임워크를 제안합니다.
확률적 관점에 따른 온도조절계수 분석
먼저 온도조절계수와 불확실성의 관계를 분석합니다. 불확실성 이 표준 Gumbel 분포를 따르는 확률 변수라고 가정하면 확률 밀도 함수는
로 쓸 수 있고 의 누적 분포 함수는
이며 확률은 의 값은 k 클래스로 분류됩니다.
위 수식에 을 대입하면 다음과 같은 결과를 얻을 수 있습니다.
으로 분류된다 k 클래스는 소프트맥스 함수를 따르는 점수이며, 동시에 t를 사용하여 불확실성의 규모를 조정할 수 있습니다. 즉, 표준 Gumbel 분포를 따릅니다.
수 있습니다. 이때 k 클래스로 분류된 확률 값은 t의 소프트맥스 함수 점수인 온도 조정 값과 일치함을 알 수 있다.
모델링 온도
분류에 대한 불확실성 추정의 영향을 줄이기 위해 온도 t는 1에 가까워야 하므로 온도 t를 독립 감마 분포 변수:
where
의 합으로 모델링합니다. t Obey
, beta = frac {alpha - 1}{v})$ 분포. v와 가 분포에 미치는 영향은 다음과 같습니다.
온도 모델링에 대한 제약 조건은 훈련 중에 다음 정규 항을 사용하여 구현됩니다.
훈련 방법
전체 알고리즘은 다음과 같이 구성됩니다.
더 자세한 분석과 이론적 증명은 논문을 참고해주세요.
Results
훈련 단계에서는 훈련 데이터에 얼굴 훈련 데이터만 포함됩니다. 잘못 감지된 고양이 얼굴과 개 얼굴의 OOD 데이터는 테스트 중 OOD 데이터의 인식 효과를 검증하는 데 사용되며 테스트는 훈련 프로세스의 여러 단계에서 OOD 샘플 불확실성의 동적 프로세스를 보여줍니다.
훈련 단계
배포 내 데이터(얼굴)와 배포 외 데이터(고양이 얼굴과 개 얼굴이 얼굴로 잘못 감지됨)의 불확실성을 서로 다른 에포크 번호의 학위 점수에서 도출합니다. 아래 그림을 보면 초기 단계의 모든 샘플의 불확실성 점수가 더 큰 값 근처에 분포되어 있음을 알 수 있으며, 훈련이 진행됨에 따라 OOD 샘플의 불확실성도 점차 증가하고, 얼굴 데이터의 불확실성도 점차 커지는 것을 알 수 있습니다. 감소하며, 얼굴 품질이 좋을수록 불확실성이 낮아집니다. 임계값을 설정하여 ID 데이터와 OOD 데이터를 구분할 수 있으며, 이미지 품질은 불확실성 점수에 반영됩니다.
훈련 단계에서 시끄러운 훈련 데이터에 대한 견고성을 설명합니다. 이 기사에서는 훈련 세트에 다양한 비율의 노이즈를 적용합니다. 노이즈 훈련 데이터의 다양한 비율을 기반으로 한 모델 인식 효과는 RTS가 노이즈 데이터를 기반으로 한 교육에서도 더 나은 인식 결과를 얻을 수 있음을 알 수 있습니다.
배포 단계
다음 그림은 배포 단계 중 RTS 프레임워크에서 얻은 불확실성 점수가 얼굴 품질과 높은 상관관계를 보여줍니다
동시에 품질이 낮은 샘플을 제거한 후의 오류 매칭 곡선이 벤치마크에 표시됩니다. 획득된 불확실성 점수를 바탕으로 벤치마크에서 불확실성이 높은 샘플을 불확실성이 높은 순으로 제거하고, 나머지 샘플의 오류 매칭 곡선을 그린다. 아래 그림에서 볼 수 있듯이 불확실성이 높은 샘플을 많이 필터링할수록 잘못된 일치 항목이 줄어들고, 동일한 개수의 불확실성 샘플을 제거하면 RTS의 잘못된 일치 항목이 줄어듭니다.
OOD 샘플에 대한 불확실성 점수의 식별 효과를 검증하기 위해 분포 내 데이터 세트(얼굴)와 분포 외 데이터 세트(고양이가 얼굴로 잘못 감지됨)를 구축했습니다. 얼굴과 개 얼굴을 테스트하는 동안). 데이터 샘플은 다음과 같습니다.
RTS의 효과를 두 가지 측면에서 설명합니다. 먼저, 불확실성의 분포도를 그려보세요. 아래 그림에서 볼 수 있듯이 RTS 방법은 OOD 데이터에 대해 강력한 식별력을 가지고 있습니다.
동시에 OOD 테스트 세트에 대한 ROC 곡선이 그려지고, ROC 기관의 AUC 값이 계산되어 RTS의 불확실성 점수가 OOD를 더 잘 식별할 수 있음을 알 수 있습니다. 데이터.
범용 인식 능력
벤치마크에서 범용 인식 기능을 테스트한 결과, RTS는 얼굴 인식 기능에 영향을 주지 않고 OOD 데이터의 인식 기능을 추가했습니다. RTS 알고리즘을 사용하면 식별 및 OOD 데이터 식별에서 균형 잡힌 결과를 얻을 수 있습니다.
application
이 문서의 모델은 Modelscope에서 오픈 소스로 제공되었습니다. 또한, CV 도메인의 오픈소스 무료 모델을 소개하고 싶습니다. 누구나 체험하고 다운로드할 수 있습니다. (대부분의 휴대폰에서 체험 가능): https://modelscope1. cn/models/damo/cv_resnet50_face-Detection_retinaface/ summary
2.https://modelscope.cn/models/damo/cv_resnet101_face-Detection_cvpr22papermogface/summary
3.https://modelscope.cn/models/ damo/cv_manual_face-Detection_tinymog/summary
4.https://modelscope.cn/models/damo/cv_manual_face-Detection_ulfd/summary
5.https://modelscope.cn/models/damo/cv_manual_face- detector_mtcnn/summary
6.https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
7.https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
8.https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
9.https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
10 .https://modelscope.cn/models /damo/cv_manual_facial-landmark-confidence_flcm/summary
11.https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
12 .https://modelscope.cn/models /damo/cv_resnet34_face-attribute-recognition_fairface/summary
위 내용은 화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

GEMM(일반 행렬 곱셈)은 많은 응용 프로그램과 알고리즘의 중요한 부분이며 컴퓨터 하드웨어 성능을 평가하는 중요한 지표 중 하나이기도 합니다. GEMM 구현에 대한 심층적인 연구와 최적화는 고성능 컴퓨팅과 소프트웨어와 하드웨어 시스템 간의 관계를 더 잘 이해하는 데 도움이 될 수 있습니다. 컴퓨터 과학에서 GEMM의 효과적인 최적화는 컴퓨팅 속도를 높이고 리소스를 절약할 수 있으며, 이는 컴퓨터 시스템의 전반적인 성능을 향상시키는 데 중요합니다. GEMM의 작동 원리와 최적화 방법에 대한 심층적인 이해는 현대 컴퓨팅 하드웨어의 잠재력을 더 잘 활용하고 다양하고 복잡한 컴퓨팅 작업에 대한 보다 효율적인 솔루션을 제공하는 데 도움이 될 것입니다. GEMM의 성능을 최적화하여

7월 29일, AITO Wenjie의 400,000번째 신차 출시 행사에 Huawei 전무이사이자 Terminal BG 회장이자 Smart Car Solutions BU 회장인 Yu Chengdong이 참석하여 연설을 했으며 Wenjie 시리즈 모델이 출시될 것이라고 발표했습니다. 올해 출시 예정 지난 8월 Huawei Qiankun ADS 3.0 버전이 출시되었으며, 8월부터 9월까지 순차적으로 업그레이드를 추진할 계획입니다. 8월 6일 출시되는 Xiangjie S9에는 화웨이의 ADS3.0 지능형 운전 시스템이 최초로 탑재됩니다. LiDAR의 도움으로 Huawei Qiankun ADS3.0 버전은 지능형 주행 기능을 크게 향상시키고, 엔드투엔드 통합 기능을 갖추고, GOD(일반 장애물 식별)/PDP(예측)의 새로운 엔드투엔드 아키텍처를 채택합니다. 의사결정 및 제어), 주차공간부터 주차공간까지 스마트 드라이빙의 NCA 기능 제공, CAS3.0 업그레이드

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

무엇? 주토피아는 국내 AI로 현실이 되는 걸까? 영상과 함께 노출된 것은 '켈링'이라는 국산 대형 영상세대 신형 모델이다. Sora는 유사한 기술 경로를 사용하고 자체 개발한 여러 기술 혁신을 결합하여 크고 합리적인 움직임뿐만 아니라 물리적 세계의 특성을 시뮬레이션하고 강력한 개념적 결합 능력과 상상력을 갖춘 비디오를 제작합니다. 데이터에 따르면 Keling은 최대 1080p의 해상도로 30fps에서 최대 2분의 초장 영상 생성을 지원하며 다양한 화면비를 지원합니다. 또 다른 중요한 점은 Keling이 실험실에서 공개한 데모나 비디오 결과 시연이 아니라 단편 비디오 분야의 선두주자인 Kuaishou가 출시한 제품 수준 애플리케이션이라는 점입니다. 더욱이 백지 작성이 아닌 실용성에 중점을 두고, 출시되자마자 온라인에 진출하는 데 중점을 두고 있다. 콰이잉에서는 커링의 대형 모델이 출시됐다.

최근 군계는 미군 전투기가 이제 AI를 활용해 완전 자동 공중전을 완수할 수 있다는 소식에 충격을 받았다. 네, 얼마 전 미군의 AI 전투기가 최초로 공개되면서 그 미스터리가 드러났습니다. 이 전투기의 정식 명칭은 VISTA(Variable Stability Flight Simulator Test Aircraft)로 미 공군 장관이 직접 조종해 일대일 공중전을 모의 실험한 것이다. 5월 2일, 미 공군 장관 프랭크 켄달(Frank Kendall)이 X-62AVISTA를 타고 에드워드 공군 기지에서 이륙했습니다. 1시간의 비행 동안 모든 비행 작업은 AI에 의해 자동으로 완료되었습니다. Kendall은 "지난 수십 년 동안 우리는 자율 공대공 전투의 무한한 잠재력에 대해 생각해 왔지만 항상 도달할 수 없는 것처럼 보였습니다."라고 말했습니다. 그러나 지금은,

Apple 16 시스템의 최고 버전은 iOS16.1.4입니다. iOS16 시스템의 최고 버전은 사람마다 다를 수 있으며 일상적인 사용 경험의 추가 및 개선도 많은 사용자로부터 호평을 받았습니다. Apple 16 시스템의 가장 좋은 버전은 무엇입니까? 답변: iOS16.1.4 iOS 16 시스템의 가장 좋은 버전은 사람마다 다를 수 있습니다. 공개 정보에 따르면 2022년에 출시된 iOS16은 매우 안정적이고 성능이 뛰어난 버전으로 평가되며, 사용자들은 전반적인 경험에 상당히 만족하고 있습니다. 또한, iOS16에서는 새로운 기능 추가와 일상 사용 경험 개선도 많은 사용자들에게 호평을 받고 있습니다. 특히 업데이트된 배터리 수명, 신호 성능 및 발열 제어 측면에서 사용자 피드백은 비교적 긍정적이었습니다. 그러나 iPhone14를 고려하면
