알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.
한 번도 본 적이 없는 새로운 물체를 분할할 수도 있습니다.
DeepMind에서 개발한 새로운 학습 프레임워크입니다. 객체 검색 및 표현 네트워크(줄여서 Odin)
이전의 SSL(자기 지도 학습) 방법은 전체 장면을 잘 설명할 수 있지만 개별 개체를 구별합니다.
이제는 오딘 방식으로, 감독 없이도 해냅니다.
이미지에서 단일 개체를 구별하는 것은 쉽지 않습니다.
방법 원리
오딘 학습 프레임워크의 "자기 순환" 덕분에 이미지 속 다양한 개체를 잘 구분할 수 있습니다.
Odin은 함께 작동하는 두 가지 네트워크 세트, 즉 대상 검색 네트워크와 대상 표현 네트워크를 배웠습니다.
Object Discovery Network는 이미지의 잘린 부분을 입력으로 사용합니다. 잘린 부분은 이미지 영역의 대부분을 포함해야 하며, 이미지의 이 부분은 다른 측면에서 향상되지 않았습니다.
그런 다음 입력 이미지에서 생성된 특징 맵에 대해 클러스터 분석을 수행하고 다양한 특징에 따라 이미지의 각 개체를 분할합니다.
객체 표현 네트워크에 대한 입력 뷰는 객체 검색 네트워크에서 생성된 분할 이미지입니다.
뷰가 입력된 후 뒤집기, 흐리게 처리, 포인트 수준 색상 변환 등을 포함하여 별도로 무작위로 전처리됩니다.
이런 방법으로 두 세트의 마스크를 얻을 수 있습니다. 자르기의 차이점을 제외하고 다른 정보는 기본 이미지 내용과 동일합니다.
그런 다음 두 마스크는 대비 손실을 통해 이미지 속 물체를 더 잘 표현할 수 있는 기능을 학습합니다.
구체적으로, 대비 감지를 통해 네트워크는 다양한 대상 개체의 특성을 식별하도록 훈련되며, 관련 없는 다른 개체의 "부정적인" 특성도 많이 있습니다.
그런 다음 서로 다른 마스크에서 동일한 대상 개체의 유사성을 최대화하고 서로 다른 대상 개체 간의 유사성을 최소화한 다음 더 나은 분할을 수행하여 서로 다른 대상 개체를 구별합니다.
동시에 타겟 표현 네트워크의 매개변수를 기반으로 타겟 발견 네트워크가 정기적으로 업데이트됩니다.
궁극적인 목표는 이러한 객체 수준 속성이 다양한 뷰에서 대략 일정하게 유지되도록 하는 것입니다. 즉, 이미지에서 객체를 분리하는 것입니다.
그렇다면 Odin 학습 프레임워크는 얼마나 효과적인가요?
알 수 없는 객체를 매우 잘 구별할 수 있습니다.
Odin 방법은 장면 분할 시 사전 지식 없이도 전이 학습 성능이 매우 강력합니다.
먼저 Odin 방법을 사용하여 ImageNet 데이터세트를 사전 훈련한 다음 COCO 데이터세트와 PASCAL 및 Cityscapes 의미론적 분할에 미치는 영향을 평가합니다.
대상 객체는 이미 알려져 있습니다. 즉, 장면 분할을 수행할 때 사전 지식을 획득하는 방법이 사전 지식을 획득하지 않는 다른 방법보다 훨씬 좋습니다.
오딘 방식은 사전 지식을 얻지 못하더라도 사전 지식을 얻는 DetCon이나 ReLICv2보다 효과가 좋습니다.
또한 Odin 방법은 ResNet 모델뿐만 아니라 Swim Transformer와 같은 보다 복잡한 모델에도 적용할 수 있습니다.
데이터 측면에서 Odin 프레임워크 학습의 장점은 명백합니다. 그렇다면 시각적 이미지에서 Odin의 장점은 어디에 반영됩니까?
Odin을 사용하여 생성된 분할 이미지를 ImageNet 감독 네트워크(4번째 열)인 무작위로 초기화된 네트워크(3번째 열)에서 얻은 이미지와 비교합니다.
3열과 4열 모두 물체의 경계를 명확하게 묘사하지 못하거나 실제 물체의 일관성과 지역성이 부족한 반면 Odin에서 생성된 이미지 효과는 확실히 더 좋습니다.
참조 링크:
[1] https://twitter.com/DeepMind/status/1554467389290561541
[2] https://arxiv.org/abs/2203.08777
위 내용은 알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











1. 서론 모바일 기기의 대중화와 컴퓨팅 성능의 향상으로 이미지 분할 기술이 연구의 핫스팟이 되었습니다. MobileSAM(MobileSegmentAnythingModel)은 모바일 장치에 최적화된 이미지 분할 모델로, 제한된 리소스를 사용하는 모바일 장치에서 효율적으로 실행되도록 고품질 분할 결과를 유지하면서 계산 복잡성과 메모리 사용량을 줄이는 것을 목표로 합니다. 이 기사에서는 MobileSAM의 원리, 장점 및 적용 시나리오를 자세히 소개합니다. 2. MobileSAM 모델의 디자인 아이디어 MobileSAM 모델의 디자인 아이디어는 주로 다음과 같은 측면을 포함합니다: 경량 모델: 모바일 장치의 리소스 제한에 적응하기 위해 MobileSAM 모델은 경량 모델을 채택합니다.

인공지능 기술이 지속적으로 발전하면서 이미지 의미분할 기술은 이미지 분석 분야에서 인기 있는 연구 방향이 되었다. 이미지 의미론적 분할에서는 이미지의 다양한 영역을 분할하고 각 영역을 분류하여 이미지에 대한 포괄적인 이해를 얻습니다. Python은 잘 알려진 프로그래밍 언어입니다. 강력한 데이터 분석 및 데이터 시각화 기능으로 인해 인공 지능 기술 연구 분야에서 가장 먼저 선택됩니다. 이 기사에서는 Python에서 이미지 의미 분할 기술을 사용하는 방법을 소개합니다. 1. 전제 지식이 심화되고 있습니다.

C++에서 음성 인식 및 음성 합성을 구현하는 방법은 무엇입니까? 음성 인식 및 음성 합성은 오늘날 인공 지능 분야의 인기 있는 연구 방향 중 하나이며 많은 응용 시나리오에서 중요한 역할을 합니다. 이 글에서는 Baidu AI 개방형 플랫폼을 기반으로 C++를 사용하여 음성 인식 및 음성 합성 기능을 구현하는 방법을 소개하고 관련 코드 예제를 제공합니다. 1. 음성인식 음성인식은 사람의 말을 텍스트로 변환하는 기술로 음성비서, 스마트홈, 자율주행 등 다양한 분야에서 널리 활용되고 있다. 다음은 C++를 이용한 음성인식 구현이다.

가끔 대용량 파일을 다른 사람에게 보내야 할 때가 있는데 이메일 첨부 파일 크기 제한 등 전송 채널의 한계나 네트워크 상태가 좋지 않아 대용량 파일을 작은 크기로 나눠서 보내야 하는 경우가 있습니다. 파일을 여러 번 전송한 다음 이 작은 파일을 병합하세요. 오늘은 Python을 사용하여 대용량 파일을 분할하고 병합하는 방법을 공유하겠습니다. 아이디어 및 구현 텍스트 파일인 경우 줄 수에 따라 구분할 수 있습니다. 텍스트 파일이든 바이너리 파일이든 지정된 크기에 따라 분할될 수 있습니다. Python의 파일 읽기 및 쓰기 기능을 사용하면 파일을 분할 및 병합하고 각 파일의 크기를 설정한 다음 지정된 크기의 바이트를 읽어 새 파일에 쓸 수 있습니다. 바이트는 순서대로 파일에 기록됩니다.

인공지능 기술의 지속적인 발전으로 얼굴 검출 및 인식 기술은 일상생활에서 점점 더 널리 활용되고 있습니다. 얼굴 검출 및 인식 기술은 얼굴 접근 제어 시스템, 얼굴 결제 시스템, 얼굴 검색 엔진 등과 같은 다양한 경우에 널리 사용됩니다. 널리 사용되는 프로그래밍 언어인 Java는 얼굴 감지 및 인식 기술도 구현할 수 있습니다. 이 기사에서는 Java를 사용하여 얼굴 감지 및 인식 기술을 구현하는 방법을 소개합니다. 1. 얼굴 검출 기술 얼굴 검출 기술은 이미지나 동영상에서 얼굴을 검출하는 기술을 말합니다. J에서

Golang 및 FFmpeg: 오디오 합성 및 분할을 구현하는 방법, 구체적인 코드 예제가 필요합니다. 요약: 이 기사에서는 Golang 및 FFmpeg 라이브러리를 사용하여 오디오 합성 및 분할을 구현하는 방법을 소개합니다. 독자의 이해를 돕기 위해 몇 가지 구체적인 코드 예제를 사용하겠습니다. 소개: 오디오 처리 기술의 지속적인 개발로 인해 오디오 합성 및 분할은 일상 생활과 업무에서 일반적인 기능 요구 사항이 되었습니다. 빠르고 효율적이며 작성 및 유지 관리가 쉬운 프로그래밍 언어인 Golang은 FFmpeg와 결합되어 있습니다.

많은 친구들이 업무를 위해 화면을 녹화하거나 파일을 전송해야 하는데 때로는 파일이 너무 커서 문제가 많이 발생하는 경우가 있습니다. 다음은 너무 큰 파일의 문제에 대한 해결 방법을 살펴보겠습니다. win10 화면 녹화 파일이 너무 큰 경우 수행할 작업: 1. 소프트웨어 Format Factory를 다운로드하여 파일을 압축합니다. 다운로드 주소 >> 2. 메인 페이지에 들어가서 "Video-MP4" 옵션을 클릭하세요. 3. 변환 형식 페이지에서 "파일 추가"를 클릭하고 압축할 MP4 파일을 선택하세요. 4. 페이지에서 "출력 구성"을 클릭하여 출력 품질에 따라 파일을 압축합니다. 5. 드롭다운 구성 목록에서 "낮은 품질 및 크기"를 선택하고 "확인"을 클릭합니다. 6. "확인"을 클릭하면 비디오 파일 가져오기가 완료됩니다. 7. "시작"을 클릭하여 변환을 시작하세요. 8. 완료 후 다음을 수행할 수 있습니다.

교통표지판 인식 시스템이란? 영어로 교통 표지판 인식(Traffic Sign Recognition, 줄여서 TSR)인 자동차 안전 시스템의 교통 표지판 인식 시스템은 일반적인 교통 표지판(속도 제한, 주차, 유턴, 등.). 이 기능은 운전자에게 전방의 교통 신호를 경고하여 운전자가 이를 준수할 수 있도록 합니다. TSR 기능은 운전자가 정지 신호와 같은 교통법규를 위반하고 불법 좌회전이나 기타 우발적인 교통 위반을 피할 가능성을 줄여 안전성을 향상시킵니다. 이러한 시스템에는 감지 알고리즘을 강화하고 다양한 영역의 교통 표지판에 맞게 조정할 수 있는 유연한 소프트웨어 플랫폼이 필요합니다. 교통표지 인식 원리 교통표지 인식은 TS라고도 한다.
