사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.-일체 포함-php.cn

DetGPT에는 어떤 기능이 있나요?

방법 소개

집

기술 주변기기

일체 포함

사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 11, 2023 pm 11:28 PM

ai 모델

인간은 항상 로봇이 인간의 삶과 업무 처리를 도울 수 있다는 꿈을 꾸어왔습니다. “에어컨 온도 좀 낮춰주세요”, “쇼핑몰 홈페이지 작성 도와주세요”까지 OpenAI가 출시한 홈 어시스턴트와 코파일럿을 통해 최근 몇 년간 현실이 되었습니다.

GPT-4의 출현은 시각적 이해에서 다중 모드 대형 모델의 잠재력을 더욱 보여줍니다. 오픈 소스 중소형 모델의 경우 LLAVA와 minigpt-4가 잘 작동하며 사진을 보고 채팅할 수 있으며 음식 사진에서 레시피를 추측할 수도 있습니다. 그러나 이러한 모델은 실제 구현에서 여전히 중요한 문제에 직면해 있습니다. 정확한 위치 지정 기능이 없고, 그림에서 개체의 특정 위치를 제공할 수 없으며, 특정 개체를 감지하기 위한 복잡한 인간 지시를 이해할 수 없기 때문에 종종 인식할 수 없습니다. 특정 작업을 실행합니다. 실제 시나리오에서 사람들은 복잡한 문제에 직면하게 되는데, 스마트 어시스턴트에게 사진을 찍어 정답을 요구할 수 있다면 이러한 "사진 및 질문" 기능은 정말 멋질 것입니다.

"사진 및 질문" 기능을 실현하려면 로봇이 다양한 능력을 갖추어야 합니다.

1. 언어 이해 능력: 인간의 의도를 듣고 이해할 수 있음

2. 보이는 그림 속의 사물을 이해할 수 있습니다

3. 상식적인 추론 능력: 복잡한 인간의 의도를 위치를 찾을 수 있는 정확한 대상으로 변환할 수 있습니다

4. 그림 현재 소수의 대형 모델(예: Google PaLM-E)만이 객체

에 해당하는 이 네 가지 기능을 갖추고 있습니다. 그러나 홍콩과기대와 홍콩대학교 연구진은 300만 개의 매개변수만 미세 조정하면 모델이 복잡한 추론과 로컬을 쉽게 보유할 수 있는 완전 오픈 소스 모델 DetGPT(전체 이름 탐지GPT)를 제안했습니다. 객체 위치 지정 기능을 갖추고 있으며 대부분의 장면에 대규모로 일반화될 수 있습니다. 이는 모델이 자신의 지식을 바탕으로 추론하여 인간의 추상적인 지시를 이해하고 그림에서 인간이 관심을 갖는 대상을 쉽게 식별할 수 있다는 것을 의미합니다! 그들은 모델을 "사진 및 질문" 데모로 만들었으며 온라인으로 체험해 볼 수 있습니다: https://detgpt.github.io/

DetGPT를 사용하면 사용자가 필요 없이 자연어로 모든 것을 조작할 수 있습니다. 번거로운 명령이나 인터페이스의 경우. 동시에 DetGPT는 지능적인 추론과 표적 탐지 기능도 갖추고 있어 사용자의 요구와 의도를 정확하게 이해할 수 있습니다. 예를 들어, 인간이 “찬 음료를 마시고 싶다”라는 구두 명령을 보내면, 로봇은 현장에서 먼저 차가운 음료를 검색하지만 찾지 못한다. 그래서 '현장에 찬 음료가 없는데 어디서 찾을 수 있지?'라고 생각하기 시작했습니다. 강력한 상식추리모델을 통해 냉장고가 생각나서 현장을 스캔해서 냉장고를 발견하고, 음료수가 있는 위치를 잠그는 데 성공!

사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

오픈 소스 코드: https://www.php.cn/link/10eb6500bd1e4a3704818012a1593cc3
데모 온라인 평가판: https://detgpt.github. io/

여름에 목이 말랐는데 사진 속 얼음물은 어디에 있나요? DetGPT 이해하기 쉽다 냉장고 찾기:

사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

내일 일찍 일어나고 싶나요? DetGPT 간편 선택 전자 알람시계:

사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

혈압이 높고 쉽게 피곤하시나요? 과일 시장에 갔는데 어떤 과일을 사야 고혈압을 완화할 수 있는지 모르시나요? DetGPT는 영양 교사 역할을 합니다.

사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

Zelda 게임을 지울 수 없나요? DetGPT는 변장한 딸 왕국 레벨을 통과하는 데 도움이 됩니다:

사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

사진의 시야 안에는 어떤 위험한 것들이 있나요? DetGPT가 여러분의 안전 책임자가 됩니다.

사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

사진 속 어떤 품목이 어린이에게 위험한가요? DetGPT는 여전히 괜찮습니다.

DetGPT에는 어떤 기능이 있나요?

그림 속 특정 사물을 이해하는 능력이 크게 향상되었습니다. 이전의 다중 모드 이미지-텍스트 대화 모델과 비교하여 단순히 전체 그림을 설명하는 것이 아니라 사용자 지시를 이해함으로써 그림에서 대상 개체를 검색하고 찾을 수 있습니다.
복잡한 인간의 지시를 이해하고 사용자의 질문 기준을 낮출 수 있습니다. 예를 들어, 모델은 "고혈압을 완화할 수 있는 음식을 그림에서 찾아보세요"라는 문제를 이해할 수 있습니다. 기존의 표적 탐지에는 인간이 알고 있는 답이 필요하며, 탐지 범주 "바나나"가 미리 설정되어 있습니다.
DetGPT는 기존 LLM 지식을 기반으로 추론하여 복잡한 작업을 해결할 수 있는 그래프에서 해당 개체를 정확하게 찾을 수 있습니다. "고혈압 완화 식품"과 같은 복잡한 작업에 사용됩니다. DetGPT는 고혈압을 완화할 수 있습니다. -> 칼륨은 고혈압을 완화할 수 있습니다. -> 바나나는 고혈압을 완화할 수 있습니다. -> 대상 바나나를 인식해야 합니다.
인간의 상식을 뛰어넘는 답변을 제공했습니다. 인간이 어떤 과일에 칼륨이 풍부한지 모르는 등 일부 흔하지 않은 문제의 경우 모델은 기존 지식을 기반으로 답할 수 있습니다.

주목할 만한 새로운 방향: 상식적인 추론을 사용하여 더욱 정확한 개방형 표적 탐지를 달성합니다.

사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

전통적인 탐지 작업에서는 탐지를 위해 가능한 개체 범주를 미리 설정해야 합니다. 그러나 감지할 물체를 정확하고 포괄적으로 설명하는 것은 인간에게 비우호적이거나 심지어 비현실적입니다. 구체적으로, (1) 제한된 기억/지식으로 인해 사람들은 자신이 감지하고 싶은 대상을 항상 정확하게 표현할 수 없습니다. 예를 들어, 의사는 고혈압이 있는 사람에게 칼륨을 보충하기 위해 더 많은 과일을 섭취할 것을 권장하지만 어떤 과일에 칼륨이 풍부한지 알지 못하면 모델이 감지할 특정 과일 이름을 지정할 수 없습니다. 인간은 사진만 찍으면 모델 자체가 칼륨이 풍부한 과일을 생각하고 추론하고 감지합니다. (2) 인간이 예시할 수 있는 대상 범주는 포괄적이지 않습니다. 예를 들어 공공장소에서 공공질서에 어긋나는 행동을 감시한다면 인간은 칼을 쥐거나 담배를 피우는 것과 같은 몇 가지 시나리오만 나열할 수도 있지만, 공공질서에 어긋나는 행동을 탐지하는 문제를 직접 넘겨준다면, 공공질서'를 탐지 모델에 적용하는 경우, 모델이 스스로 생각하고 자신의 지식을 바탕으로 추론을 하면 더 많은 나쁜 행동을 포착하고 탐지해야 할 관련 카테고리를 더 많이 일반화할 수 있습니다. 결국, 평범한 인간이 이해하는 지식은 제한되어 있고, 인용할 수 있는 객체의 종류도 제한되어 있습니다. 하지만 도움과 추론을 위한 ChatGPT와 같은 두뇌가 있다면 인간이 주어야 하는 지시는 훨씬 간단해질 것이며, 얻은 답변은 훨씬 더 정확하고 포괄적일 수도 있습니다.

홍콩과기대와 홍콩대학교 연구진은 인간 지시의 추상성과 한계를 바탕으로 '추론 표적 탐지'의 새로운 방향을 제시했습니다. 간단히 말해서, 인간은 몇 가지 추상적인 작업을 제공하고, 모델은 그림 속 어떤 객체가 이 작업을 완료할 수 있는지 자체적으로 이해하고 추론하고 이를 감지할 수 있습니다. 간단한 예를 들자면, 사람이 "찬 음료를 마시고 싶은데 어디서 찾을 수 있나요?"라고 설명하면 모델은 주방 사진을 보고 "냉장고"를 감지할 수 있습니다. 이 주제에서는 다중 모달 모델의 이미지 이해 기능과 대규모 언어 모델에 저장된 풍부한 지식의 완벽한 조합이 필요하며 이를 세밀한 감지 작업 시나리오에서 사용합니다. 즉, 언어 모델의 두뇌를 사용하여 인간의 추상 지침을 이해하고 정확하게 이해합니다. 미리 설정된 개체 범주 없이 사진에서 사람의 관심을 끄는 개체를 찾습니다.

방법 소개

"추론적 표적 탐지"는 어려운 문제입니다. 탐지기는 사용자의 대략적이고 추상적인 지시를 이해하고 추론해야 할 뿐만 아니라 현재 보이는 시각적 정보를 분석하여 표적을 찾아야 하기 때문입니다. . 대상 개체 밖으로. 이러한 방향으로 HKUST와 HKU의 연구원들은 몇 가지 예비 조사를 수행했습니다. 구체적으로 사전 훈련된 시각적 인코더(BLIP-2)를 활용하여 이미지 시각적 특징을 얻고 정렬 기능을 통해 시각적 특징을 텍스트 공간에 정렬합니다. 대규모 언어 모델(Robin/Vicuna)을 사용하여 사용자 질문을 이해하고 표시된 시각적 정보를 결합하여 사용자가 실제로 관심을 갖는 개체에 대해 추론합니다. 그런 다음 특정 위치를 예측하기 위해 객체 이름이 사전 훈련된 감지기(Grouding-DINO)에 입력됩니다. 이러한 방식으로 모델은 사용자의 어떠한 지시에 따라 사진을 분석하고 사용자가 관심 있는 객체의 위치를 정확하게 예측할 수 있습니다.

여기서 어려운 점은 모델이 모델의 원래 기능을 최대한 손상시키지 않고 다양한 특정 작업에 대한 작업별 출력을 달성할 수 있어야 한다는 점에 주로 있다는 점에 주목할 가치가 있습니다. 이미지와 사용자 지시에 대한 이해를 전제로 언어 모델이 특정 패턴을 따르도록 유도하고 추론을 수행하며 대상 탐지 형식에 맞는 출력을 생성하기 위해 연구팀은 ChatGPT를 사용하여 크로스 모달 지시 데이터를 생성하여 정밀한 모델을 조정하세요. 특히 5,000개의 Coco 이미지를 기반으로 ChatGPT를 활용하여 30,000개의 크로스 모달 이미지-텍스트 미세 조정 데이터 세트를 만들었습니다. 훈련 효율성을 높이기 위해 다른 모델 매개변수를 수정하고 교차 모달 선형 매핑만 학습했습니다. 실험 결과는 선형 레이어만 미세 조정하더라도 언어 모델이 세밀한 이미지 특징을 이해하고 특정 패턴을 따라 추론 기반 이미지 감지 작업을 수행할 수 있음을 입증하여 뛰어난 성능을 보여줍니다.

이 연구 주제는 큰 잠재력을 가지고 있습니다. 이 기술을 바탕으로 가정용 로봇 분야는 더욱 빛날 것입니다. 집에 있는 사람들은 추상적이거나 거친 음성 지시를 통해 로봇이 필요한 항목을 이해하고 식별하고 위치를 파악하고 관련 서비스를 제공할 수 있습니다. 산업용 로봇 분야에서 이 기술은 무한한 활력을 가질 것입니다. 산업용 로봇은 인간 작업자와 보다 자연스럽게 협력하고, 작업자의 지시와 요구 사항을 정확하게 이해하며, 지능적인 의사 결정 및 운영을 달성할 수 있습니다. 생산 라인에서 인간 작업자는 거친 음성 지시나 텍스트 입력을 사용하여 로봇이 처리해야 할 품목을 자동으로 이해하고 식별하고 찾을 수 있도록 하여 생산 효율성과 품질을 향상시킬 수 있습니다.

자체 추론 능력을 갖춘 표적 탐지 모델을 기반으로 보다 지능적이고 자연스러우며 효율적인 로봇을 개발하여 인간에게 보다 편리하고 효율적이며 인간적인 서비스를 제공할 수 있습니다. 전망이 넓은 지역입니다. 또한 더 많은 연구자들의 관심과 추가 탐구가 필요합니다.

DetGPT는 여러 언어 모델을 지원하며 Robin-13B 및 Vicuna-13B 언어 모델을 기반으로 검증되었다는 점을 언급할 가치가 있습니다. Robin 시리즈 언어 모델은 홍콩 과학 기술 대학의 LMFlow 팀(https://github.com/OptimalScale/LMFlow)에서 훈련한 대화 모델로, 다중 언어 능력 평가 벤치마크에서 Vicuna와 비슷한 결과를 얻었습니다. (모델 다운로드: https://github.com/OptimalScale/LMFlow#model-zoo). Heart of the Machine은 이전에 LMFlow 팀이 소비자 그래픽 카드 3090에서 단 5시간 만에 독점적인 ChatGPT를 훈련할 수 있다고 보고했습니다. 오늘 이 팀과 HKU NLP 연구소는 우리에게 또 다른 다중 모드 놀라움을 가져왔습니다.

위 내용은 사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7519

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Debian Readdir의 파일 정렬을 구현하는 방법 Apr 13, 2025 am 09:06 AM

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

데비안 아파치 로그 레벨을 설정하는 방법 Apr 13, 2025 am 08:33 AM

이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

Debian Readdir의 성능을 최적화하는 방법 Apr 13, 2025 am 08:48 AM

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

데비안 메일 서버 방화벽 구성 팁 Apr 13, 2025 am 11:42 AM

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

데비안 메일 서버 SSL 인증서 설치 방법 Apr 13, 2025 am 11:39 AM

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 Apr 13, 2025 am 10:30 AM

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

데비안 syslog를 배우는 방법 Apr 13, 2025 am 11:51 AM

이 안내서는 데비안 시스템에서 syslog를 사용하는 방법을 배우도록 안내합니다. Syslog는 로깅 시스템 및 응용 프로그램 로그 메시지를위한 Linux 시스템의 핵심 서비스입니다. 관리자가 시스템 활동을 모니터링하고 분석하여 문제를 신속하게 식별하고 해결하는 데 도움이됩니다. 1. syslog에 대한 기본 지식 syslog의 핵심 기능에는 다음이 포함됩니다. 로그 메시지 중앙 수집 및 관리; 다중 로그 출력 형식 및 대상 위치 (예 : 파일 또는 네트워크) 지원; 실시간 로그보기 및 필터링 기능 제공. 2. Syslog 설치 및 구성 (RSYSLOG 사용) Debian 시스템은 기본적으로 RSYSLOG를 사용합니다. 다음 명령으로 설치할 수 있습니다 : sudoaptupdatesud

See all articles

사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.

DetGPT에는 어떤 기능이 있나요?

방법 소개

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제