인간은 항상 로봇이 인간의 삶과 업무 처리를 도울 수 있다는 꿈을 꾸어왔습니다. “에어컨 온도 좀 낮춰주세요”, “쇼핑몰 홈페이지 작성 도와주세요”까지 OpenAI가 출시한 홈 어시스턴트와 코파일럿을 통해 최근 몇 년간 현실이 되었습니다.
GPT-4의 출현은 시각적 이해에서 다중 모드 대형 모델의 잠재력을 더욱 보여줍니다. 오픈 소스 중소형 모델의 경우 LLAVA와 minigpt-4가 잘 작동하며 사진을 보고 채팅할 수 있으며 음식 사진에서 레시피를 추측할 수도 있습니다. 그러나 이러한 모델은 실제 구현에서 여전히 중요한 문제에 직면해 있습니다. 정확한 위치 지정 기능이 없고, 그림에서 개체의 특정 위치를 제공할 수 없으며, 특정 개체를 감지하기 위한 복잡한 인간 지시를 이해할 수 없기 때문에 종종 인식할 수 없습니다. 특정 작업을 실행합니다. 실제 시나리오에서 사람들은 복잡한 문제에 직면하게 되는데, 스마트 어시스턴트에게 사진을 찍어 정답을 요구할 수 있다면 이러한 "사진 및 질문" 기능은 정말 멋질 것입니다.
"사진 및 질문" 기능을 실현하려면 로봇이 다양한 능력을 갖추어야 합니다.
1. 언어 이해 능력: 인간의 의도를 듣고 이해할 수 있음
2. 보이는 그림 속의 사물을 이해할 수 있습니다
3. 상식적인 추론 능력: 복잡한 인간의 의도를 위치를 찾을 수 있는 정확한 대상으로 변환할 수 있습니다
4. 그림 현재 소수의 대형 모델(예: Google PaLM-E)만이 객체
에 해당하는 이 네 가지 기능을 갖추고 있습니다. 그러나 홍콩과기대와 홍콩대학교 연구진은 300만 개의 매개변수만 미세 조정하면 모델이 복잡한 추론과 로컬을 쉽게 보유할 수 있는 완전 오픈 소스 모델 DetGPT(전체 이름 탐지GPT)를 제안했습니다. 객체 위치 지정 기능을 갖추고 있으며 대부분의 장면에 대규모로 일반화될 수 있습니다. 이는 모델이 자신의 지식을 바탕으로 추론하여 인간의 추상적인 지시를 이해하고 그림에서 인간이 관심을 갖는 대상을 쉽게 식별할 수 있다는 것을 의미합니다! 그들은 모델을 "사진 및 질문" 데모로 만들었으며 온라인으로 체험해 볼 수 있습니다: https://detgpt.github.io/
DetGPT를 사용하면 사용자가 필요 없이 자연어로 모든 것을 조작할 수 있습니다. 번거로운 명령이나 인터페이스의 경우. 동시에 DetGPT는 지능적인 추론과 표적 탐지 기능도 갖추고 있어 사용자의 요구와 의도를 정확하게 이해할 수 있습니다. 예를 들어, 인간이 “찬 음료를 마시고 싶다”라는 구두 명령을 보내면, 로봇은 현장에서 먼저 차가운 음료를 검색하지만 찾지 못한다. 그래서 '현장에 찬 음료가 없는데 어디서 찾을 수 있지?'라고 생각하기 시작했습니다. 강력한 상식추리모델을 통해 냉장고가 생각나서 현장을 스캔해서 냉장고를 발견하고, 음료수가 있는 위치를 잠그는 데 성공!
여름에 목이 말랐는데 사진 속 얼음물은 어디에 있나요? DetGPT 이해하기 쉽다 냉장고 찾기:
내일 일찍 일어나고 싶나요? DetGPT 간편 선택 전자 알람시계:
혈압이 높고 쉽게 피곤하시나요? 과일 시장에 갔는데 어떤 과일을 사야 고혈압을 완화할 수 있는지 모르시나요? DetGPT는 영양 교사 역할을 합니다.
Zelda 게임을 지울 수 없나요? DetGPT는 변장한 딸 왕국 레벨을 통과하는 데 도움이 됩니다:
사진의 시야 안에는 어떤 위험한 것들이 있나요? DetGPT가 여러분의 안전 책임자가 됩니다.
사진 속 어떤 품목이 어린이에게 위험한가요? DetGPT는 여전히 괜찮습니다.
주목할 만한 새로운 방향: 상식적인 추론을 사용하여 더욱 정확한 개방형 표적 탐지를 달성합니다.
전통적인 탐지 작업에서는 탐지를 위해 가능한 개체 범주를 미리 설정해야 합니다. 그러나 감지할 물체를 정확하고 포괄적으로 설명하는 것은 인간에게 비우호적이거나 심지어 비현실적입니다. 구체적으로, (1) 제한된 기억/지식으로 인해 사람들은 자신이 감지하고 싶은 대상을 항상 정확하게 표현할 수 없습니다. 예를 들어, 의사는 고혈압이 있는 사람에게 칼륨을 보충하기 위해 더 많은 과일을 섭취할 것을 권장하지만 어떤 과일에 칼륨이 풍부한지 알지 못하면 모델이 감지할 특정 과일 이름을 지정할 수 없습니다. 인간은 사진만 찍으면 모델 자체가 칼륨이 풍부한 과일을 생각하고 추론하고 감지합니다. (2) 인간이 예시할 수 있는 대상 범주는 포괄적이지 않습니다. 예를 들어 공공장소에서 공공질서에 어긋나는 행동을 감시한다면 인간은 칼을 쥐거나 담배를 피우는 것과 같은 몇 가지 시나리오만 나열할 수도 있지만, 공공질서에 어긋나는 행동을 탐지하는 문제를 직접 넘겨준다면, 공공질서'를 탐지 모델에 적용하는 경우, 모델이 스스로 생각하고 자신의 지식을 바탕으로 추론을 하면 더 많은 나쁜 행동을 포착하고 탐지해야 할 관련 카테고리를 더 많이 일반화할 수 있습니다. 결국, 평범한 인간이 이해하는 지식은 제한되어 있고, 인용할 수 있는 객체의 종류도 제한되어 있습니다. 하지만 도움과 추론을 위한 ChatGPT와 같은 두뇌가 있다면 인간이 주어야 하는 지시는 훨씬 간단해질 것이며, 얻은 답변은 훨씬 더 정확하고 포괄적일 수도 있습니다.
홍콩과기대와 홍콩대학교 연구진은 인간 지시의 추상성과 한계를 바탕으로 '추론 표적 탐지'의 새로운 방향을 제시했습니다. 간단히 말해서, 인간은 몇 가지 추상적인 작업을 제공하고, 모델은 그림 속 어떤 객체가 이 작업을 완료할 수 있는지 자체적으로 이해하고 추론하고 이를 감지할 수 있습니다. 간단한 예를 들자면, 사람이 "찬 음료를 마시고 싶은데 어디서 찾을 수 있나요?"라고 설명하면 모델은 주방 사진을 보고 "냉장고"를 감지할 수 있습니다. 이 주제에서는 다중 모달 모델의 이미지 이해 기능과 대규모 언어 모델에 저장된 풍부한 지식의 완벽한 조합이 필요하며 이를 세밀한 감지 작업 시나리오에서 사용합니다. 즉, 언어 모델의 두뇌를 사용하여 인간의 추상 지침을 이해하고 정확하게 이해합니다. 미리 설정된 개체 범주 없이 사진에서 사람의 관심을 끄는 개체를 찾습니다.
"추론적 표적 탐지"는 어려운 문제입니다. 탐지기는 사용자의 대략적이고 추상적인 지시를 이해하고 추론해야 할 뿐만 아니라 현재 보이는 시각적 정보를 분석하여 표적을 찾아야 하기 때문입니다. . 대상 개체 밖으로. 이러한 방향으로 HKUST와 HKU의 연구원들은 몇 가지 예비 조사를 수행했습니다. 구체적으로 사전 훈련된 시각적 인코더(BLIP-2)를 활용하여 이미지 시각적 특징을 얻고 정렬 기능을 통해 시각적 특징을 텍스트 공간에 정렬합니다. 대규모 언어 모델(Robin/Vicuna)을 사용하여 사용자 질문을 이해하고 표시된 시각적 정보를 결합하여 사용자가 실제로 관심을 갖는 개체에 대해 추론합니다. 그런 다음 특정 위치를 예측하기 위해 객체 이름이 사전 훈련된 감지기(Grouding-DINO)에 입력됩니다. 이러한 방식으로 모델은 사용자의 어떠한 지시에 따라 사진을 분석하고 사용자가 관심 있는 객체의 위치를 정확하게 예측할 수 있습니다.
여기서 어려운 점은 모델이 모델의 원래 기능을 최대한 손상시키지 않고 다양한 특정 작업에 대한 작업별 출력을 달성할 수 있어야 한다는 점에 주로 있다는 점에 주목할 가치가 있습니다. 이미지와 사용자 지시에 대한 이해를 전제로 언어 모델이 특정 패턴을 따르도록 유도하고 추론을 수행하며 대상 탐지 형식에 맞는 출력을 생성하기 위해 연구팀은 ChatGPT를 사용하여 크로스 모달 지시 데이터를 생성하여 정밀한 모델을 조정하세요. 특히 5,000개의 Coco 이미지를 기반으로 ChatGPT를 활용하여 30,000개의 크로스 모달 이미지-텍스트 미세 조정 데이터 세트를 만들었습니다. 훈련 효율성을 높이기 위해 다른 모델 매개변수를 수정하고 교차 모달 선형 매핑만 학습했습니다. 실험 결과는 선형 레이어만 미세 조정하더라도 언어 모델이 세밀한 이미지 특징을 이해하고 특정 패턴을 따라 추론 기반 이미지 감지 작업을 수행할 수 있음을 입증하여 뛰어난 성능을 보여줍니다.
이 연구 주제는 큰 잠재력을 가지고 있습니다. 이 기술을 바탕으로 가정용 로봇 분야는 더욱 빛날 것입니다. 집에 있는 사람들은 추상적이거나 거친 음성 지시를 통해 로봇이 필요한 항목을 이해하고 식별하고 위치를 파악하고 관련 서비스를 제공할 수 있습니다. 산업용 로봇 분야에서 이 기술은 무한한 활력을 가질 것입니다. 산업용 로봇은 인간 작업자와 보다 자연스럽게 협력하고, 작업자의 지시와 요구 사항을 정확하게 이해하며, 지능적인 의사 결정 및 운영을 달성할 수 있습니다. 생산 라인에서 인간 작업자는 거친 음성 지시나 텍스트 입력을 사용하여 로봇이 처리해야 할 품목을 자동으로 이해하고 식별하고 찾을 수 있도록 하여 생산 효율성과 품질을 향상시킬 수 있습니다.
자체 추론 능력을 갖춘 표적 탐지 모델을 기반으로 보다 지능적이고 자연스러우며 효율적인 로봇을 개발하여 인간에게 보다 편리하고 효율적이며 인간적인 서비스를 제공할 수 있습니다. 전망이 넓은 지역입니다. 또한 더 많은 연구자들의 관심과 추가 탐구가 필요합니다.
DetGPT는 여러 언어 모델을 지원하며 Robin-13B 및 Vicuna-13B 언어 모델을 기반으로 검증되었다는 점을 언급할 가치가 있습니다. Robin 시리즈 언어 모델은 홍콩 과학 기술 대학의 LMFlow 팀(https://github.com/OptimalScale/LMFlow)에서 훈련한 대화 모델로, 다중 언어 능력 평가 벤치마크에서 Vicuna와 비슷한 결과를 얻었습니다. (모델 다운로드: https://github.com/OptimalScale/LMFlow#model-zoo). Heart of the Machine은 이전에 LMFlow 팀이 소비자 그래픽 카드 3090에서 단 5시간 만에 독점적인 ChatGPT를 훈련할 수 있다고 보고했습니다. 오늘 이 팀과 HKU NLP 연구소는 우리에게 또 다른 다중 모드 놀라움을 가져왔습니다.
위 내용은 사진을 읽고, 채팅하고, 교차 모달 추론 및 포지셔닝을 수행할 수 있는 DetGPT는 복잡한 시나리오를 구현하기 위해 여기에 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!