'지식기반 이미지 문답'을 미세조정해도 소용없나요? Google, 검색 시스템 AVIS 출시: 감독 PALI를 능가하는 샘플은 거의 없으며 정확도는 3배입니다.-일체 포함-php.cn

대형 언어 모델(LLM)의 지원으로 이미지 설명, 시각적 질문 답변(VQA), 개방형 어휘 객체 감지 등 비전과 결합된 다중 모드 작업에서 중요한 결과를 얻었습니다. Progress

그러나 현재의 시각적 언어 모델(VLM)은 기본적으로 작업을 완료하기 위해 이미지의 시각적 정보만 사용하며, 질문 답변을 지원하기 위해 외부 지식이 필요한 informeek 및 OK-VQA와 같은 데이터 세트에서는 성능이 좋지 않은 경우가 많습니다.

지식기반 이미지 문답을 미세조정해도 소용없나요? Google, 검색 시스템 AVIS 출시: 감독 PALI를 능가하는 샘플은 거의 없으며 정확도는 3배입니다.

최근 Google은 LLM(대형 언어 모델)을 사용하여 API 호출, 출력 결과 분석, 의사 결정 및 기타 도구를 포함한 외부 도구 사용 전략을 동적으로 공식화하는 새로운 자율 시각적 정보 검색 방법인 AVIS를 출시했습니다. 이미지 Q&A는 중요한 지식을 제공합니다.

지식기반 이미지 문답을 미세조정해도 소용없나요? Google, 검색 시스템 AVIS 출시: 감독 PALI를 능가하는 샘플은 거의 없으며 정확도는 3배입니다.

문서를 읽으려면 다음 링크를 클릭하세요: https://arxiv.org/pdf/2306.08129.pdf

AVIS는 주로 세 가지 유형의 도구를 통합합니다:

1. image 시각적 정보를 추출하는 도구

2. 오픈 월드의 지식과 사실을 검색하는 웹 검색 도구

3. 시각적으로 유사한 이미지를 검색하는 데 사용할 수 있는 이미지 검색 도구

지식기반 이미지 문답을 미세조정해도 소용없나요? Google, 검색 시스템 AVIS 출시: 감독 PALI를 능가하는 샘플은 거의 없으며 정확도는 3배입니다.

언어 모델의 플래너는 각 단계에서 도구와 쿼리 결과를 선택하여 질문에 대한 답변을 동적으로 생성합니다.

인간의 의사결정 시뮬레이션

Infoseek 및 OK-VQA 데이터 세트의 많은 시각적 문제는 인간에게도 상당히 어렵고 일반적으로 다양한 외부 도구의 도움이 필요하므로 연구원은 먼저 사용자 설문 조사를 수행하고 인간을 관찰하기로 결정했습니다. 복잡한 시력 문제에 대한 솔루션.

지식기반 이미지 문답을 미세조정해도 소용없나요? Google, 검색 시스템 AVIS 출시: 감독 PALI를 능가하는 샘플은 거의 없으며 정확도는 3배입니다.

먼저 PALI, PALM 및 웹 검색을 포함하여 사용 가능한 도구 세트를 사용자에게 제공합니다. 다음으로, 이미지 검색 결과의 입력 이미지, 질문, 감지된 개체 자르기, 연결된 지식 그래프 개체, 유사 이미지 제목, 관련 상품 제목, 이미지 설명을 보여줍니다

다음으로 연구원들은 사용자 작업과 출력을 기록하고, 그리고 두 가지 방법을 사용하여 시스템이 대답하도록 안내합니다.

1. 서로 다른 상태와 각 상태에서 사용 가능한 작업 집합을 포함하는 사용자가 내린 결정의 순서를 분석하여 전환 그래프를 구축합니다.

지식기반 이미지 문답을 미세조정해도 소용없나요? Google, 검색 시스템 AVIS 출시: 감독 PALI를 능가하는 샘플은 거의 없으며 정확도는 3배입니다.

재작성된 내용: AVIS 변환 다이어그램 새로 디자인된 AVIS 변환 다이어그램은 AVIS 변환 프로세스를 설명하는 데 사용되는 그래픽 표현입니다. 이 다이어그램은 AVIS의 다양한 단계와 단계를 명확하게 설명하고 사용자에게 이해하기 쉬운 방식으로 제공합니다. 이 변환 다이어그램을 통해 사용자는 AVIS의 작동 원리와 작동 프로세스를 더 잘 이해할 수 있습니다. 이 차트의 디자인은 간결하고 명확하여 사용자가 AVIS 변환 프로세스를 빠르게 파악할 수 있습니다. 초보자와 숙련된 사용자 모두 이 AVIS 변환 다이어그램을 통해 변환 프로세스를 쉽게 이해하고 적용할 수 있습니다

예를 들어 시작 상태에서 시스템은 PALI 설명, PALI VQA 또는 타겟 감지의 세 가지 작업만 수행할 수 있습니다.

시스템의 성능과 효율성을 향상시키기 위해 인간 의사 결정의 예를 사용하여 계획자와 추론자가 관련 컨텍스트 인스턴스와 상호 작용하도록 안내할 수 있습니다.

전체 프레임워크

AVIS 접근 방식은 동적 결정을 채택합니다. -시각적 정보에 대한 쿼리에 응답하도록 설계된 전략 수립

시스템은 세 가지 주요 구성 요소로 구성됩니다.

다시 작성해야 하는 내용은 다음과 같습니다. 1. 처리해야 하는 적절한 API 호출 및 쿼리를 포함하여 후속 작업을 결정하는 데 사용되는 플래너(플래너)

2. 작업 메모리(작업 메모리) 작업 메모리, API 실행으로 얻은 결과 정보를 보관합니다.

3 추론기는 API 호출의 출력을 처리하는 데 사용되며 얻은 정보가 최종 응답을 생성하기에 충분한지 또는 추가 데이터 검색이 필요한지 여부를 결정할 수 있습니다.

어떤 도구를 결정해야 합니다. 매번 사용하는 쿼리뿐만 아니라 플래너는 현재 상태에 따라 일련의 작업을 수행하고 잠재적인 후속 조치도 제공합니다.

문제를 해결하기 위해 문제는 이전에 수행되어 작업 메모리에 저장된 작업을 제외하고 관련 없는 작업을 제거하기 위해 플래너가 전환 그래프를 참조해야 한다는 것입니다. ㅋㅋㅋ , 활성화할 다음 도구와 발송할 쿼리를 결정합니다.

지식기반 이미지 문답을 미세조정해도 소용없나요? Google, 검색 시스템 AVIS 출시: 감독 PALI를 능가하는 샘플은 거의 없으며 정확도는 3배입니다. 전체 설계 프로세스는 플래너에 대한 여러 번의 호출로 구동되어 동적 결정을 내리고 단계별 답변을 생성할 수 있습니다.

연구원은 추론기를 사용하여 도구 실행 결과를 분석하고, 유용한 정보를 추출하고, 도구 출력 범주 결정: 정보 제공, 비정보 제공 또는 최종 답변

지식기반 이미지 문답을 미세조정해도 소용없나요? Google, 검색 시스템 AVIS 출시: 감독 PALI를 능가하는 샘플은 거의 없으며 정확도는 3배입니다. 추론자가 "답변 제공" 결과를 반환하면 최종 결과로 직접 출력되고 결과가 정보가 없으면 작업이 종료됩니다. 추론자가 도구 출력이 유용하다고 생각하면 계획으로 돌아가서 다른 작업을 선택합니다. 상태를 수정하고 제어권을 다시 플래너에게 넘겨 새 상태에서 새로운 결정을 내립니다.

AVIS는 시각적 정보 검색 쿼리에 응답하기 위해 동적 의사 결정 전략을 채택합니다.

실험 결과 지식기반 이미지 문답을 미세조정해도 소용없나요? Google, 검색 시스템 AVIS 출시: 감독 PALI를 능가하는 샘플은 거의 없으며 정확도는 3배입니다.

다시 작성해야 할 사항은 다음과 같습니다. 도구 세트

PALI 17B 모델 사용 , 이미지 설명 모델은 입력 이미지 및 감지된 개체 잘린 이미지에 대한 설명을 생성할 수 있습니다. 시각적 질문 응답 모델, PALI 17B VQA 모델을 사용하여 이미지와 질문을 입력으로, 텍스트 기반 답변을 출력으로 사용합니다.

객체 감지: 높은 신뢰도 임계값을 사용하여 카테고리별 Google Lens API에서 제공하는 Open Images 데이터세트의 상위 집합에 대해 학습된 객체 감지기를 사용하며 입력 이미지에서 최상위 감지 상자만 유지합니다.

Google 이미지 검색을 사용하여 감지된 상자와 관련된 이미지 자르기 정보 얻기

결정을 내릴 때 기획자는 각 정보에 수백 개의 토큰이 포함될 수 있으므로 각 정보의 활용을 별도의 작업으로 처리합니다. 복잡한 처리와 추론.

경우에 따라 이미지에 거리 이름이나 브랜드 이름과 같은 텍스트 내용이 포함될 수 있습니다. Google Lens API의 광학 문자 인식(OCR) 기능을 사용하여 이러한 텍스트를 추출할 수 있습니다.

웹 검색에 Google 검색 API를 사용하면 텍스트 쿼리를 입력하고 관련 문서 링크 및 스니펫의 출력 결과를 얻을 수 있습니다. 또한 직접적인 답변과 입력 쿼리와 관련된 최대 5개의 질문이 포함된 지식 그래프 패널을 제공할 수 있습니다.

실험 결과

연구원들은 Infoseek 및 OK-VQA 데이터 세트 평가에서 AVIS 프레임워크에 대한 실험을 수행했습니다. OFA 및 PALI 모델과 같은 매우 강력한 시각적 언어 모델이라도 Infoseek 데이터 세트를 미세 조정한 후에는 높은 정확도를 달성할 수 없다는 결과를 볼 수 있습니다.

미세 조정 없이 AVIS 방법은 50.7%의 정확도를 성공적으로 달성했습니다.

OK-VQA 데이터 세트에서 AVIS 시스템은 몇 장의 설정에서 60.2%의 정확도를 달성했습니다. 미세 조정된 PALI 모델.

OK-VQA의 질의응답 사례는 대부분 세밀한 지식보다는 상식적인 지식에 의존하고 있기 때문에 이로 인해 성과의 차이가 발생할 수 있습니다. PALI는 외부 지식의 도움에 의존하지 않고 모델 매개변수에 인코딩된 일반 지식을 활용할 수 있습니다. 예 이 예는 다양한 단계에서 다양한 도구를 사용하는 AVIS의 유연성을 보여줍니다.

이 기사의 추론 설계를 통해 AVIS가 관련 없는 정보를 식별하고 이전 상태로 돌아가서 검색을 반복할 수 있다는 점은 주목할 가치가 있습니다.

예를 들어, 곰팡이 분류에 관한 두 번째 예에서 AVIS는 처음에 추론자를 선택하여 잘못된 결정을 내렸고 그것이 문제와 관련이 없다고 판단하여 AVIS가 다시 계획하도록 유도한 다음 개체를 성공적으로 선택했습니다. 그것은 문제와 관련된 거짓 칠면조 꼬리 곰팡이 관련 개체로 정답에 도달했습니다. Stereum

결론

연구원들은 다양한 외부 정보를 사용하여 지식에 답하기 위해 LLM을 조립 센터로 사용하는 새로운 방법인 AVIS를 제안했습니다. 도구 집중적인 시각적 문제.

이 접근 방식에서 연구자들은 사용자 연구에서 수집한 인간의 의사 결정 데이터를 기준으로 삼고 구조화된 프레임워크를 채택하며 LLM 기반 플래너를 사용하여 도구 선택 및 쿼리 형성을 동적으로 결정합니다

The LLM 기반 추론기는 시각적 질문에 답하는 데 필요한 모든 정보가 수집될 때까지 플래너와 추론기를 반복적으로 사용하여 다양한 도구를 선택함으로써 선택한 도구의 출력에서 주요 정보를 처리하고 추출할 수 있습니다.

위 내용은 '지식기반 이미지 문답'을 미세조정해도 소용없나요? Google, 검색 시스템 AVIS 출시: 감독 PALI를 능가하는 샘플은 거의 없으며 정확도는 3배입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!