> 기술 주변기기 > 일체 포함 > ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

PHPz
풀어 주다: 2023-04-12 10:43:02
앞으로
1126명이 탐색했습니다.

​최근에는 질의응답 기술과 다중모달 이해 기술의 비약적인 발전으로 시각적 질의응답 과제(Visual Question Answering)가 점점 대중화되고 있습니다. VQA, CLEVER, Visual-7W 등 대규모 시각적 질의응답 데이터세트가 잇달아 출시되면서 시각적 질의응답 작업의 반복적 개발이 크게 촉진되었습니다. 그러나 현재 시각적 질의 응답 데이터의 대부분은 주석자가 사진을 보고 가상으로 디자인한 "그녀의 눈은 무슨 색인가요?"와 같은 인위적으로 합성된 질문입니다. 수동으로 생성된 데이터는 상대적으로 단순하고 품질이 낮으며 심지어 편향되어 있습니다. 따라서 본 연구에서는 QQ 브라우저 사용자의 실제 질문을 기반으로 한 대규모 중국어 기반 이미지 질문 및 답변 데이터 세트인 ChiQA를 제안합니다.

ChiQA에는 40,000개 이상의 실제 사용자 쿼리와 200,000개 이상의 질문-이미지 쌍이 포함되어 있습니다. 데이터와 일부 기본 모델이 GitHub에 게시되었습니다. 관련 연구가 CIKM2022 장문의 논문에 채택되었습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

논문 주소: https://arxiv.org/abs/2208.03030

Github 주소: https://github.com/benywon/ChiQA

싱글 비교 양식 질의응답 과제

ChiQA의 세 가지 특징

질문응답은 인공지능과 지능언어처리에 있어서 매우 중요한 업무 중 하나입니다. 최근에는 대규모 데이터 세트(SQuAD, NaturalQuestions 등)가 출시되고 사전 학습된 대규모 언어 모델(BERT, GPT 등)이 도입되면서 질문 및 답변 작업이 빠르게 발전했습니다. 그러나 현재 대부분의 질문 응답 작업은 단일 모달입니다. 즉, 질문, 리소스 및 답변이 모두 텍스트 기반입니다. 그러나 인지 지능과 실제 적용의 관점에서 볼 때 이미지와 같은 다중 모드 리소스는 더 풍부한 정보와 답변을 제공할 수 있는 경우가 많습니다. 예를 들어 다음과 같은 질문이 있습니다. iPhone13의 크기는 얼마입니까? 다양한 iPhone13 모델의 크기 비교 차트가 더 명확하고 직관적일 것입니다. 아래 그림과 같은 몇 가지 예도 있습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

그림 1: 사진을 사용하여 사용자 질문에 답변하는 데 적합한 몇 가지 예

최근 몇 년 동안 다중 사용자를 위한 질문 및 답변 데이터와 작업 -모달 이해가 지속적으로 개발되어 제안되었습니다. VQA1.0 및 2.0, CLEVR, GQA 등과 같은 대부분의 이미지 질문 및 답변 데이터 세트에서 시스템은 인위적으로 생성된 이미지나 실제 이미지를 주석자에게 제공하며 주석자는 특정 속성이나 엔터티를 대상으로 하는 일부 질문을 수동으로 작성해야 합니다. 하지만 이 데이터 수집 과정에는 필연적으로 많은 결함이 있습니다.

1) 모든 질문은 이미지에 따라 달라집니다. 즉, 주석자는 사진을 본 후 질문합니다. 대규모 데이터 구축 과정에서 인위적으로 생성된 질문은 다양성이 부족하고 주석자의 주관적 요인으로 인해 편향되는 경우가 많습니다. 먼저 리소스를 살펴본 다음 질문하는 이러한 종류의 데이터에 대해 훈련된 모델은 배경 리소스를 보지 않고 질문을 보면 매우 좋은 결과를 쉽게 얻을 수 있습니다.

2) 둘째, 전통적인 VQA 데이터에서는 대답은 종종 특정 영역에 대한 단순한 엔터티, 관계 또는 간단한 설명입니다. 그러나 실제 이미지 질문 및 답변 작업의 경우 많은 텍스트 답변이 필요하지 않습니다. 예를 들어 "알파카는 어떻게 생겼나요?"라는 질문의 경우 알파카의 모양을 설명하는 긴 답변을 제공하는 것은 매우 중복됩니다. 둘째, 이런 종류의 짧은 엔터티 설명은 주석 작성자가 로컬 관계에만 주의를 기울이고 실제 전체 구조에 대한 일부 정보에는 거의 주의를 기울이지 않게 만드는 경우가 많습니다.

3) 마지막으로 대부분의 이전 리소스는 영어에 초점을 맞추는 경향이 있습니다. 중국 도메인에는 이미지 질문과 답변 데이터가 거의 없습니다.

본 연구에서는 위의 문제점에 대응하여 대규모 중국어 이미지 질문 답변 데이터 세트인 ChiQA(중국어 이미지 질문 응답)를 제안합니다. 모바일 QQ 브라우저에서 사용자의 실제 검색어부터 시작하여 특정 API를 통해 여러 관련 사진을 검색한 후 사진이 질문에 완벽하게 답할 수 있는지 여부를 표시하기 위해 3단계 주석을 위해 전문 교육을 받은 주석자에게 사진을 전달했습니다( 2점). ), 부분적으로 답변한 경우(1점), 사용자의 질문에 답변할 수 없는 경우(0점)입니다. ChiQA에는 세 가지 주목할만한 기능이 있습니다:

  • 진짜 질문, 실제 그림: ChiQA의 그림은 임의의 사용자 쿼리에서 나옵니다. 이러한 쿼리는 오픈 도메인의 임의 사용자 쿼리입니다. 이러한 쿼리는 매우 다양하며 쿼리의 도메인 분포도 매우 넓습니다. 이러한 무작위 다양성 쿼리는 데이터의 질문이 편향되지 않도록 보장합니다.
  • 답변성: 질문 및 답변 작업의 경우 응답성은 매우 중요한 측면입니다. ChiQA에서는 주석 작성자에게 최종 답변을 요구하지 않습니다. 이로 인해 주석 작성자의 상식과 같은 추가적인 편견이 발생하는 경우가 많습니다. 대신, 우리는 응답성, 즉 이미지가 질문에 답할 수 있는지 여부에 중점을 둡니다. 이러한 응답성은 ChiQA 주석자가 쿼리와 이미지를 모두 이해할 수 있게 해줍니다.
  • 편향되지 않음: 무작위 쿼리에도 28의 법칙이 있기 때문에, 즉 빈도가 높은 일부 질문이나 단일 질문이 여러 번 나타나는 경향이 있습니다. 이러한 단순한 패턴이 데이터를 지배하여 진정한 교차 모달 이해에서 데이터를 편향시킵니다. 따라서 우리는 데이터 수집 과정에서 2단계 능동 학습 과정을 도입했습니다. 첫 번째 단계에서 무작위 쿼리 주석이 완료된 후 간단한 모델을 훈련한 다음 이 모델을 사용하여 "더 어려운" 모델을 선택했습니다. 2단계 주석 데이터의 데이터 풍부도와 난이도가 상대적으로 높습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

그림 2: ChiQA와 업계의 다른 이미지 질문 및 답변 데이터 비교

결국 우리는 40,000개 이상의 질문을 수집했으며 각 질문에는 약 5개의 관련 이미지가 있습니다. 즉, 총 질문 수는 그림 쌍 200,000개를 초과합니다. 각 질문에는 여러 개의 그림이 있으며 각 그림의 점수는 2-1-0의 3단계 척도입니다.

아래 그림은 ChiQA의 일부 예를 보여줍니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

그림 3: ChiQA의 일부 샘플 예.

데이터 수집: 모든 질문은 실제 사용자 쿼리에서 나옵니다.

전체 데이터 수집 프로세스는 4단계로 나눌 수 있습니다. 전체 흐름도는 다음과 같습니다.


ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

그림 4: 데이터 수집 프로세스

ChiQA의 주요 특징은 모든 질문이 실제 사용자 쿼리에서 나온다는 것입니다. 그러나 검색 엔진 사용자의 검색 로그에서 사용자의 쿼리를 무작위로 샘플링하면 대부분의 쿼리에는 질문 및 답변 의도가 없습니다.

따라서 먼저 질문과 답변 의도가 있는 쿼리를 필터링해야 합니다. 이 작업에서는 내부적으로 구성된 약한 감독 방법을 사용하여 쿼리에 질문 답변 의도가 있는지 확인하기 위해 이진 분류기를 훈련합니다. 이 의도 모델에 대한 인간의 평가는 90%의 정밀도와 80%의 재현율을 달성할 수 있었습니다. 우리는 이 모델을 사용하여 사용자 쿼리를 샘플링했으며 모델에서 Q&A 의도가 있다고 판단하여 다음 라운드에 진입한 약 75,000개의 사용자 쿼리를 얻었습니다.

이미지 수집 및 주석 처리 과정 및 경험

질문을 받은 후 관련 이미지 검색을 위해 Google에서 제공하는 오픈 API(Google Images API - SerpApi)에 해당 질문을 보냅니다. Google API는 각 검색어에 대해 가장 관련성이 높은 이미지 100개를 반환합니다. 최종 데이터의 품질을 보장하기 위해 길이나 너비가 200픽셀 미만인 쿼리와 너무 길거나 넓은 이미지를 제거했습니다.

원본 이미지를 얻은 후 필터링된 상위 5개 이미지를 가져와 주석자에게 이 쿼리와 해당 5개 이미지에 주석을 달도록 요청합니다. 아래 그림과 같이 이 작업을 위해 특별히 주석 인터페이스를 설계했습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

그림 5: ChiQA 주석 인터페이스

주석 프로세스 중에 주석 작성자에게 세 가지 측면을 표시하도록 요청합니다.

1) 질문 주석

Ben The에게 감사드립니다. 작업은 주로 그림 질문과 답변에 중점을 두고 있지만 실제로는 일반적인 사용자 질문 중 상당수가 그림 질문과 답변과 관련이 없습니다(또는 그림으로 대답하기 어렵습니다). 따라서 먼저 이 질문이 이미지 질문으로 간주될 수 있는지 표시하고 답변 질문을 하도록 주석자에게 요청합니다. 예:

질문이 "xxx와 xxx의 차이"인 경우 이 질문은 이미지 질문과 답변 의도가 있는 질문으로 간주됩니다.

질문이 모호하거나 모호하거나 다음을 포함하는 경우; 추론된 관점에 근거하여 사실이 아닌 경우, 해당 질문은 이미지 질문 및 답변 의도가 없는 것으로 분류되어 후속 이미지 주석 처리에 참여하지 않습니다.

쿼리 주석의 일부 예는 그림 6에 나와 있습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

그림 6: 쿼리 주석의 예

2) 유효한 위치에 대한 이미지 주석

이전 단계 쿼리에서는 5개의 후보 쿼리에 라벨을 붙입니다. 주석 표준은 3단계 0-1-2 주석입니다.

점수가 0이면 그림이 이 질문에 전혀 대답할 수 없음을 의미하고, 점수 2는 그림이 고품질이며 이 질문에 완전히 독립적으로 답할 수 있습니다. 점수가 1인 그림은 둘 사이 어딘가에 있습니다. 이는 그림이 쿼리와 관련되어 있지만 사용자가 최종 답변을 얻기 위해 더 많은 쿼리나 추론이 필요할 수 있음을 의미합니다. 0점, 1점, 2점의 몇 가지 예는 다음과 같습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

그림 7: "다른 전치사를 사용하는 방법"에 대한 질문의 경우 이미지 주석 및 채점의 예

3) 품질 관리

라벨링 과정 전반에 걸쳐 엄격한 품질 관리 체계를 채택합니다. 구체적으로는 먼저 3개의 품질팀을 초빙하여 시험 주석을 실시하고, 주석 품질이 가장 좋은 팀을 선정하여 나머지 데이터에 모두 주석을 달도록 하겠습니다. 둘째, 주석 처리 중에 주석이 달린 데이터를 배치로 나눕니다. 각 데이터 배치에 대해 수동 검증을 위해 데이터의 1/5을 샘플링합니다. 배치 데이터 정확도가 90%에 도달할 때까지 데이터가 반환되고 레이블이 다시 지정됩니다.

능동 학습 데이터 주석

으로 인해 결과가 더 편파적이지 않게 됩니다

데이터 수집 작업 후에 데이터를 무작위로 샘플링하고 주석을 달면 데이터에 단순한 패턴이 있는 경우가 많고 데이터의 수가 많다는 사실을 발견했습니다. 데이터에 이러한 단순한 패턴이 있으면 최종 모델이 편향될 수 있습니다. 따라서 우리는 능동 학습 주석 프로세스를 설계합니다. 구체적으로, 우리는 먼저 주석자에게 데이터 배치에 주석을 달도록 요청할 것입니다. 이 데이터 배치의 주석이 완료된 후 이 데이터 배치를 사용하여 막횡단 텍스트-이미지 일치 모델을 훈련할 것입니다. 모델이 훈련된 후 이 모델을 사용하여 새 샘플을 "선택"하기 시작합니다. 모델이 이 새 샘플의 예측에 대해 매우 불확실한 경우(즉, 최종 분류 예측의 엔트로피가 특히 큰 경우) 이 샘플은 모델에 비해 상대적으로 어렵다고 생각합니다. 따라서 다음 라운드 중반까지 이를 유지할 확률이 더 높습니다. 그렇지 않으면 모델이 데이터에 매우 자신감이 있다는 것을 의미하므로 모델은 이를 유지합니다. 다음 라운드까지 확률이 낮아집니다.

우리는 능동적 학습 데이터 선택 프로세스가 실제로 데이터 세트를 더 편견 없게 만든다는 것을 발견했습니다. 우리는 첫 번째 단계의 레이블이 지정된 데이터에 눈에 띄지 않는 편향이 포함되어 있음을 발견했습니다. 예를 들어 "Tips"라는 단어가 포함된 질문은 유효한 질문으로 표시되지만 해당 이미지는 거의 모두 답변 불가능(즉, 0점)으로 표시되므로 모델은 질문에 직접 기초하여 최종 질문을 예측할 가능성이 높습니다. 이미지를 보지 않고 쿼리합니다. 이러한 활성 학습 프로세스는 다음 라운드에서 이러한 높은 신뢰도와 편향된 지름길을 선택하기 어려울 가능성을 줄여 이 모델의 영향을 줄입니다.

테스트 세트 주석

우리는 주석이 달린 데이터에서 2,500개의 데이터를 무작위로 필터링하고 다른 주석자에게 다시 주석을 달도록 요청했습니다. Annotation 결과가 이전 결과와 같으면 해당 데이터를 테스트 세트로 유지하고, 다른 경우 해당 작업을 잘 아는 "전문가"에게 데이터에 다시 Annotation을 요청하고 최종적으로 2362 테스트를 받습니다. 데이터와 40,000개 이상의 훈련 데이터를 제공합니다. 훈련 세트와 테스트 세트의 통계 정보는 아래 그림과 같습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

그림 8: ChiQA의 훈련 세트와 테스트 세트의 통계 정보

추론 및 분석 the data

데이터에 주석을 단 후 ChiQA에서 데이터에 대한 통계 및 분석을 수행했습니다.

1) 쿼리의 공통 단어 분석:

Stuttering Word Segmentation을 사용하여 쿼리를 분할하고, 쿼리에 포함된 단어를 빈도에 따라 아래 클라우드 차트에 표시합니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

ChiQA에서 가장 많이 검색되는 쿼리는 차이, 일러스트레이션, 위치 등임을 알 수 있습니다. 이것은 우리의 직관과 일치합니다. 왜냐하면 이 단어들은 실제로 그림이 대답하기에 매우 적합한 질문이기 때문입니다.

2) 도메인 분석

내부 도메인 분류 분류기를 사용하여 모든 쿼리를 분류합니다. 최종 결과는 아래 그림과 같습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

우리의 데이터에는 다음이 포함되어 있습니다. 많은 분야의 데이터가 있으며 어느 분야도 절대 다수를 차지하지 않습니다. 이를 통해 데이터 분포가 균일해집니다. 두 번째로, 질문에 나오는 의문어까지 세어보았는데, 그 결과는 아래 그림과 같습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

ChiQA에서는 어떤 질문의 유형과 어떻게 입력할지가 대다수를 차지하는 것을 알 수 있으며, 그리고 다른 질문들도 꽤 많은 비율을 가지고 있습니다.

3) 이미지 분석

질문 외에도 ChiQA에서 이미지 분석도 진행했습니다. 대부분의 이미지는 언어 독립적이므로 업계에서 우수한 성능으로 인정받는 대상 탐지 모델 DETR을 사용하여 이미지의 엔터티를 마이닝합니다. DETR은 이미지의 엔터티를 "사람", "개" 등과 같은 표준 MS-COCO에서 정의한 엔터티에 매핑할 수 있습니다. ChiQA에서 각 이미지에 대한 엔터티를 마이닝하고 아래 그림에 가장 높은 빈도 엔터티의 분포를 표시합니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

ChiQA에서 30개 이상의 엔터티가 최소 1000번 이상 나타나는 것을 볼 수 있습니다. 이는 ChiQA가 매우 고르게 분포되어 있으며 대부분의 필드를 포괄하는 이미지 데이터로 가장 자주 나타나는 개체는 "사람", "휴대폰", "자동차" 등입니다. 이는 질문 분포와 유사합니다.

4) 추론 능력

데이터를 더 잘 분석하기 위해 ChiQA 데이터에서 요구되는 추론 능력도 분석했습니다. 추론이 필요한 5가지 기술 분석에 중점:

  • 그루딩: 모델과 시스템은 질문에 언급된 엔터티를 이해하고 찾는 데 필요합니다
  • 읽기: 모델은 그림에 나타나는 텍스트를 이해해야 합니다
  • 비교: 모델은 높이, 크기 등과 같은 다양한 속성과 내용을 비교해야 합니다.
  • 인과 추론: 모델은 문제와 그림의 인과 부분에 대한 깊은 이해가 필요합니다( 즉, 어떤 일이 발생한 이유 또는 결과)
  • 논리적 추론: 모델은 질문이나 그림의 부정, 조건 등과 같은 몇 가지 논리적 비교 요소를 이해해야 합니다.

우리는 무작위로 샘플링했습니다. 200개의 ChiQA 데이터를 위의 5가지 표준에 따라 분류하고, 그중 일부 데이터에는 하나 이상의 추론 기술이 필요할 수 있습니다. 결과는 아래와 같습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

Grouding 외에도 ChiQA 데이터의 80% 이상은 텍스트와 이미지의 대비 관계에 대한 심층적인 이해가 필요하다는 것을 알 수 있습니다. 이는 대부분의 이전 VQA 데이터와 매우 다릅니다. 둘째, 논리와 비교가 필요한 질문이 꽤 많아 ChiQA의 데이터가 상당히 어렵다는 것을 나타냅니다. 우리는 ChiQA의 추론 기술 분석이 이 데이터를 더 잘 이해하고 후속 모델 설계에 대한 사전 지침을 제공하는 데 도움이 될 수 있다고 믿습니다.

실험 평가 지표

ChiQA 데이터 세트에서 주석 점수는 0, 1, 2의 세 가지 수준이 있으므로 실험에서는 모델 순위 지표와 일반 ​​분류 지표를 테스트합니다. 세 가지 범주로 나뉩니다.

  • NDCG@N: 정규화 할인 누적 이득
  • 평균 평균 정밀도(MAP@N)
  • 정확도/정밀도/재현율/F1

기준 모델

우리는 ChiQA 데이터 세트에서 일반적으로 사용되는 여러 모델을 실험했습니다. 이전 이미지-텍스트 매칭 작업에 이어 먼저 인코더를 사용하여 이미지와 텍스트를 각각 인코딩한 다음 표현의 교차 모달 융합을 수행하고 마지막으로 예측 레이어를 사용하여 매칭 점수를 얻습니다. 아래 나열된 모델에서 ♣를 추가하면 모델이 사전 훈련되었음을 의미하고, 를 추가하면 사전 훈련되지 않았음을 의미합니다.

  • Random♦: 테스트 세트의 각 데이터 조각에 대해 0, 1, 2 중에서 예측 점수를 무작위로 선택합니다. 무작위 모델은 ChiQA의 기준 모델로 사용됩니다.
  • Majority♦: 훈련 세트에 가장 많이 나타나는 레이블을 테스트 세트의 모든 데이터에 대한 예측 점수로 선택합니다.
  • LSTM+ResNet︎: 텍스트 및 비전에 대한 대규모 사전 학습 모델이 등장하기 전에는 LSTM과 ResNet이 각각 텍스트 및 비전 분야에서 가장 일반적으로 사용되는 모델 중 하나였습니다.
  • Bert+ViT♣: 우리는 Bert 모델을 사용하여 쿼리 텍스트를 인코딩하고 ViT 모델을 사용하여 이미지를 인코딩합니다. 여기서 Bert와 ViT 모델은 모두 대규모 비지도 데이터에 대해 사전 훈련됩니다. 마지막으로 의 표현 벡터는 일치 점수 예측에 사용됩니다.
  • ALBEF♣: ALBEF는 다양한 시각 언어 과제에서 큰 개선을 보여준 대규모 시각 및 언어 표현 학습입니다.
  • +Pretrain♣: 중국 교차 모달 사전 훈련의 경우 Wukong 데이터 세트의 Bert-ViT 및 ALBEF에 대해 막 횡단 상태 사전 훈련을 수행합니다. 사전 훈련 방법은 ALBEF와 유사합니다. Wukong 데이터 세트는 1억 개의 이미지-텍스트 쌍을 포함하는 오픈 소스 크로스 모달 데이터입니다.
  • Wenlan♣: Wenlan은 거의 10억 개의 매개변수를 사용하여 3천만 개의 텍스트-이미지 쌍을 학습한 대규모 다중 모드 사전 학습 모델입니다. 우리는 공개 API 서비스를 사용하여 텍스트와 이미지의 표현 벡터를 얻고 두 벡터의 CoS 유사성을 예측 일치 점수로 사용합니다.
  • Human: 위의 모델 외에도 테스트 세트에 대한 인간의 예측 수준도 평가했습니다. 테스트 세트의 데이터 양이 많기 때문에 예측 및 예측 지표 평가를 위해 100개의 데이터를 수동으로 무작위로 샘플링했습니다.

다음은 결과 표시입니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

테스트 세트에 있는 위 모델의 표시는 그림에 나와 있습니다. 이전의 최첨단 교차 모달 방법을 직접 적용하면 성능이 저하되고 측정 항목이 무작위 채점 모델보다 약간 더 우수하다는 것을 알 수 있습니다. 이는 ChiQA 데이터가 어렵고 ALBEF*, Wenlan과 같은 대규모 약 지도 대조 학습만 사용하는 모델은 시각적 질문 답변에 필요한 세분화된 정보를 구별하지 못할 수 있음을 의미합니다. 또한 이러한 모델의 낮은 성능은 ChiQA 데이터 세트가 이전의 약한 지도 이미지-텍스트 매칭 데이터와 다르다는 것을 보여줍니다. 왜냐하면 약한 지도 이미지-텍스트 매칭은 상관관계에 초점을 맞추고 ChiQA 데이터는 이미지의 응답성을 요구하기 때문입니다.

마지막으로 ChiQA에서 미세 조정된 모델은 기준선에 비해 큰 진전을 이루었지만 여전히 인간의 성능과는 거리가 멀기 때문에 모델은 여전히 ​​ChiQA 데이터 세트에서 개선할 여지가 많습니다.

ChiQA를 제품에 적용

인터넷의 발달로 인해 사용자의 질문과 답변에 대한 요구가 높아지고 있으며 시스템에서는 보다 직관적이고 편리한 답변을 제공해야 합니다. 특히 최근에는 멀티미디어 콘텐츠가 점점 풍부해지면서 사진과 영상을 기반으로 한 Q&A 콘텐츠가 대중 앞에 모습을 드러내는 경우가 늘어나고 있다. QQ 브라우저 랩 리즈팀은 업계 최초로 올해 4월 그림 질의응답 프로젝트를 시작했다. 예를 들어 사용자가 키위와 키위의 차이점을 검색하면 결과가 직관적으로 앞에 표시된다. 사진 형태로 사용자의 정보를 제공합니다. 아래 사진과 같습니다.

ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트

현재 사진으로 직접 해결할 수 있는 이런 종류의 문제는 온라인에 공개된 후 좋은 결과를 얻었습니다. 기존 결과에 비해 사용자 행동(CTR, 단어 교환율 등)이 크게 개선된 것을 확인했습니다. 이는 현재 사진 등을 기반으로 한 "새로운 Q&A"가 더 나은 결과를 얻을 수 있는 제품 비즈니스임을 나타냅니다. 사용자 요구를 충족합니다.

작가팀 소개

QQ 브라우저 검색 기술 센터 팀은 Tencent PCG 정보 플랫폼 및 서비스 라인의 검색 기술 연구 및 개발을 담당하는 팀입니다. Tencent 콘텐츠 생태학을 기반으로 사용자 연구를 통해 제품 혁신을 주도하고 사용자에게 그래픽, 정보, 소설, 길고 짧은 동영상, 서비스 등 다양한 정보 요구를 충족합니다. 알고리즘 측면에서는 자연어 처리, 딥 러닝, 다중 모드 이해 및 생성, 지식 계산 및 응용 및 기타 기술을 기반으로 콘텐츠 이해, 상관 관계 및 정렬, 다중 모드 검색, 지능형 질문 및 답변, 다중 모드를 구축합니다. 언어 번역, 검색 권장 및 기타 기술 방향, 업계의 첨단 기술을 탐색 및 적용하여 엔지니어링 측면에서 더 나은 사용자 검색 경험을 창출하고 검색 기술을 위한 중간 단계 산업화 시스템을 구축하고 고성능, 고가용성을 연마합니다. , Tencent에 PCG를 제공하는 저비용 수백억 수준 검색 시스템은 다양한 콘텐츠 비즈니스의 검색 시나리오에 대한 기본 검색 엔진 서비스를 제공합니다. 현재 QQ 브라우저, Tencent Video, Tencent News 및 Tencent와 같은 여러 PCG 제품 라인을 지원합니다. 웨이시.

위 내용은 ChiQA - 200,000개의 실제 사용자 질문을 기반으로 한 그림 질문 및 답변 데이터세트의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿