검색 회상은 검색 시스템의 기반으로 효과 향상의 상한선을 결정합니다. 기존 대규모 리콜 결과에 어떻게 차별화된 증분 가치를 지속적으로 제공하는 것이 우리가 직면한 주요 과제입니다. 다중 모드 사전 훈련과 회상의 결합은 우리에게 새로운 지평을 열어주고 온라인 효과를 크게 향상시킵니다.
다중 모드 사전 훈련은 학계와 산업계의 연구 초점입니다. 대규모 데이터에 대한 사전 훈련을 통해 다양한 양상 간의 의미적 대응을 얻을 수 있으며, 이는 다양하게 사용될 수 있습니다. 예를 들어 시각적 질문 답변, 시각적 추론, 이미지 및 텍스트 검색을 통해 효과를 향상할 수 있습니다. 그룹 내에서는 다중 모드 사전 훈련에 대한 연구와 적용도 있습니다. 타오바오 메인 검색 시나리오에서는 사용자가 입력한 쿼리와 리콜할 상품 사이에 자연스러운 크로스모달 검색 수요가 있습니다. 하지만 과거에는 상품에 대한 제목과 통계 기능이 더 많이 사용되었습니다. 이미지와 같은 보다 직관적인 기능은 무시되었습니다. 하지만 시각적인 요소(예: 흰색 드레스, 꽃무늬 드레스)가 포함된 검색어의 경우 검색결과 페이지에 가장 먼저 나타나는 이미지에 모든 사람이 매료될 것이라고 믿습니다.
타오바오 주요 검색 장면
한편으로는 이미지가 더 눈에 띄는 위치를 차지하는 반면, 다른 한편으로는 이미지에는 제목에 포함되지 않은 정보가 포함될 수 있습니다. 흰색, 깨진 꽃과 같은 시각적 요소. 후자의 경우 두 가지 상황을 구별해야 합니다. 하나는 제목에 정보가 있지만 표시 제한으로 인해 완전히 표시할 수 없는 경우입니다. 이 상황은 시스템 링크의 제품 리콜에 영향을 미치지 않습니다. 제목에는 정보가 없지만 이미지가 있다는 것, 즉 이미지가 텍스트에 비해 증가를 가져올 수 있다는 것입니다. 우리가 집중해야 할 것은 후자입니다.
주 검색 및 회수 시나리오에 다중 모드 기술을 적용할 때 해결해야 할 두 가지 주요 문제가 있습니다.
저희 솔루션은 다음과 같습니다.
다중 모드 사전 훈련된 모델은 이미지에서 특징을 추출한 다음 텍스트 특징과 융합해야 합니다. 이미지에서 특징을 추출하는 세 가지 주요 방법은 CV 분야에서 훈련된 모델을 사용하여 이미지의 RoI 특징, 그리드 특징 및 패치 특징을 추출하는 것입니다. 모델 구조의 관점에서 볼 때 이미지 특징과 텍스트 특징의 다양한 융합 방법에 따라 단일 스트림 모델과 이중 스트림 모델의 두 가지 주요 유형이 있습니다. 단일 스트림 모델에서는 이미지 특징과 텍스트 특징이 서로 스플라이싱되어 초기 단계에서 Encoder에 입력되는 반면, 듀얼 스트림 모델에서는 이미지 특징과 텍스트 특징이 각각 두 개의 독립된 Encoder에 입력된 후 처리를 위해 크로스 모달 인코더에 입력합니다.
이미지 특징을 추출하는 방법은 이미지를 일련의 패치로 나누고 ResNet을 사용하여 각 패치의 이미지 특징을 추출하는 것입니다. 모델 구조 측면에서는 단일 스트림 구조, 즉 Query, Title, Image를 함께 연결하여 Encoder에 입력하는 방식을 시도했습니다. 여러 세트의 실험 후에 우리는 이 구조에서 다운스트림 트윈 타워 벡터 리콜 작업에 대한 입력으로 순수 쿼리 벡터와 항목 벡터를 추출하는 것이 어렵다는 것을 발견했습니다. 특정 벡터를 추출할 때 불필요한 모드를 마스크하면 예측이 훈련과 일치하지 않게 됩니다. 이 문제는 대화형 모델에서 직접 쌍둥이 타워 모델을 추출하는 것과 유사합니다. 우리의 경험에 따르면 이 모델은 훈련된 쌍둥이 타워 모델만큼 효과적이지 않습니다. 이를 바탕으로 새로운 모델 구조를 제안한다.
모델의 하부는 트윈 타워로 구성되고, 상부는 트윈 타워와 합쳐진 형태입니다. 크로스 모달 인코더를 통한 타워. 듀얼 스트림 구조와 달리 트윈 타워는 단일 모드로 구성되지 않으며, 아이템 타워에는 타이틀과 이미지가 합쳐져 인코더에 입력되는 부분이 있습니다. 단일 스트림 모델. Query와 Title 사이의 의미 연결과 간격을 모델링하기 위해 Encoder of Query와 Item 트윈 타워를 공유한 후 언어 모델을 별도로 학습합니다.
사전 훈련에서는 적절한 작업을 설계하는 것도 중요합니다. 우리는 일반적으로 사용되는 제목 및 이미지 이미지-텍스트 일치 작업을 시도했지만 상대적으로 높은 일치 수준을 달성할 수 있지만 하위 벡터 호출 작업에는 거의 이득이 없습니다. 이는 항목을 호출하기 위해 쿼리를 사용할 때 항목의 제목 및 이미지 일치 여부는 핵심 요소가 아닙니다. 따라서 작업을 설계할 때 Query와 Item 간의 관계를 더 많이 고려합니다. 현재 총 5개의 사전 훈련 작업이 사용됩니다.
여기서 은 유사성 계산을 나타내고, 은 온도 초매개변수를 나타내고, 및 m은 배율 인수와 완화를 나타냅니다.
모델의 훈련 목표는 전체 손실을 최소화하는 것입니다.
이 5가지 사전 훈련 작업 중 MLM 작업과 MPM 작업은 항목 타워 위에 위치하며, 모델링 제목 또는 이미지 토큰의 일부가 마스크된 후 서로를 복원하기 위해 교차 모달 정보를 사용하는 기능입니다. Query Tower 위에는 독립적인 MLM Task가 있으며, Query Tower와 Item Tower의 Encoder를 공유하여 Query와 Title 간의 의미 관계 및 Gap을 모델링합니다. QIC 작업은 두 타워의 내적을 사용하여 사전 훈련 및 다운스트림 벡터 리콜 작업을 어느 정도 정렬하고 AM-Softmax를 사용하여 Query 표현과 Query에서 가장 많이 클릭된 항목 표현 사이의 거리를 좁힙니다. , Query와 가장 많이 클릭된 항목 사이의 거리를 밀어냅니다. QIM 작업은 크로스 모달 인코더 위에 위치하며 크로스 모달 정보를 사용하여 쿼리와 항목의 일치를 모델링합니다. 계산량으로 인해 일반적인 NSP 작업의 양성 및 음성 샘플 비율은 1:1입니다. 양성 및 음성 샘플 간의 거리를 더욱 확장하기 위해 QIC의 유사성 계산 결과를 기반으로 어려운 음성 샘플을 구성합니다. 일. QIM2 작업은 QIM 작업과 동일한 위치에 있으며 텍스트와 관련하여 이미지가 가져오는 증분 정보를 명시적으로 모델링합니다.
대규모 정보 검색 시스템에서 리콜 모델은 맨 아래에 있으며 대규모 후보 세트에서 점수를 매겨야 합니다. 성능상의 이유로 사용자 및 항목 트윈 타워의 구조는 벡터의 내적을 계산하는 데 자주 사용됩니다. 벡터 재현 모델의 핵심 문제는 양성 샘플과 음성 샘플을 구성하는 방법과 음성 샘플 샘플링 규모입니다. 우리의 솔루션은 페이지의 항목에 대한 사용자의 클릭을 긍정적인 샘플로 사용하고, 전체 제품 풀의 클릭 분포를 기반으로 수만 개의 부정적인 샘플을 샘플링하고, 샘플링된 소프트맥스 손실을 사용하여 샘플링 샘플에서 다음을 추론하는 것입니다. 항목이 전체 제품 풀에 있습니다.
여기서 은 유사성 계산을 나타내고, 은 온도 초매개변수를 나타냅니다.
일반적인 FineTune 패러다임에 따라 사전 훈련된 벡터를 Twin Towers MLP에 직접 입력하고 대규모 네거티브 샘플링과 샘플링된 Softmax를 결합하여 다중 모드 벡터 리콜을 훈련해 보았습니다. 모델. 그러나 일반적인 소규모 다운스트림 작업과 달리 벡터 리콜 작업의 훈련 샘플 크기는 수십억 단위로 엄청납니다. 우리는 MLP의 매개변수 양이 모델 훈련을 지원할 수 없으며 곧 자체 수렴 상태에 도달할 것이라는 점을 관찰했지만 효과는 좋지 않습니다. 동시에 사전 훈련된 벡터는 벡터 리콜 모델의 매개변수가 아닌 입력으로 사용되며 훈련이 진행됨에 따라 업데이트될 수 없습니다. 결과적으로 상대적으로 소규모 데이터에 대한 사전 훈련은 대규모 데이터에 대한 다운스트림 작업과 충돌합니다.
한 가지 방법은 사전 학습 모델을 벡터 리콜 모델에 통합하는 것입니다. 그러나 사전 학습 모델의 매개변수 수가 너무 많고 벡터 리콜 모델의 샘플 크기와 결합됩니다. , 제한된 자원 제약 하에서는 사용할 수 없습니다. 다음으로, 합리적인 시간에 정기적인 교육을 수행하십시오. 또 다른 방법은 벡터 재현 모델에서 매개변수 행렬을 구성하고 사전 훈련된 벡터를 행렬에 로드한 다음 훈련이 진행됨에 따라 행렬의 매개변수를 업데이트하는 것입니다. 조사 결과, 이 방법은 엔지니어링 구현 측면에서 상대적으로 비용이 많이 듭니다. 이를 기반으로 우리는 사전 훈련 벡터 업데이트를 간단하고 실행 가능하게 모델링하는 모델 구조를 제안합니다.
먼저 FC를 통해 사전 훈련 벡터의 차원을 줄입니다. 사전 훈련이 아닌 여기서 차원이 줄어드는 이유는 현재 고차원 벡터는 음성 샘플 샘플링을 위한 것입니다. 이 경우 벡터 리콜 작업의 차원 감소는 훈련 목표와 더 일치합니다. 동시에 Query와 Item의 ID Embedding 행렬을 소개합니다. Embedding 차원은 축소된 사전 학습 벡터의 차원과 일치하며 ID와 사전 학습 벡터가 함께 병합됩니다. 이 설계의 출발점은 사전 훈련 벡터가 훈련이 진행됨에 따라 적응적으로 업데이트되도록 하면서 대규모 훈련 데이터를 지원하기에 충분한 매개변수 양을 도입하는 것입니다.
ID와 사전 훈련 벡터만 융합하는 경우 모델의 효과는 사전 훈련 벡터만 사용하는 트윈 타워 MLP의 효과를 초과할 뿐만 아니라 다음을 포함하는 기본 모델 MGDSPR도 초과합니다. 더 많은 기능. 더 나아가 이를 기반으로 더 많은 기능을 도입하면 계속해서 효과를 향상시킬 수 있습니다.
사전 학습된 모델의 효과를 평가하기 위해 하위 작업의 지표를 주로 사용하며 개별 평가 지표는 거의 사용하지 않습니다. . 그러나 이러한 방식으로 사전 훈련된 모델의 반복 비용은 상대적으로 높을 것입니다. 모델 버전을 반복할 때마다 해당 벡터 리콜 작업을 훈련한 다음 벡터 리콜 작업의 지표를 평가해야 하기 때문입니다. 전체 과정은 매우 길어질 것입니다. 사전 학습된 모델만 평가하기 위한 효과적인 측정항목이 있나요? 우리는 먼저 일부 논문에서 Rank@K를 시도했습니다. 이 지표는 주로 이미지-텍스트 일치 작업을 평가하는 데 사용됩니다. 먼저 사전 훈련된 모델을 사용하여 인위적으로 구성된 후보 세트의 점수를 매긴 다음, 다음과 같이 정렬된 상위 K 결과를 계산합니다. 점수. 일치하는 양성 샘플의 비율입니다. 우리는 Rank@K를 쿼리 항목 일치 작업에 직접 적용한 결과 결과가 기대와 일치하지 않는다는 것을 발견했습니다. Rank@K를 사용한 더 나은 사전 학습 모델은 다운스트림 벡터 리콜 모델에서 더 나쁜 결과를 얻을 수 있으며 사전 학습을 안내할 수 없습니다. 훈련. 모델 훈련의 반복. 이를 바탕으로 사전 학습 모델 평가와 벡터 리콜 모델 평가를 통합하고, 사전 학습 모델의 반복을 상대적으로 효과적으로 안내할 수 있는 동일한 평가 지표 및 프로세스를 사용합니다.
Recall@K: 평가 데이터 세트는 훈련 세트의 다음날 데이터로 구성됩니다. 먼저 동일한 Query에 속한 여러 사용자의 클릭 및 거래 결과를 로 집계합니다. 모델이 예측한 Top K 결과를 계산합니다 Hits Proportion:
모델별로 Top K 결과를 예측하는 과정에서 Query 및 Item 벡터를 추출해야 합니다. 사전 훈련/벡터 리콜 모델에서 가장 가까운 이웃 검색을 사용하여 상위 K 항목 쿼리를 얻습니다. 이 프로세스는 온라인 엔진에서 벡터 리콜을 시뮬레이션하여 오프라인과 온라인 간의 일관성을 유지합니다. 사전 훈련된 모델의 경우 이 지표와 Rank@K의 차이점은 모달 융합 모델을 직접 사용하여 하나의 쿼리를 추가하는 대신 쿼리 및 항목 벡터가 벡터 내적 검색을 위한 모델에서 추출된다는 것입니다. 일치하는 항목을 호출할 뿐만 아니라 이 쿼리에서 다른 사용자의 클릭 및 거래 항목도 호출해야 합니다.
벡터 재현 모델의 경우 Recall@K가 일정 수준까지 증가한 후에는 Query와 Item 간의 상관 관계에도 주의가 필요합니다. 관련성이 낮은 모델은 검색 효율성을 향상시킬 수 있다고 하더라도 Bad Case 증가로 인해 사용자 경험이 저하되고 불만 및 여론이 증가하게 됩니다. 쿼리와 항목 간의 상관관계, 쿼리와 항목 카테고리 간의 상관관계를 평가하기 위해 온라인 상관관계 모델과 일치하는 오프라인 모델을 사용합니다.
사전 학습 데이터 세트를 구성하기 위해 일부 카테고리에서 1억 개 수준의 제품 풀을 선택했습니다.
저희 기준 모델은 QIM 및 QIM2 작업을 추가하는 최적화된 FashionBert입니다. 쿼리 및 항목 벡터를 추출할 때 패딩이 아닌 토큰에 대해서만 평균 풀링을 사용합니다. 다음 실험에서는 단일 타워에 비해 두 개의 타워로 모델링하여 얻은 이점을 탐색하고 절제 실험을 통해 핵심 부품의 역할을 제공합니다.
이러한 실험에서 다음과 같은 결론을 내릴 수 있습니다.
클릭수 10억 페이지를 선택하여 벡터 리콜 데이터 세트를 구축했습니다. 각 페이지에는 3개의 클릭 항목이 포지티브 샘플로 포함되어 있으며, 10,000개의 네거티브 샘플은 클릭 분포를 기준으로 제품 풀에서 샘플링됩니다. 이를 토대로 훈련 데이터의 양을 더 늘리거나 음성 샘플 샘플링을 수행해도 효과가 크게 개선되지 않았습니다.
저희 기준 모델은 주요 검색 MGDSPR 모델입니다. 다음 실험에서는 다중 모달 사전 훈련과 기준선 대비 벡터 리콜을 결합하여 얻을 수 있는 이점을 탐색하고 절제 실험을 통해 핵심 부분의 역할을 제공합니다.
이 실험에서 다음과 같은 결론을 내릴 수 있습니다.
벡터 리콜 모델의 상위 1000개 결과 중에서 온라인 시스템이 리콜할 수 있었던 항목을 필터링한 결과, 나머지 증분 결과의 상관 관계는 기본적으로 변하지 않는 것으로 나타났습니다. 많은 수의 쿼리에서 이러한 증분 결과는 제품 제목 이상의 이미지 정보를 캡처하고 쿼리와 제목 사이의 의미적 격차에서 특정 역할을 한다는 것을 알 수 있습니다. 쿼리: 잘생긴 수트
쿼리: 여성의 허리 잘록한 셔츠
주 검색 시나리오의 적용 요구 사항을 목표로 Query 및 Item 듀얼 타워 입력 크로스 모달 인코더의 구조를 채택한 텍스트-이미지 사전 학습 모델을 제안했습니다. 아이템 타워에는 여러 이미지와 텍스트가 포함되어 있습니다. 모달 단일 흐름 모델. 쿼리-항목 및 쿼리-이미지 일치 작업과 쿼리 및 항목 트윈 타워의 내부 제품으로 모델링된 쿼리-항목 다중 분류 작업은 사전 훈련을 다운스트림 벡터 리콜 작업에 더 가깝게 만듭니다. 동시에 사전 훈련된 벡터의 업데이트는 벡터 리콜을 통해 모델링됩니다. 리소스가 제한된 경우 상대적으로 적은 양의 데이터를 사용한 사전 학습을 통해 대규모 데이터를 사용하는 다운스트림 작업의 성능을 향상시킬 수 있습니다.
상품 이해, 관련성, 정렬 등 주요 검색의 다른 시나리오에서도 멀티모달 기술을 적용할 필요가 있습니다. 우리는 또한 이러한 시나리오 탐색에 참여했으며 다중 모드 기술이 앞으로 점점 더 많은 시나리오에 이점을 가져올 것이라고 믿습니다.
Taobao 메인 검색 리콜팀: 메인 검색 링크의 리콜 및 대략적인 정렬을 담당하는 팀입니다. 현재 주요 기술 방향은 전체 공간 샘플을 기반으로 한 다목적 개인화 벡터 리콜입니다. 훈련된 다중 모드 회상을 기반으로 한 대규모 예측, 대조 학습을 기반으로 한 유사한 쿼리 의미 재작성, 대략 순위 모델 등이 있습니다.
위 내용은 Taobao의 주요 검색 회상 시나리오에서 다중 모드 기술 탐색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!