먼저 58초상단 구축 배경을 말씀드리겠습니다.
더 이상 기존 아이디어로는 데이터 웨어하우스 모델링 기능, 다중 라인 데이터 통합 및 정확한 사용자 초상화 구축만으로는 충분하지 않습니다. 또한 사용자 행동, 관심 사항 및 요구 사항을 이해하고 알고리즘 측 기능을 제공하며, 마지막으로 사용자 초상화 데이터를 효율적으로 저장, 쿼리 및 공유하고 초상화 서비스를 제공하는 데이터 플랫폼 기능도 필요합니다. 자체 구축한 비즈니스 프로파일링 플랫폼과 중간 사무실 프로파일링 플랫폼의 주요 차이점은 자체 구축한 프로파일링 플랫폼이 단일 비즈니스 라인에 서비스를 제공하고 필요에 따라 사용자 정의할 수 있다는 것입니다. 모델링하고 보다 일반적인 기능을 제공합니다.
58 사용자 인물화 플랫폼 구축은 주로 다음과 같은 비즈니스 요구에 따른 것입니다.
현재의 비즈니스 요구와 외부 환경 문제를 해결하기 위해 사용자 초상화 플랫폼 솔루션 세트인 UA+CDP+MA를 제안했습니다. OneID 서비스를 사용하여 기본 사용자 초상화 데이터를 구축하고, 트래픽과 군중 통찰력을 결합하고, 알고리즘을 사용하여 지능적으로 군중을 생성하고, 정확한 마케팅을 위한 자료를 일치시킵니다. 동시에 효과를 모니터링하고 데이터를 재활용하여 전략을 최적화하고 군중을 반복합니다. 비즈니스 당사자가 정확한 운영과 비즈니스 성장을 달성할 수 있도록 지능형 성장 솔루션을 제공합니다.
58개 사용자 초상화 플랫폼에서 알고리즘 측면의 구축은 주로 두 가지 측면을 포함하는데, 하나는 라벨 시스템, 또 하나는 플랫폼 역량 구축이다.
Wanxiang 태그 시스템에는 사회적 속성, 지리적 위치, 행동 습관, 선호도 속성, 사용자 계층화 등 총 1,500개 이상의 태그가 포함됩니다. 제작 방식에 따라 두 가지 유형으로 나눕니다.
알고리즘 태그는 데이터 소스와 세분화에 따라 분류될 수 있습니다. 예를 들어 성별, 연령, 비즈니스 경향과 같은 레이블의 경우 데이터 소스는 일반적으로 분류 작업으로 처리되는 구조화된 데이터입니다. 모델은 XGBoost, DeepFM 등이 될 수 있습니다. 사용자가 탐색하는 게시물의 텍스트에서 사용자의 목적을 식별해야 하는 임대 목적 태그도 있습니다. 이러한 유형의 태그의 데이터 소스는 텍스트 분류 및 기타 방법을 사용하여 처리할 수 있는 비정형 데이터입니다. 콘텐츠 선호도 태그에서 사용자가 다른 비즈니스의 상위 N개 게시물을 선호하는 경우 그러한 태그를 생성하기 위해 오프라인 추천 프로세스를 구축해야 합니다.
콘텐츠 선호 태그를 예로 들면, 이 태그를 생성하려면 오프라인 추천 프로세스가 구축되어야 합니다. 수백만 개 이상의 게시물에 대해서는 먼저 대중 필터링, 규칙 필터링, 협업 필터링 및 그림의 컨볼루셔널 신경망(LightGCN) 및 트윈 타워(DSSM) 모델과 같은 기타 방법을 사용하여 리콜 단계를 통해 예비 심사를 수행합니다. 그런 다음 회수된 게시물을 기반으로 Pointwise 접근 방식을 사용하여 CTR 모델을 정렬합니다. 최종 출력은 사용자가 가장 관심을 갖는 상위 N 게시물입니다. 실제 애플리케이션에서는 푸시 시나리오를 예로 들어 상위 1개 게시물에서 주요 속성을 추출하여 개인화된 사본을 생성할 수 있습니다. 동시에 랜딩 페이지는 상위 1개 게시물의 세부정보 페이지일 수도 있고 상위 N개 게시물의 목록 페이지일 수도 있습니다.
콘텐츠 선호도 태그를 제작할 때 58의 지역 업체의 지리적, 카테고리 특성을 고려하여 사용자는 일반적으로 추천에서 특정 지역이나 카테고리의 게시물에만 관심을 갖습니다. 따라서 회상을 벡터화할 때(예: EGES 모델 사용) 오프사이트 또는 비카테고리 게시물이 많이 있을 수 있습니다. 이 문제를 해결하기 위해 도시 정보를 16진수로 표현하고 0을 -1로 바꾼 다음 이 인코딩을 이전에 생성된 벡터에 직접 연결합니다. 이렇게 하면 동일한 도시에 있거나 동일한 목적을 위한 게시물이 유사성에 포함되도록 할 수 있습니다. 계산은 이들 사이에서 가장 큰 유사성을 가지므로 회상 및 추천의 정확성이 향상됩니다.
정렬 단계에서는 텍스트 콘텐츠를 포함한 다중 모드 정보를 사용하여 추천의 정확성을 높입니다. 예를 들어 게시물 제목은 텍스트 특성으로 BERT, M3E와 같은 사전 학습된 모델을 사용하여 임베딩하여 표현할 수 있습니다. 그러나 이는 게시물 수가 많아 컴퓨팅 리소스에 문제가 됩니다. 이 문제를 해결하기 위해 Apache Spark Machine Learning 기반의 자연어 처리 라이브러리인 Spark NLP를 사용합니다. 네이티브 라이브러리에는 중국어 BERT 모델이 없지만 일부 변환을 통해 대규모 오프라인 추론에 성공적으로 적용했습니다.
알고리즘은 58시 사용자 초상화 플랫폼의 기능적 구성에도 핵심적인 역할을 합니다. 지능형 운영 기능을 예로 들면, 교통 지도를 사용하여 다양한 비즈니스 간의 상관 관계를 파악하고 비즈니스 당사자에게 운영 제안 또는 결론을 제공합니다. 이러한 제안을 기반으로 비즈니스 측은 지능형 서클 기능을 통해 운영자 군중 패키지를 직접 생성하고 이를 해당 채널에 연결하여 배송할 수 있습니다. 플랫폼을 통해 전달 효과를 모니터링하고, 효과 데이터를 기반으로 반복적으로 최적화하여 운영 효과를 지속적으로 개선할 수 있습니다.
알고리즘은 어떻게 작동하나요? 다음으로 여러 부분으로 나누어 소개하겠습니다. 첫 번째는 교통 지도입니다. 우리는 OLAP 데이터 마이닝 및 데이터 시각화 기술을 사용하여 58APP 사용자의 다양한 비즈니스 탐색 행동에 대한 심층 분석을 수행합니다. 이 데이터를 분석하고 처리하면 다양한 비즈니스 간의 사용자 흐름 경로가 표시될 수 있어 운영팀에 사용자 행동에 대한 직관적인 보기를 제공할 수 있습니다. 이 과정에서 알고리즘은 사용자 행동 패턴을 파악하는 데 도움을 줄 수 있을 뿐만 아니라 상관관계 분석 및 기타 기술을 통해 다양한 비즈니스 간의 상관관계를 파헤칠 수 있습니다. 이러한 상관관계는 귀중한 운영 제안을 제공하고 운영팀의 교차 운영을 지원합니다.
운영 제안을 받은 후 운영팀은 지능형 서클 기능을 사용하여 대상 그룹을 선택할 수 있습니다. 이 목표를 달성하기 위해 운영팀은 먼저 개인화된 운영 목표를 구성하고 목표가 신규 고객 유치, 활성화 촉진, 전환 촉진 등인지 명확히 해야 합니다. 다음으로 군중 패키지의 크기와 예상되는 전달 효과를 포함하여 원하는 효과를 설정해야 합니다. 또한 운영팀은 대상 그룹이 관련 운영 활동 정보를 받을 수 있도록 적절한 전달 채널을 선택해야 합니다.
크라우드 패키지를 생성하는 과정은 운영팀에게 블랙박스입니다. 이 문제를 해결하기 위해 운영 팀이 기술을 더 잘 이해하고 적용할 수 있도록 알고리즘 원리와 단계에 대한 추가 설명과 설명을 제공합니다. 동시에 우리는 운영팀이 군중 패킷의 특성과 효과를 직관적으로 보고 분석할 수 있도록 더 많은 시각적 도구와 인터페이스를 제공합니다.
크라우드 패킷을 생성하는 과정에서 주로 Look-alike 기술을 사용합니다. 우리는 이 기술의 발전 과정에서 여러 단계를 거쳤습니다. 초기 단계에서는 Yahoo의 솔루션을 통해 배웠고 크라우드 패키지의 출력을 리콜 및 정렬 모듈로 나누었습니다. 리콜 모듈은 먼저 모든 사용자의 특징 벡터를 구성한 다음 minHash 및 로컬 민감성 해싱 기술을 사용하여 특징 벡터를 압축하고 클러스터링 및 버킷팅과 유사한 방법을 통해 k-NN과 유사한 검색을 달성하고 시드 간의 관계를 빠르게 계산합니다. 사용자 및 후보 그룹 간의 쌍별 유사성을 기반으로 topN이 각 시드 사용자에 대한 회상 그룹으로 선택됩니다. 정렬 단계에서는 먼저 정보 값을 사용하여 기능을 필터링한 다음 필터링된 기능을 기반으로 점수를 계산하고 마지막으로 점수를 정렬하여 최종적으로 크라우드 패키지를 생성합니다. 프로세스 전반에 걸쳐 알고리즘은 크라우드 패키지의 정확성과 효율성을 보장하는 데 핵심적인 역할을 했습니다.
유사성 기반 솔루션 외에도 기계 학습 기반 방법도 좋은 결과를 제공합니다. 실제 응용 프로그램에서 사용자는 장면 서클 사람 또는 시드 크라우드 업로드를 통해 요청을 시작할 수 있습니다. 차이점은 시드 크라우드가 사용자에 의해 업로드되는지 아니면 우리가 자동으로 채굴하는지 여부입니다. 시드 모집단, 즉 양성 샘플을 얻은 후 음성 샘플을 선택해야 합니다. 폭력적인 전역 무작위 음성 샘플링을 사용하거나 PU 학습 또는 TSA와 같은 알고리즘을 사용하여 음성 샘플 선택을 완료할 수 있습니다. 다음은 특징 선택 단계로 두 가지 옵션으로 나누어집니다. 하나는 수동으로 선택한 특징을 미리 준비하는 것입니다. 고정된 특징 엔지니어링 후 DeepFM과 같은 모델을 사용하여 학습 및 CTR 추정을 완료할 수 있으며 TopN이 선택됩니다. CTR 기반 크라우드 패키지 또 다른 옵션은 모든 태그를 기능으로 사용하고 IV 값과 상관 관계를 통해 기능을 자동으로 선택 및 제거한 다음 AutoML 프레임워크를 사용하여 기능 엔지니어링 및 모델 교육을 완료하고 마지막으로 58App에서 추론을 수행하는 것입니다. TopN Crowd 패키지를 기반으로 한 크라우드 풀 및 출력, 채널에 연결하여 도달하고 마지막으로 전달 효과 데이터를 수집하여 샘플 선택 반복을 완료합니다.
위의 방식에서 주목해야 할 점이 있습니다. 첫 번째는 샘플의 반복입니다. 효과 데이터를 복구할 때 노출 데이터뿐만 아니라 노출되지 않은 데이터, 즉 Exposure Bias도 필요합니다. 편파적이지 않다. 동시에 반복의 효과를 보장하기 위해 반복 후의 효과를 오프라인으로 평가하고 검증해야 합니다. 또한, 특히 새로운 장면에서는 특징 선택의 시간 요소를 고려해야 하는 특징 측면에서 순회 문제도 고려해야 합니다.
운영 시나리오에 점점 더 많은 데이터가 축적됨에 따라 우리는 이 데이터를 사용하여 반복 계획을 최적화하기 위한 오프라인 실험을 수행하기 시작합니다. 그 중 하나가 메타러닝 방식을 채택한 텐센트 위챗 기반의 Look-alike 방식이다. 구체적으로 이 방법은 일반화된 모델을 구축하고, 오프라인 단계에서 모델 구축을 완료한 후, 온라인 단계에서 소량의 데이터 세트를 사용하여 맞춤형 모델을 훈련하고 추론 작업을 수행합니다. 이 방법은 표본 크기가 상대적으로 작을 때 모델이 과적합되는 문제를 해결할 수 있습니다. 다중 시나리오 및 다중 대상 군중 확산도 다음 반복 방향 중 하나입니다.
58App의 개인화된 리소스 배치에는 오프닝 화면, 배너 위치, 플로팅 창, 수수료 흐름 카드 등이 포함됩니다. 예를 들어, 가격 작업은 초상화 플랫폼의 라벨 선택 기능을 사용하여 군중 패키지를 생성하고 특정 콘텐츠를 푸시하여 수천 명의 작업을 완성합니다.
저희 초상화 플랫폼은 58의 푸시 플랫폼과도 완벽하게 연결되어 있습니다. 운영 학생들은 비엔티안 서클 선택 또는 유사 항목을 통해 그룹을 만들고, 개인화된 카피라이팅을 구성하고, 운영 목적을 달성하기 위해 푸시 사용자를 통해 도달할 수 있습니다. .
검색 추천은 사용자 사진을 기반으로 하는 가장 일반적인 애플리케이션입니다. 58 신차와 중고차의 두 사업 당사자는 알고리즘 인력이 없지만 일부 개인화된 애플리케이션을 만들고 싶어 위에서 언급한 콘텐츠 선호도 태그에 액세스했습니다. 콘텐츠 선호도 TopN 태그는 홈페이지 내 신차 추천, 관련 추천 등 리소스 영역에 활용됩니다. 중고차 검색 위치에서 이 라벨은 검색창의 프롬프트와 검색 페이지의 관련 자동차 시리즈에도 사용됩니다. 규칙을 사용하는 이전 방법에 비해 프로젝트 초기 단계의 솔루션으로 콘텐츠 선호 태그에 액세스하는 것도 좋은 결과를 얻었습니다.
현재 58의 초상화 플랫폼은 이미 업계 공통의 초상화 플랫폼 기능을 보유하고 있으며, 알고리즘 축복을 통해 지능형 운영 및 기타 기능을 구현했습니다. 이는 비즈니스 측면의 운영 효과를 향상시킬 뿐만 아니라 사용자에게 개인화된 서비스를 제공하는 동시에 더 나은 사용자 경험을 제공합니다. 다음으로, 우리는 비즈니스 당사자와 심도 있게 협력하여 더 많은 응용 시나리오를 탐색하고, 협력 과정에서 요약 및 개선하고, 최적화 및 혁신하며, 다양한 요구와 과제를 충족하기 위해 기술을 업그레이드할 것입니다. 훌륭한 가치.
위 내용은 58 초상화 플랫폼 구축에 알고리즘 적용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!