양면 시장, 즉 플랫폼에는 두 명의 참여자, 생산자와 소비자, 양측 모두가 포함됩니다. 서로 홍보하세요. 예를 들어 Kuaishou에는 영상 제작자와 영상 소비자가 있는데, 그 두 아이덴티티는 어느 정도 겹칠 수 있습니다.
양측 실험은 생산자 측과 소비자 측의 그룹을 결합하는 실험 방법입니다.
양측 실험에는 다음과 같은 장점이 있습니다.
(1) 제품 DAU의 변화, 작품을 업로드하는 사람 수 등 두 가지 측면에서 새로운 전략의 영향을 동시에 감지할 수 있습니다. 양자간 플랫폼은 종종 교차 네트워크 효과를 갖습니다. 독자가 많을수록 저자는 더 활발해지고, 저자가 활발할수록 더 많은 독자가 팔로우하게 됩니다.
(2)는 효과 오버플로를 감지하고 전송할 수 있습니다.
(3) 작용 메커니즘을 더 잘 이해할 수 있도록 도와주세요. AB 실험 자체는 원인과 결과의 관계를 알려줄 수는 없지만 어떤 영향을 미치고 데이터 변화가 나타날지 알려줄 뿐입니다. 우리가 하는 일. 그러나 생산 측과 소비자 측 사이의 작용 메커니즘에는 이러한 문제를 명확하게 이해하기 위해 더 복잡한 실험 설계와 더 많은 실험 지표가 필요합니다.
Here에서는 양측 실험에 대한 이해를 돕기 위해 라이브 뷰티 예시를 사용합니다.
라이브 방송 장면에 뷰티 효과를 더해보자. 테이블에서 옆으로 바라볼 때 두 줄의 실험 관객 그룹은 라이브 뷰티 트리트먼트 전후의 차이를 관객이 볼 수 있는지 여부를 제어합니다. 표의 열은 앵커의 아름다움 여부에 대한 실제 영향을 나타냅니다. 위의 두 가지 측면을 결합하여 실험군의 앵커와 실험군의 시청자를 비교하는 경우에만 영상에 대한 미화 기능이 활성화됩니다. 실제로 나머지 세 그룹은 뷰티 기능을 볼 수 없다. 그러나 BC가 아름다움을 보지 못하는 것과 D가 아름다움을 보지 못하는 것에는 차이가 있습니다. AD 구별은 기존 AB 실험에서 일반적인 시나리오입니다. 이 장면은 관객 측에 오버플로가 있는지 관찰하기 위해 양방향 디자인을 사용합니다.
청취자 과잉이 없다면 BD 데이터는 일관성이 있어야 하지만, 실제로는 데이터 BD에 차이가 있다면 앵커가 없을 경우입니다. 뷰티 기능에 있어서 청중은 다른 앵커를 보게 될 것입니다. 뷰티 기능에 관해서는 실제 효과가 긍정적이거나 부정적인 영향을 미칠 것입니다. 마찬가지로 앵커 측의 오버플로도 이러한 양측 실험을 통해 수행할 수 있어 실험 메커니즘과 실험 양쪽에 오버플로가 있는지 여부를 더 잘 이해할 수 있습니다.
공급측 소비자 생태계 내에서 사업기간에는 정책적 트래픽 지원이 필요한 인센티브 전략으로, 주로 다음의 3가지 유형을 포함합니다. 시나리오:
(1) 운영에서 수준 높은 작성자를 소개하지만 플랫폼에서 작성자의 데이터 성능이 확실하지 않습니다.
(2) 일부 비즈니스에서는 특정 유형의 작성자를 활용해야 합니다. 트래픽 지원 및 강력한 트래픽 분배 제공
(3) 플랫폼의 시나리오에서는 특정 방향으로 발전하고 트래픽 분배 방식을 변경하면 특정 트래픽 공급이 강화될 것이라고 믿습니다. 해당 내용.
위 시나리오에서는 온라인 학습 방법이 아닌 인간의 관점에서 플랫폼 트래픽을 거시적으로 제어하는 경우가 많습니다. 비교적 장기간에 집중하는 경우에는 학습효과(생산촉진 등)를 관찰할 필요가 있으며, 타임슬라이스 회전과 같은 방법은 시도되지 않습니다. 예를 들어, 다음 시나리오는 작성자에게 방향성 트래픽 유형을 사용하여 트래픽 지원을 제공하여 이러한 트래픽의 상호 작용 및 생성이 장기적 시나리오에서 오래 지속될 수 있는지 여부를 연구합니다.
첫 번째는 작성자 측의 압박입니다. 대부분의 이러한 실험에서 플랫폼의 총 노출 횟수는 플랫폼이 플랫폼을 지원하는 시나리오에서 제한됩니다. 실험군의 저자는 증가하고, 지원되지 않는 대조군의 노출량은 감소합니다. 저자의 콜드 스타트 노출이 독자의 콜드 스타트 노출보다 더 많이 증가한다면 이는 크라우딩이 있음을 증명합니다.
위 그림에 따르면 실험군과 대조군의 관계와 각 그룹의 노출의 상대적인 기준 차이를 바탕으로 실험이 시작될수록 저자의 부스트는 결국 사용자 그룹 B뿐만 아니라 추천 시스템을 통해 사용자 그룹 B에도 전달됩니다. 사용자 그룹 A, 작성자 B, 사용자 B, 작성자 B와 사용자 A의 노출 차이는 기본적으로 일관됩니다. 이 전략으로 인해 왜곡된 교통 상황을 수정하기 위해 전통적인 실험이 이루어졌습니다.
SUTVA는 개인 i가 실험 중에 실험 그룹에 할당되었는지, 통제 그룹에 할당되었는지에만 관련이 있을 뿐 다른 노드가 어느 그룹에 속해 있는지와는 아무 관련이 없다고 가정합니다. 실험 시스템은 다른 노드가 협력 관계에 있는지 여부에 관계없이 여전히 경쟁 관계에 있습니다. SUTVA는 AB 실험에서 효과적인 결론을 얻기 위한 가장 기본적인 가정입니다.
실제 양자 네트워크는 SUTVA 가정을 위반합니다.
쇼트 비디오 시나리오에서 각 녹화 전략을 정렬 알고리즘으로 간주한다면. 다양한 인센티브 전략은 짧은 동영상의 다양한 순위 결과를 나타냅니다. 위 그림의 RC는 대조군을 나타내고, RT_25%는 실험군 트래픽이 25%일 때의 알고리즘 정렬 조합, RT는 실험군의 실험 푸시 100% 알고리즘 정렬 조합을 나타냅니다. BCDE는 실험 대상 사용자 유형, 즉 선택된 인센티브 작성자가 작동합니다. 그리고 D는 실험적 추론이 25%일 때 정확히 실험군에 속한다. 추천 가중치 방식을 통해 D가 바로 선두에 순위가 매겨졌다고 가정해보자. 전략이 100%로 증가하면 BCDE에 가중치가 부여됩니다. 이 경우 D 작품의 순위는 감소합니다. 이 시나리오는 실험군의 과밀화와 과밀화의 원인이다.
실험 그룹 데이터 비율이 확장됨에 따라 실험 그룹 정렬 간격이 점차 가까워지고 좁아집니다. 대조군의 유속이 감소함에 따라 감소 효과가 나타났습니다.
[First Mover Advantage] 실험 중 트래픽 지원 시나리오에서 동일한 지원 강도로 작성자를 먼저 지원하는 것이 항상 트래픽 이점을 유지하는 것으로 나타났습니다. 조기 지원과 가속화된 발굴 과정의 논리는 일관됩니다.
단계적 팽창 실험 세부사항: 위 그림은 단계적 팽창을 나타내고, 세로축은 상대 베이스 그룹의 분말 성장 데이터의 차이를 나타냅니다. 실험 초기에는 실험그룹의 20%가 실험그룹 1만 지지했고, 실험그룹 1의 데이터 지표는 실험이 60%로 증가하자 실험그룹 123이 지지하기 시작했고, 실험지표도 상승하기 시작했다. 다른 두 그룹도 상승하기 시작했지만 여전히 초과된 실험 그룹 1이 없었습니다. 나중에 실험 그룹을 124로 변경하고 4도 향상되기 시작했지만 4는 여전히 실험 그룹 3을 능가하지 못했습니다.
이로부터 다음과 같은 결론을 내릴 수 있습니다. 점진적인 확장이 유용합니다. 확장에 따라 지표도 증가할 것입니다. 트래픽이 증가함에 따라 증가폭이 작아질지는 확인할 수 없습니다. 현재의 실험 결과를 보면 교통 지원을 먼저 받은 실험군의 데이터 성능이 나중에 교통 지원을 받은 실험군의 데이터 성능보다 좋을 것이라는 결론을 내릴 수 있다.
위 그림과 같이 실험군과 대조군은 완전히 분리되어 있습니다. 실험군의 독자는 실험군의 작품만 볼 수 있고, 대조군의 독자는 대조군의 작품만 볼 수 있습니다. 그룹. 이는 저자와 독자 사이의 압박을 방지합니다.
저자와 독자 사이의 트래픽 분포를 네트워크 다이어그램으로 취급하는 것은 이 네트워크 다이어그램이 모든 곳에서 연결되지는 않습니다. 실험그룹을 만들 수 있으며, 통제그룹을 구분할 수 있습니다. 위의 접근 방식은 작은 세계를 분할하는 방법과 일치하며 더 나은 실제 결과를 제공하지만 동시에 계산 비용도 더 높습니다.
작은 세계를 분할할 때의 주요 문제는 다음과 같습니다.
(1) 알고리즘 추천 시스템은 콜드 스타트를 위해 특정 규모가 필요합니다. 분할 풀이 작아야 할 경우 실제 개인화에 영향을 미칩니다. 유통공간. 비즈니스와 플랫폼마다 추천의 탄력성 효과를 유지한다는 전제 하에 세분화 구조를 가장 세밀하게 구현하기 위한 요구 사항이 다릅니다. 대부분의 경우 한계 효과를 줄이는 것이 좋습니다.
(2) 명확한 교통 격리는 샘플에 대한 실험 횟수 및 검사 방법에 특정 제한이 있습니다. 병렬 실험 시나리오의 경우 격리된 사용자를 지속적으로 재구성하고 다시 분할해야 합니다.
실험 설계 대신 분석 방법으로 수정:
수정을 위해 실험적 방법을 사용하는 이유:
우선, 실제 분석 수정 방법에서는 가정을 검증하기 어렵습니다. 차이가 큰 실험의 경우 네트워크의 오버플로 및 압착이 발생합니다. 효과가 다르며, 내부적으로 규칙을 요약하여 일반적인 방법을 얻는 것은 불가능합니다. 실제로 우리의 솔루션은 많은 종류의 문제를 해결하기를 희망합니다.
순위 융합 기반 솔루션 구축 - 기본적으로는 실험그룹의 RT_a% 순위와 실험그룹의 실제 순위를 보장하고자 합니다. RT_100%는 일관된 결과를 유지할 수 있습니다.
구현 방법: 먼저 두 세트의 RT/RC 정렬 알고리즘을 사용하여 동시에 정렬하고 해당 작업 순서를 기록합니다. 실험을 위해 저자를 분류합니다. 그룹을 읽으면 두 알고리즘의 결과가 융합 순서로 정렬되어 표시됩니다.
RC를 현재 모든 작성자가 지원하지 않는 온라인 정렬 솔루션으로 만들고 RT에서 모든 지식 작성자의 권리를 높입니다. RC와 RT의 정렬 결과를 병합한 후 먼저 실험군의 RT에 해당하는 저자(T1T2)를 최종 그룹의 해당 정렬 위치에 배치하고, 대조군의 저자는 원본과 무관한 순서로 유지한다. 실험. 보수적으로 트래픽이 적은 기간에는 실험적인 작품을 제외하고 다른 작품은 원래 순서대로 작성하는 것이 좋습니다. 실험이 추정된 경우 RT 결과가 전체적으로 사용됩니다.
위의 실험 설계에 따르면 실험군과 대조군의 작품이 같은 위치를 두고 경쟁한다면 가장 간단한 방법은 무작위로 선택하는 것입니다. 이런 일이 일어날 확률은 매우 낮습니다.
a=2라고 가정할 때 실험 그룹과 통제 그룹 모두 전체 트래픽의 1%를 차지하는 경우
한 번에 10개의 작품이 홍보된다고 가정할 때, 실험군과 대조군 모두 상위 10개의 작품이 나올 확률은 위 그림과 같이 계산되며 약 3.3%입니다. 두 알고리즘이 완전히 독립적인 경우 동일한 상위 10개 위치에서 충돌 가능성은 더 낮습니다.
RC와 RT의 상관 관계가 높고 충돌이 적기 때문에 개선은 점진적인 경우가 많습니다. 동시에 오프라인 테스트를 통해 충돌 가능성도 미리 예측할 수 있습니다.
위의 양자 실험의 주요 지표 평가는 다음 세 가지로 나눌 수 있습니다.
현재 실험 설계의 주요 문제는 다음과 같은 측면을 포함합니다.
(1) 우선 정책 인센티브가 있는 경우 두 세트의 정렬을 유지하는 데 엔지니어링 측면에서 일정한 비용이 듭니다. 융합 없이 두 가지 관점을 유지하는 것은 쉽지 않습니다.
(2) 둘째, 알고리즘 데이터 격리 측면에서 개선의 일부는 다음과 같습니다. 데이터 자체와 모델 자체가 크게 변경되었으므로 정렬 알고리즘의 논리가 더 이상 확립되지 않습니다.
(3) 셋째, 계산에서는 a=2%로 가정하는데, 트래픽이 많아지면 작은 효과를 테스트하면 a 값을 높일 수 있나요? 더 큰 트래픽 충돌 가능성을 줄이기 위해 비례 혼합을 무작위로 선택합니다. 마지막으로, 양자 문제는 일방적으로 해결될 수 있는지 여부는 향후 모색될 예정이다.
위 내용은 Kuaishou 양면 시장의 복잡한 실험 설계 문제의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!