これはUGの全景です。
UG 顧客を獲得し、有料広告、ASO、SEO、その他のチャネルを通じてトラフィックをアプリに誘導します。次に、初心者向けの操作と指導を行って、ユーザーを活性化し、成熟段階に持っていきます。後続のユーザーは徐々に非アクティブになり、減少期に入り、さらには解約期に入る可能性があります。この期間中、離脱に対する早期警告、アクティベーションを促進するためのリコール、その後失われたユーザーに対するいくつかのリコールを行います。
は、上の図の式のように要約できます。つまり、DAU は DNU と LT の積に等しいということです。 UG シナリオのすべての作業は、この公式に基づいて分解できます。
AB 実験の目的は、分布を完全にランダム化することです。実験グループと異なる対照グループに異なる戦略を使用して、トラフィックの分析を行います。最後に、統計的手法と実験仮説を組み合わせることによって科学的な決定が下され、実験全体の枠組みが構成されます。現在、市場には実験的プラットフォーム配布とクライアント ローカル配布の 2 種類の実験的配布があります
実験的プラットフォーム配布には前提条件があります。初期化完了後にデバイスが安定した ID を取得するために必要な ID に基づいて、実験プラットフォームはオフロード関連のロジックを完了するように要求され、オフロード ID がエンドポイントに返され、エンドポイントはそれに基づいて対応する戦略を作成します。受け取ったID。その利点は、シャントの均一性と安定性を保証できる実験プラットフォームを備えていることです。欠点は、実験的な分路を実行する前に機器を初期化する必要があることです。
もう 1 つのオフロード方法は、クライアント ローカル オフロードです。この方法は比較的ニッチであり、主に一部の UG シーン、広告画面のオープニング シーン、およびパフォーマンスの初期化シーンに適しています。このようにして、クライアントが初期化されるときに、すべてのオフロード ロジックが完了します。その利点は明らかであり、遅延がなく、電源を入れてすぐに配信を実行できます。論理的に言えば、その分布の均一性も保証できます。しかし、実際のビジネスシーンでは、その分布の均一性に問題が生じることがよくあります。その理由は次で紹介します
3. 新しいユーザー シナリオ AB 実験が直面する問題UG シナリオが実際に直面する最初の問題は、トラフィックを早期に迂回することです。できるだけ。
ここにトラフィック受け入れページなどの例を示します。プロダクト マネージャーは、UI を最適化してコア インジケーターを改善できると感じています。このようなシナリオでは、実験ができるだけ早く優先順位付けされることを願っています。
ページ 1 のオフロード プロセス中に、デバイスが初期化され、ID が取得されます。 18.62% のユーザーが ID を生成できません。従来の実験的なプラットフォームの転用方法を使用すると、ユーザーの 18.62% がグループ化されず、固有の選択バイアスの問題が発生します
#さらに、新規ユーザーのトラフィックは非常に貴重です新規ユーザーの 18.62% が実験に利用できなくなり、実験期間とトラフィック利用効率に大きな損失が生じます。
将来的には、実験のオフロードの問題をできるだけ早く解決するために、クライアントを使用して実験をローカルにオフロードする予定です。利点は、デバイスの初期化時にオフロードが完了することです。原理は、まず、端末で初期化するときに、端末自体が乱数を生成し、その乱数をハッシュして同じ方法でグループ化し、それによって実験グループと対照グループを生成できるということです。原則として、トラフィックの均等な分散を確保することは可能ですが、上図の一連のデータから、21% 以上のユーザーが繰り返し異なるグループに入っていることがわかります。
Honor of Kings や Douyin などの非常に人気のある製品のユーザーが中毒になりやすいシナリオがあります。新規ユーザーは、実験サイクル中に何度もアンインストールと再インストールを行います。先ほど述べたローカル転用ロジックによれば、乱数の生成と転用によりユーザーが異なるグループに入ることができるため、転用 ID と統計 ID は 1 対 1 に一致できません。このことが偏在の問題を引き起こした。
#新しいユーザー シナリオでは、実験的な評価基準の問題にも直面します。
この新規ユーザー トラフィックのシナリオのタイム チャートを再編成しました。アプリケーションの起動時に、オフロードを選択しました。均一な配布タイミングを達成し、同時にそれに対応する戦略的効果を生み出すことができると仮定します。次に、指標統計IDを生成するタイミングは戦略効果のタイミングよりも遅く、その時点で初めてデータを観測することができます。データ観測のタイミングが戦略効果のタイミングより大幅に遅れるため、生存者バイアスが発生します
上記課題を解決するために、新たな実験システムを提案し、科学的に検証しました
1. 新規ユーザーシナリオ実験流用ID選択前述したように、新規ユーザーの流用選択の要件は比較的高いため、新規ユーザーの実験用の流用 ID はどのように選択すればよいでしょうか?以下にいくつかの原則を示します。
転用 ID を選択すると、転用能力は次のようになります。多くの場合、2 つの方法があり、1 つ目は実験プラットフォームを使用する方法、2 つ目は最後まで使用する方法です。
転用 ID を取得したら、その転用 ID を実験的プラットフォームに提供して、実験的プラットフォームでの転用機能を完成させます。配信プラットフォームとして最も基本的なことは、ランダム性を検証することです。 1つ目は均一性です。実験の同じレイヤーでは、トラフィックは多くのバケットに均等に分割され、各バケット内のグループの数は偶数である必要があります。ここで単純化すると、1 つの層に実験が 1 つだけあり、それを 2 つのグループ (a と b) に分けた場合、対照グループと実験グループのユーザー数はほぼ同じになるはずであり、これによって均一性が検証されます。転用能力。第二に、多層実験の場合、多層実験が相互に直交し、影響を受けないようにする必要があり、同様に、異なる層での実験間の直交性も検証する必要があります。均一性と直交性は、統計的カテゴリー検定を通じて検証できます。
転用選択の ID と転用機能を導入した後、最後に、新しく提案された転用結果が AB 実験の要件をインジケーター結果レベルから満たしているかどうかを検証する必要があります。
3. 転用結果の科学的検証社内プラットフォームを使用して、複数の対空シミュレーションを実施しました
比較対照群と実験群が対応する指標に関する実験の要件を満たしているかどうか。次に、この一連のデータを見てみましょう。
t 検定のいくつかのインデックス グループをサンプリングしました。非常に多くの実験において、タイプ 1 の誤り率は非常に低い確率であることが理解できます。タイプ 1 の誤り率は約 0.055% になる予定で、その信頼区間は実際には約 1000 回、つまり 0.0365 ~ 0.0635 の間にあるはずです。最初の列でサンプリングされたインジケーターの一部はこの実行範囲内にあることがわかります。そのため、タイプ 1 エラー率の観点からは、既存の実験システムは問題ありません。
同時に、テストが t 統計のテストであることを考慮すると、対応する t 統計は、大規模なトラフィックの分布の下では正規分布にほぼ従うはずです。 t 検定統計量の正規分布を検定することもできます。ここでは正規分布検定が使用されており、検定結果も 0.05 よりはるかに大きい、つまり帰無仮説が確立されている、つまり t 統計量がほぼ正規分布に従っていることがわかります。
各検定について、t 統計検定結果の p 値は、非常に多くの実験でほぼ均一に分布しています。同時に、p 値も均一に分布しています。同様の結果も見られます。分布テストの pvalue_uniform_test では、これも 0.05 よりもはるかに大きくなっています。したがって、pvalue はほぼ一様分布に従うという帰無仮説も OK です。
以上、流用IDと指標計算口径、流用能力と流用結果指標結果の一対一対応から、新しく提案する実験流用システムを検証しました。科学的な性質。
以下は、UG シナリオにおける実際の適用事例と組み合わせて、実験評価の実施方法を詳しく説明します。 3 番目の質問は、
典型的な UG トラフィックです。受け入れシナリオ: トラフィック使用率を改善するために、NUJ の新しいユーザー ガイダンスまたは新しいユーザーのタスク中に多くの最適化が行われます。このときの評価基準は定着率であることが多く、これが現在の業界の共通認識となっています。
新しいユーザーのダウンロードからインストール、最初の起動までのプロセスを想定すると、PM はそのようなプロセスがユーザー、特にこれまで一度も使用したことのないユーザーにとって有用であると感じています。製品のこの部分のユーザーにとって敷居が高すぎます。ログインに誘導される前に、ユーザーはまず製品に慣れ、製品のヒップホップの瞬間を体験する必要がありますか?
さらに、プロダクト マネージャーは別の仮説を立てました。つまり、これまで製品を体験したことのないユーザーに対して、新しいユーザーがログインしたり、新しいユーザー NUJ シーン内の抵抗を軽減します。すでに製品を体験しているユーザーやデバイスを切り替えたユーザーについては、引き続きオンラインプロセスが使用されます。
#指標に基づいた転用方法ID はまずインジケーター ID を取得し、次にトリアージします。この分割方法は通常均一であり、実験結果や保持率と大きな差異はありません。このような結果から判断すると、総合的な判断を下すことは困難です。この種の実験は実際にはトラフィックの一部を無駄にし、選択バイアスの問題を抱えています。次の図は、ローカル シャント実験の結果を示しています。
グループに新規参入したデバイスの数その違いは信じられるほどです。同時に定着率の改善も見られますが、他のコア指標では実はマイナスになっており、このマイナスの方向性は実は定着率と大きく関係しているため理解しにくいのです。したがって、そのようなデータに基づいてそれを説明したり帰属させたりすることは困難であり、総合的な判断を下すことも困難です。
グループに繰り返し追加されたユーザーの状況を観察すると、20% 以上のユーザーが繰り返し異なるグループに割り当てられていることがわかります。これにより、AB 実験のランダム性が破壊され、科学的な比較決定を行うことが困難になります。
最後に、提案された新しいシャントの実験結果を見てみましょう。
オンにするとトラフィックを迂回できます。迂回容量は内部プラットフォームによって保証されており、トラフィックの均一性と安定性を確保できます。かなりの範囲で流用されています。実験データから判断すると、ほぼそれに近い値であり、平方根検定を行うと、十分にニーズを満たしていることがわかります。同時に、有効な新規デバイスの数が 1% と大幅に増加し、維持率も向上していることがわかります。同時に、対照グループまたは実験グループのみに注目すると、最終的に生成された新しいデバイスへの迂回 ID に基づくトラフィック変換率がわかり、実験グループは対照グループより 1% 高くなります。この結果の理由は、実験グループが実際に NUJ と NUT へのユーザーの入り口を拡大し、より多くのユーザーが入り、製品を体験し、その後滞在しやすくなったためです。
実験データをログイン部分と非ログイン部分に分割します。実験グループのユーザーでは、非ログイン部分を選択するユーザーが多いことがわかります。ログイン。製品を体験するためのログイン モードが追加され、継続率も向上しました。これも期待どおりの結果です。
ご覧のとおり、日ごとの指標とグループに入った人の実際のユーザー数は以前から書かれていますが、日ごとに見ると着実に増加しており、リテンション指数も向上しています。対照グループと比較して、実験グループは有効なデバイスの数と定着率が向上しました。
新規ユーザー トラフィックの受け入れシナリオでは、評価指標は維持率または短期 LT の観点からさらに評価されます。ここで、最適化は実際には LT レベルの 1 次元空間でのみ実行されます
しかし、新しい実験システムでは、1 次元の最適化が 2 次元の最適化に変換されます。次元の最適化 DNU God Shang LT は全体的に改良され、戦略空間が 1 次元から 2 次元に変更され、同時に、一部のシナリオでは LT の一部の損失が許容されるようになりました。
最後に、新しいユーザー シナリオにおける実験機能の構築と実験の評価基準についてまとめてみましょう。
以上がユーザー成長シナリオで AB 実験システムを構築するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。