강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?
짧은 동영상 추천 시스템의 핵심 목표는 사용자 유지율을 높여 DAU 성장을 촉진하는 것입니다. 따라서 리텐션은 각 APP의 핵심 비즈니스 최적화 지표 중 하나입니다. 그러나 리텐션은 사용자와 시스템 간의 여러 상호 작용 이후의 장기적인 피드백이므로 단일 항목이나 단일 목록으로 분해하기 어렵기 때문에 기존 포인트 방식 및 목록 방식 모델에서는 직접적으로 수행하기가 어렵습니다. 보존을 최적화합니다.
강화 학습(RL) 방법은 환경과 상호 작용하여 장기적인 보상을 최적화하며 사용자 유지를 직접적으로 최적화하는 데 적합합니다. 이 작업은 사용자가 추천 시스템에 조치를 결정하도록 요청할 때마다 다양한 단기 피드백 추정치를 집계하는 데 사용됩니다. 좋아요, 팔로우, 댓글, 리트윗 등) 순위 모델 점수를 매깁니다. 이 작업의 목표는 정책을 학습하고, 여러 사용자 세션 간의 누적 시간 간격을 최소화하고, 앱 실행 빈도를 높여 사용자 유지율을 높이는 것입니다.
그러나 보유 신호의 특성으로 인해 기존 RL 알고리즘을 직접 적용하는 데에는 다음과 같은 문제가 있습니다. 1) 불확실성: 보유 신호는 추천 알고리즘에 의해 결정될 뿐만 아니라 많은 외부 요인의 간섭을 받습니다. 2) 편향: 보유 신호는 다양합니다. 기간과 활동 수준이 다른 사용자 그룹에 차이가 있습니다. 3) 불안정성: 즉시 보상을 반환하는 게임 환경과 달리 보유 신호는 일반적으로 몇 시간에서 며칠 내에 반환됩니다. RL 알고리즘의 온라인 교육이 불안정합니다.
본 연구에서는 위의 과제를 해결하고 리텐션을 직접적으로 최적화하기 위해 RLUR(Reinforcement Learning for User Retention) 알고리즘을 제안합니다. 오프라인 및 온라인 검증을 통해 RLUR 알고리즘은 State of Art 기준에 비해 2차 보존 지수를 크게 향상시킬 수 있습니다. RLUR 알고리즘은 Kuaishou 앱에서 완벽하게 구현되었으며 지속적으로 상당한 2차 리텐션과 DAU 수익을 달성할 수 있습니다. 실제 제작 환경에서 사용자 리텐션을 향상시키기 위해 RL 기술이 사용된 것은 업계 최초입니다. 이 작업은 WWW 2023 산업 트랙에 승인되었습니다.
저자: Cai Qingpeng, Liu Shuchang, Wang Xueliang, Zuo Tianyou, Xie Wentao, Yang Bin, Zheng Dong, Jiang Peng
논문 주소: https://arxiv.org/ pdf/2302.01724 .pdf
Problem Modeling
그림 1(a)에서 볼 수 있듯이 이 작업은 보존 최적화 문제를 추천 시스템이 에이전트인 무한 지평선 요청 기반 Markov 결정 프로세스로 모델링합니다. 사용자는 환경입니다. 사용자가 앱을 열 때마다 새 세션 i가 열립니다. 그림 1(b)에서 볼 수 있듯이 사용자가 요청할 때마다 추천 시스템은 사용자 상태
에 따라 매개변수 벡터
를 결정하고 동시에 n개의 서로 다른 단기 항목의 순서를 추정합니다. 지표(시청 시간, 좋아요, 관심도 등) 모델은 각 후보 동영상 j
에 점수를 매깁니다. 그런 다음 정렬 기능은 각 동영상의 동작과 채점 벡터를 입력하여 각 동영상의 최종 점수를 얻고 가장 높은 점수를 받은 6개의 동영상을 선택하여 사용자에게 표시하면 사용자는 즉시 피드백
을 반환합니다. 사용자가 앱을 떠나면 이 세션이 종료됩니다. 사용자가 다음에 앱을 열 때 세션 i+1이 열립니다. 이전 세션이 끝나고 다음 세션이 시작될 때까지의 시간 간격을 반환 시간( 복귀시간),
. 본 연구의 목표는 여러 세션에 대한 콜백 시간의 합을 최소화하는 전략을 훈련하는 것입니다.
RLUR 알고리즘
이 연구에서는 먼저 누적 재방문 시간을 추정하는 방법을 논의한 다음 유지된 신호의 몇 가지 주요 과제를 해결하는 방법을 제안합니다. 이러한 방법은 RLUR로 약칭되는 사용자 유지 알고리즘을 위한 강화 학습으로 요약됩니다.
재방문 시간 추정
그림 1(d)와 같이 행위가 연속적이므로 본 연구에서는 DDPG 알고리즘의 시간차(TD) 학습 방법을 사용하여 재방문 시간을 추정한다. .
각 세션의 마지막 요청에만 재방문 시간 보상이 있으므로 중간 보상은 0이므로 작성자가 할인 요소를 설정합니다. 각 세션의 마지막 요청 값은
, 기타 요청은 1입니다. 이 설정을 사용하면 재방문 시간이 기하급수적으로 감소하는 것을 방지할 수 있습니다. 그리고 손실(1)이 0일 때 Q는 실제로 여러 세션의 누적 반환 시간
을 추정한다는 것이 이론적으로 입증될 수 있습니다.
보상 지연 문제 해결
재방문 시간은 각 세션이 끝날 때만 발생하므로 학습 효율성이 떨어지는 문제가 발생합니다. 따라서 저자는 정책 학습을 강화하기 위해 경험적 보상을 사용합니다. 단기 피드백은 유지와 긍정적인 관련이 있기 때문에 저자는 단기 피드백을 첫 번째 경험적 보상으로 사용합니다. 그리고 저자는 두 번째 휴리스틱 보상으로 각 샘플의 내재적 보상을 계산하기 위해 RND(Random Network Distillation) 네트워크를 채택했습니다. 구체적으로 RND 네트워크는 두 개의 동일한 네트워크 구조를 사용합니다. 하나의 네트워크는 고정으로 무작위로 초기화되고 다른 네트워크는 고정 네트워크에 적합하며 피팅 손실이 내재적 보상으로 사용됩니다. 그림 1(e)에서 볼 수 있듯이, 유지 보상에 대한 경험적 보상의 간섭을 줄이기 위해 이 작업에서는 별도의 비판 네트워크를 학습하여 단기 피드백과 내재적 보상의 합을 추정합니다. 바로 입니다.
불확실성 문제 해결
재방문 시간은 추천 이외에도 여러 요소에 영향을 받기 때문에 불확실성이 높아 학습 효과에 영향을 미치게 됩니다. 이 작업은 분산을 줄이기 위한 정규화 방법을 제안합니다. 먼저 재방문 시간 확률을 추정하기 위해 분류 모델 을 추정합니다. 즉, 재방문 시간이
보다 짧은지 추정한 다음 Markov 불평등을 사용하여 더 낮은 값을 얻습니다. 재방문 시간의 경계,
; 마지막으로 실제 재방문 시간/예상 재방문 시간 하한이 정규화된 재방문 보상으로 사용됩니다.
편향 문제 해결
다양한 활성 그룹의 행동 습관의 큰 차이로 인해 고활성 사용자의 유지율이 높고 훈련 샘플의 수가 기존보다 훨씬 많습니다. 활성이 낮은 사용자로 인해 실시간 사용자 주도의 모델 학습이 과대평가됩니다. 이 문제를 해결하기 위해 이 작업은 다양한 고활동 그룹과 저활동 그룹에 대한 2가지 독립적인 전략을 학습하고 학습을 위해 서로 다른 데이터 스트림을 사용합니다. 배우는 보조 보상을 최대화하면서 재방문 시간을 최소화합니다. 그림 1(c)에서 볼 수 있듯이 활동량이 많은 그룹을 예로 들면 배우 손실은 다음과 같습니다.
불안정한 문제 해결
재방문 시간의 신호 지연으로 인해 일반적으로 몇 시간에서 며칠 내에 돌아오므로 RL 온라인 교육이 불안정해질 수 있습니다. 그러나 기존의 행동 복제 방법을 직접적으로 사용하는 것은 학습 속도를 크게 제한하거나 안정적인 학습을 보장하지 못합니다. 따라서 이 연구에서는 액터 손실에 소프트 정규화 계수를 곱하는 새로운 소프트 정규화 방법을 제안합니다.
이 정규화 방법은 본질적으로 제동 효과입니다. 현재 학습이 편차인 경우 전략과 샘플 전략 사이의 크기가 크면 손실이 작아지고 학습이 안정됩니다. 학습 속도가 안정되면 손실이 다시 커지고 학습 속도가 빨라집니다. 이면 학습 과정에 제한이 없음을 의미합니다.
오프라인 실험
이 작업은 RLUR을 State of the Art의 강화 학습 알고리즘 TD3 및 공개 데이터 세트 KuaiRand의 블랙박스 최적화 방법인 Cross Entropy Method(CEM)와 비교합니다. 이 작업은 먼저 KuaiRand 데이터 세트를 기반으로 유지 시뮬레이터를 구축합니다. 세 가지 모듈(사용자 즉각적인 피드백, 사용자 세션 종료, 사용자 재방문)을 포함하고 이 유지 시뮬레이터 평가 방법을 사용합니다.
표 1은 재방문 시간 및 2차 유지 지표 측면에서 RLUR이 CEM 및 TD3보다 훨씬 우수하다는 것을 보여줍니다. 이 연구는 RLUR을 유지 학습 부분(RLUR(순진))과 비교하기 위해 절제 실험을 수행합니다. 이는 유지 문제를 해결하기 위한 이 연구 접근 방식의 효율성을 설명할 수 있습니다. 그리고 과
의 비교를 통해 단일 세션의 재방문 시간을 최소화하는 것보다 여러 세션의 재방문 시간을 최소화하는 알고리즘이 더 나은 것으로 나타났습니다.
온라인 실험
이 작업은 Kuaishou 짧은 동영상 추천 시스템에서 A/B 테스트를 수행하여 RLUR과 CEM 방법을 비교합니다. 그림 2는 각각 RLUR 및 CEM과 비교하여 앱 개봉 빈도, DAU, 첫 번째 유지율, 7번째 유지율의 개선 비율을 보여줍니다. 앱을 여는 빈도가 점차 증가하고 심지어 0일부터 100일까지 수렴되는 것을 확인할 수 있습니다. 또한 2차 유지, 7차 유지 및 DAU 지표의 개선을 주도합니다(0.1% DAU 및 0.01% 2차 유지 개선은 통계적으로 유의미한 것으로 간주됩니다).
요약 및 향후 작업
이 논문은 RL 기술을 통해 추천 시스템의 사용자 유지를 개선하는 방법을 연구합니다. 이 작업은 무한한 범위 요청 세분성을 갖춘 Markov 의사 결정 프로세스로 유지 최적화를 모델화합니다. 보존을 직접 최적화하고 신호 보존과 관련된 몇 가지 주요 문제를 효과적으로 해결합니다. RLUR 알고리즘은 Kuaishou 앱에서 완전히 구현되었으며 상당한 2차 유지 및 DAU 수익을 달성할 수 있습니다. 향후 작업과 관련하여 오프라인 강화 학습, Decision Transformer 및 기타 방법을 사용하여 사용자 유지율을 보다 효과적으로 향상시키는 방법은 유망한 방향입니다.
위 내용은 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











위에 작성 및 저자의 개인적인 이해: 현재 전체 자율주행 시스템에서 인식 모듈은 중요한 역할을 합니다. 자율주행 시스템의 제어 모듈은 적시에 올바른 판단과 행동 결정을 내립니다. 현재 자율주행 기능을 갖춘 자동차에는 일반적으로 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등 다양한 데이터 정보 센서가 장착되어 다양한 방식으로 정보를 수집하여 정확한 인식 작업을 수행합니다. 순수 비전을 기반으로 한 BEV 인식 알고리즘은 하드웨어 비용이 저렴하고 배포가 용이하며, 출력 결과를 다양한 다운스트림 작업에 쉽게 적용할 수 있어 업계에서 선호됩니다.

C++의 기계 학습 알고리즘이 직면하는 일반적인 과제에는 메모리 관리, 멀티스레딩, 성능 최적화 및 유지 관리 가능성이 포함됩니다. 솔루션에는 스마트 포인터, 최신 스레딩 라이브러리, SIMD 지침 및 타사 라이브러리 사용은 물론 코딩 스타일 지침 준수 및 자동화 도구 사용이 포함됩니다. 실제 사례에서는 Eigen 라이브러리를 사용하여 선형 회귀 알고리즘을 구현하고 메모리를 효과적으로 관리하며 고성능 행렬 연산을 사용하는 방법을 보여줍니다.

강화 학습(RL)은 에이전트가 시행착오를 통해 환경에서 행동하는 방법을 학습할 수 있는 기계 학습 방법입니다. 에이전트는 원하는 결과로 이어지는 조치를 취한 것에 대해 보상을 받거나 처벌을 받습니다. 시간이 지남에 따라 에이전트는 예상 보상을 최대화하는 조치를 취하는 방법을 학습합니다. RL 에이전트는 일반적으로 순차적 결정 문제를 모델링하기 위한 수학적 프레임워크인 Markov 결정 프로세스(MDP)를 사용하여 교육됩니다. MDP는 네 부분으로 구성됩니다. 상태: 환경의 가능한 상태 집합입니다. 작업: 에이전트가 수행할 수 있는 일련의 작업입니다. 전환 함수(Transition function): 현재 상태와 동작을 고려하여 새로운 상태로 전환할 확률을 예측하는 함수입니다. 보상 기능: 각 전환에 대해 에이전트에게 보상을 할당하는 기능입니다. 에이전트의 목표는 정책 기능을 학습하는 것입니다.

C++정렬 함수의 맨 아래 계층은 병합 정렬을 사용하고 복잡도는 O(nlogn)이며 빠른 정렬, 힙 정렬 및 안정 정렬을 포함한 다양한 정렬 알고리즘 선택을 제공합니다.

인공지능(AI)과 법 집행의 융합은 범죄 예방 및 탐지의 새로운 가능성을 열어줍니다. 인공지능의 예측 기능은 범죄 행위를 예측하기 위해 CrimeGPT(범죄 예측 기술)와 같은 시스템에서 널리 사용됩니다. 이 기사에서는 범죄 예측에서 인공 지능의 잠재력, 현재 응용 프로그램, 직면한 과제 및 기술의 가능한 윤리적 영향을 탐구합니다. 인공 지능 및 범죄 예측: 기본 CrimeGPT는 기계 학습 알고리즘을 사용하여 대규모 데이터 세트를 분석하고 범죄가 발생할 가능성이 있는 장소와 시기를 예측할 수 있는 패턴을 식별합니다. 이러한 데이터 세트에는 과거 범죄 통계, 인구 통계 정보, 경제 지표, 날씨 패턴 등이 포함됩니다. 인간 분석가가 놓칠 수 있는 추세를 식별함으로써 인공 지능은 법 집행 기관에 권한을 부여할 수 있습니다.

01 전망 요약 현재로서는 탐지 효율성과 탐지 결과 간의 적절한 균형을 이루기가 어렵습니다. 우리는 광학 원격 탐사 이미지에서 표적 감지 네트워크의 효과를 향상시키기 위해 다층 특징 피라미드, 다중 감지 헤드 전략 및 하이브리드 주의 모듈을 사용하여 고해상도 광학 원격 감지 이미지에서 표적 감지를 위한 향상된 YOLOv5 알고리즘을 개발했습니다. SIMD 데이터 세트에 따르면 새로운 알고리즘의 mAP는 YOLOv5보다 2.2%, YOLOX보다 8.48% 우수하여 탐지 결과와 속도 간의 균형이 더 잘 이루어졌습니다. 02 배경 및 동기 원격탐사 기술의 급속한 발전으로 항공기, 자동차, 건물 등 지구 표면의 많은 물체를 묘사하기 위해 고해상도 광학 원격탐사 영상이 활용되고 있다. 원격탐사 이미지 해석에서 물체 감지

1. 58초상화 플랫폼 구축 배경 먼저, 58초상화 플랫폼 구축 배경에 대해 말씀드리겠습니다. 1. 기존 프로파일링 플랫폼의 전통적인 사고로는 더 이상 충분하지 않습니다. 사용자 프로파일링 플랫폼을 구축하려면 여러 비즈니스 라인의 데이터를 통합하여 정확한 사용자 초상화를 구축하는 데이터 웨어하우스 모델링 기능이 필요합니다. 그리고 알고리즘 측면의 기능을 제공해야 하며, 마지막으로 사용자 프로필 데이터를 효율적으로 저장, 쿼리 및 공유하고 프로필 서비스를 제공할 수 있는 데이터 플랫폼 기능도 있어야 합니다. 자체 구축한 비즈니스 프로파일링 플랫폼과 중간 사무실 프로파일링 플랫폼의 주요 차이점은 자체 구축한 프로파일링 플랫폼이 단일 비즈니스 라인에 서비스를 제공하고 필요에 따라 사용자 정의할 수 있다는 것입니다. 모델링하고 보다 일반적인 기능을 제공합니다. 2.58 Zhongtai 초상화 구성 배경의 사용자 초상화

위에 쓴 글 & 저자의 개인적인 이해는 자율주행 시스템에서 인지 작업은 전체 자율주행 시스템의 중요한 구성 요소라는 것입니다. 인지 작업의 주요 목표는 자율주행차가 도로를 주행하는 차량, 길가의 보행자, 주행 중 직면하는 장애물, 도로 위의 교통 표지판 등 주변 환경 요소를 이해하고 인지하여 하류에 도움을 주는 것입니다. 모듈 정확하고 합리적인 결정과 행동을 취하십시오. 자율주행 기능을 갖춘 차량에는 일반적으로 자율주행 차량이 정확하게 인식하고 인식할 수 있도록 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등과 같은 다양한 유형의 정보 수집 센서가 장착됩니다. 주변 환경 요소를 이해하여 자율 주행 중에 자율 차량이 올바른 결정을 내릴 수 있도록 합니다. 머리
