포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 문제를 해결하는 행렬 분해 알고리즘
저자 | Wang Hao
리뷰어 | Sun Shujuan
추천 시스템은 인터넷 업계에서 가장 널리 사용되는 기술 중 하나입니다. 지난 10년 동안 인터넷 업계에서는 추천 시스템 모델의 반복 버전이 수백만 개나 생산되었습니다. 다양한 시나리오에 최적화된 추천 시스템 모델은 많지만 클래식 모델은 거의 없습니다. 매트릭스 분해는 추천 시스템 분야 초기에 등장해 넷플릭스 경쟁에서 두각을 나타낸 추천 시스템 알고리즘으로, 지난 10년간 가장 성공적인 추천 시스템 알고리즘이다. 2023년 현재 추천 시스템 분야는 오랫동안 딥러닝이 지배하고 있지만, 행렬 분해는 여전히 주요 기업의 연구 개발 프로세스에서 널리 사용되고 있으며 관련 알고리즘을 연구하는 과학 연구자도 여전히 많습니다.
행렬 분해 알고리즘에 관한 가장 고전적인 논문은 2007 Probabilistic Matrix Factorization입니다. 이를 바탕으로 후세대에서는 2021년 RankMat(논문 다운로드 주소: https://arxiv.org/abs/2204.13016), ZeroMat(논문 다운로드 주소: https://arxiv. org /abs/2112.03084) 및 2022년 DotMat(논문 다운로드 주소: https://arxiv.org/abs/2206.00151), KL-Mat(논문 다운로드 주소: https://arxiv.org/abs/2204.13583/코드 다운로드) 주소: https://github.com/haow85/KL-Mat) 등 추천 시스템은 단순성, 사용 용이성 및 빠른 속도로 인해 인터넷 업계 엔지니어들에게 깊은 사랑을 받고 있습니다.
추천 시스템의 콜드 스타트 문제는 올해 많은 주목을 받은 또 다른 연구 핫스팟입니다. 추천 시스템을 해결하기 위한 많은 실무자들의 아이디어는 전이 학습과 메타 학습입니다. 그러나 이 아이디어에는 다른 지식 분야의 데이터가 필요하다는 치명적인 결함이 있다. 많은 회사가 이 조건을 충족하지 못합니다. 실제로 데이터가 전혀 필요하지 않은 콜드 스타트 알고리즘은 2021년 ZeroMat이 제안된 이후 등장했습니다. 대표적인 알고리즘으로는 앞 절에서 언급한 ZeroMat과 DotMat이 있다. 본 글에서 소개할 푸아송 행렬 분해 알고리즘(PoissonMat)은 2022년 국제학술대회 MLISE 2022에 게재된 논문이다. 논문 이름은 PoissonMat: Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem Without Input Data(논문 다운로드 주소: https://arxiv.org/abs/2212.10460)입니다.
먼저 확률적 행렬 분해의 MAP 정의를 검토합니다.
그런 다음 항목을 평가하는 사용자의 동작을 포아송 분포로 정의합니다. Poisson 분포의 정의에 따르면 다음 공식을 얻습니다.
Poisson 공식의 매개변수 정의에 따르면 다음과 같습니다.
Zipf 분포에 따르면 다음을 얻을 수 있습니다. 다음 공식:
위 공식을 기반으로 포아송 행렬 분해(PoissonMat)의 분석 형식을 얻습니다.
확률적 경사하강법 알고리즘을 사용하여 위 공식을 풀면 다음을 얻습니다. 알고리즘 흐름에 따른 다음 :
저자는 Movielens 1 백만 데이터 세트 및 LDOS-Comoda 데이터 세트에서 알고리즘 정확도와 공정성을 실험적으로 비교했습니다. MovieLens 100만 데이터세트의 분해
그림 2 LDOS-CoMoDa 데이터세트의 포아송 행렬 분해 비교 실험
실험적 비교 결과를 바탕으로 다음과 같은 결론을 내릴 수 있습니다. 포아송 행렬 분해(PoissonMat)가 정확도와 공정성 측면에서 더 나은 성능을 보입니다. 지표는 다른 알고리즘보다 우수합니다. 칭찬할만한 점은 포아송 행렬 분해 알고리즘이 입력 데이터를 전혀 사용하지 않고 콜드 스타트 문제를 잘 해결하는 완전한 제로샷 학습 알고리즘이라는 점입니다.
마지막으로 저자는 16G RAM과 Intel Core i5를 탑재한 Lenovo 홈 노트북에서 실험을 수행했습니다. 알고리즘은 매우 빠르게 실행되고 구현도 매우 간단합니다.
추천 시스템의 콜드 스타트 문제를 해결하는 것을 목표로 하는 제로샷 학습 알고리즘은 현재 연구 핫스팟입니다. 2021년 ZeroMat 알고리즘을 시작으로 제로샷 학습 문제를 해결하기 위해 어떠한 데이터도 필요하지 않은 진정한 제로샷 학습 알고리즘입니다. 본 기사에서 소개하는 포아송 행렬 분해 알고리즘(PoissonMat)은 ZeroMat 및 후속 알고리즘인 DotMat보다 성능이 뛰어나며 현재 이 분야 최고의 알고리즘 중 하나입니다. 관련 연구는 아직 초기 단계이므로 대다수 과학기술 실무자들의 관심과 관심을 끌기를 바랍니다.
저자 소개
왕하오(Wang Hao) 전 펀플러스 인공지능 연구소 소장이자 전 헝창리통 빅데이터 부서장입니다. 미국 유타대학교에서 학사(2008), 석사(2010)를 취득했습니다. 국제경영경제대학교 파트타임 MBA(2016). 추천 시스템(공정성/시나리오 기반 추천/콜드 스타트/해석성/순위 학습), 컴퓨터 그래픽(기하학적 모델링/시각화), 자연어 처리(산업 분야 구현 애플리케이션), 위험 제어 및 사기 방지(금융/의료) 다년간의 경험과 남다른 통찰력으로 다양한 방향으로 나아가고 있습니다. 그는 인터넷(Douban, Baidu, Sina, NetEase 등), 금융 기술(Hengchang Litong) 및 게임 회사(Funplus 등)에서 12년간의 기술 R&D 및 관리 경험을 보유하고 있습니다. 국제학술대회 및 저널에 30편의 논문을 게재하였고, 3개의 국제학술대회 최우수논문상/우수논문보고상(IEEE SMI 2008 최우수논문상/ICBDT 2020 최우수 구두발표상/ICISCAE 2021 최우수 구두발표상)을 수상하였습니다. 2006 ACM/ICPC 북미 로키산맥 지역 대회 금메달. 2004년 전국대학 영어능력대회 스피킹 결승 동메달. 2003년 진안대학 입학시험에서 이공계 영어 부문 1위를 차지했다.
위 내용은 포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 문제를 해결하는 행렬 분해 알고리즘의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











위에 작성 및 저자의 개인적인 이해: 현재 전체 자율주행 시스템에서 인식 모듈은 중요한 역할을 합니다. 자율주행 시스템의 제어 모듈은 적시에 올바른 판단과 행동 결정을 내립니다. 현재 자율주행 기능을 갖춘 자동차에는 일반적으로 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등 다양한 데이터 정보 센서가 장착되어 다양한 방식으로 정보를 수집하여 정확한 인식 작업을 수행합니다. 순수 비전을 기반으로 한 BEV 인식 알고리즘은 하드웨어 비용이 저렴하고 배포가 용이하며, 출력 결과를 다양한 다운스트림 작업에 쉽게 적용할 수 있어 업계에서 선호됩니다.

C++의 기계 학습 알고리즘이 직면하는 일반적인 과제에는 메모리 관리, 멀티스레딩, 성능 최적화 및 유지 관리 가능성이 포함됩니다. 솔루션에는 스마트 포인터, 최신 스레딩 라이브러리, SIMD 지침 및 타사 라이브러리 사용은 물론 코딩 스타일 지침 준수 및 자동화 도구 사용이 포함됩니다. 실제 사례에서는 Eigen 라이브러리를 사용하여 선형 회귀 알고리즘을 구현하고 메모리를 효과적으로 관리하며 고성능 행렬 연산을 사용하는 방법을 보여줍니다.

C++정렬 함수의 맨 아래 계층은 병합 정렬을 사용하고 복잡도는 O(nlogn)이며 빠른 정렬, 힙 정렬 및 안정 정렬을 포함한 다양한 정렬 알고리즘 선택을 제공합니다.

인공지능(AI)과 법 집행의 융합은 범죄 예방 및 탐지의 새로운 가능성을 열어줍니다. 인공지능의 예측 기능은 범죄 행위를 예측하기 위해 CrimeGPT(범죄 예측 기술)와 같은 시스템에서 널리 사용됩니다. 이 기사에서는 범죄 예측에서 인공 지능의 잠재력, 현재 응용 프로그램, 직면한 과제 및 기술의 가능한 윤리적 영향을 탐구합니다. 인공 지능 및 범죄 예측: 기본 CrimeGPT는 기계 학습 알고리즘을 사용하여 대규모 데이터 세트를 분석하고 범죄가 발생할 가능성이 있는 장소와 시기를 예측할 수 있는 패턴을 식별합니다. 이러한 데이터 세트에는 과거 범죄 통계, 인구 통계 정보, 경제 지표, 날씨 패턴 등이 포함됩니다. 인간 분석가가 놓칠 수 있는 추세를 식별함으로써 인공 지능은 법 집행 기관에 권한을 부여할 수 있습니다.

01 전망 요약 현재로서는 탐지 효율성과 탐지 결과 간의 적절한 균형을 이루기가 어렵습니다. 우리는 광학 원격 탐사 이미지에서 표적 감지 네트워크의 효과를 향상시키기 위해 다층 특징 피라미드, 다중 감지 헤드 전략 및 하이브리드 주의 모듈을 사용하여 고해상도 광학 원격 감지 이미지에서 표적 감지를 위한 향상된 YOLOv5 알고리즘을 개발했습니다. SIMD 데이터 세트에 따르면 새로운 알고리즘의 mAP는 YOLOv5보다 2.2%, YOLOX보다 8.48% 우수하여 탐지 결과와 속도 간의 균형이 더 잘 이루어졌습니다. 02 배경 및 동기 원격탐사 기술의 급속한 발전으로 항공기, 자동차, 건물 등 지구 표면의 많은 물체를 묘사하기 위해 고해상도 광학 원격탐사 영상이 활용되고 있다. 원격탐사 이미지 해석에서 물체 감지

1. 문제 배경: 콜드 스타트 모델링의 필요성과 중요성 클라우드 뮤직은 콘텐츠 플랫폼으로서 매일 엄청난 양의 새로운 콘텐츠를 온라인에 제공하고 있습니다. 클라우드 뮤직 플랫폼의 새로운 콘텐츠의 양은 짧은 동영상 등 다른 플랫폼에 비해 상대적으로 적지만, 실제 양은 모두의 상상을 훨씬 뛰어넘을 수 있습니다. 동시에 음악 콘텐츠는 짧은 동영상, 뉴스, 제품 추천 등과 크게 다릅니다. 음악의 수명주기는 매우 긴 기간에 걸쳐 있으며 종종 몇 년 단위로 측정됩니다. 어떤 노래는 몇 달, 몇 년 동안 휴면 상태였다가 폭발할 수도 있고, 클래식 노래는 10년이 지나도 여전히 강한 활력을 갖고 있을 수도 있습니다. 따라서 뮤직 플랫폼의 추천 시스템에서는 다른 카테고리를 추천하는 것보다 비인기, 롱테일 고품질 콘텐츠를 발굴하여 적합한 사용자에게 추천하는 것이 더 중요합니다.

1. 58초상화 플랫폼 구축 배경 먼저, 58초상화 플랫폼 구축 배경에 대해 말씀드리겠습니다. 1. 기존 프로파일링 플랫폼의 전통적인 사고로는 더 이상 충분하지 않습니다. 사용자 프로파일링 플랫폼을 구축하려면 여러 비즈니스 라인의 데이터를 통합하여 정확한 사용자 초상화를 구축하는 데이터 웨어하우스 모델링 기능이 필요합니다. 그리고 알고리즘 측면의 기능을 제공해야 하며, 마지막으로 사용자 프로필 데이터를 효율적으로 저장, 쿼리 및 공유하고 프로필 서비스를 제공할 수 있는 데이터 플랫폼 기능도 있어야 합니다. 자체 구축한 비즈니스 프로파일링 플랫폼과 중간 사무실 프로파일링 플랫폼의 주요 차이점은 자체 구축한 프로파일링 플랫폼이 단일 비즈니스 라인에 서비스를 제공하고 필요에 따라 사용자 정의할 수 있다는 것입니다. 모델링하고 보다 일반적인 기능을 제공합니다. 2.58 Zhongtai 초상화 구성 배경의 사용자 초상화

1. 원인과 결과 보정의 배경 1. 추천 시스템에서 편차가 발생합니다. 추천 모델은 사용자에게 적합한 항목을 추천하기 위해 데이터를 수집하여 학습됩니다. 사용자가 추천 항목과 상호 작용할 때 수집된 데이터는 모델을 추가로 훈련하는 데 사용되어 폐쇄 루프를 형성합니다. 그러나 이 폐쇄 루프에는 다양한 영향 요인이 있을 수 있으며 이로 인해 오류가 발생할 수 있습니다. 오류가 발생하는 주된 원인은 모델 훈련에 사용되는 데이터의 대부분이 이상적인 훈련 데이터가 아닌 관찰 데이터이기 때문에 노출 전략, 사용자 선택 등의 요인에 영향을 받습니다. 이러한 편향의 본질은 경험적 위험 추정치의 기대치와 실제 이상적인 위험 추정치의 기대치 사이의 차이에 있습니다. 2. 공통 편향 추천 마케팅 시스템에는 세 가지 주요 유형의 공통 편향이 있습니다. 선택적 편향: 사용자의 뿌리에 기인합니다.
