AI가 주도하는 차세대 정보기술이 새로운 기술의 물결을 주도하고 있습니다. 최근 몇 년 동안 중국에서 가장 빠르게 발전하고 있는 모바일 인터넷 플랫폼 중 하나인 Xiaohongshu는 이러한 추세를 활용하여 그래픽, 텍스트 및 짧은 비디오 콘텐츠에 초점을 맞춘 대규모 UGC 커뮤니티를 형성했습니다. 이 독특하고 활동적인 커뮤니티에서는 매일 대량의 다중 모드 데이터와 사용자 행동 피드백이 생성되어 가치 있으면서도 도전적인 새로운 문제가 발생합니다.
현재 대규모 딥 러닝 시스템에서는 많은 흥미로운 개발이 진행되고 있습니다. 10월 15일 'Xiaohongshu REDtech Youth Technology Salon' 행사에서 Xiaohongshu Technology Cage 부사장은 'Xiaohongshu의 대규모 딥러닝 시스템 기술 및 응용'을 공유하고 'Mystery'를 공개했습니다.
Cage: Xiaohongshu 기술 담당 부사장 그는 Shanghai Jiao Tong University를 졸업했으며 한때 Huanju Times에서 기술 담당 부사장, Baidu Fengchao의 수석 설계자를 역임했으며 Baidu 검색 광고 CTR 기계 학습 알고리즘 작업을 담당했습니다. 그는 한때 IBM Deep Question Answering(DeepQA) 프로젝트의 중국 기술 리더를 역임했습니다.
다음 콘텐츠는 Cage의 현장 보고서를 바탕으로 작성되었습니다
Xiaohongshu는 많은 사람들이 함께 성장하는 콘텐츠 커뮤니티입니다. 삶을 이해하는 사람들, 나눔을 사랑하는 사람들이 이곳에서 서로의 삶의 경험과 태도를 교환하고 있으며, 점점 더 많은 사용자들이 참여하고 있습니다. 현재 Xiaohongshu의 월간 활성 사용자는 2억 명이며, 그 중 70% 이상이 1990년대 출생자이며, 50%는 1, 2선 도시 출신이고 절반은 3, 4선 도시 출신입니다. 사용자는 매우 부유하고 젊습니다.
"보통 사람들"은 자신의 "실제" "인생 경험"을 공유하고 있는데 이는 Xiaohongshu와 다른 콘텐츠 플랫폼 및 커뮤니티와의 매우 큰 차이점입니다. 첫째, 공유자는 '평범한 사람들'이다. 둘째, '진심한 나눔과 우호적인 교류'는 소홍슈 공동체의 관례이며, '성실함'은 매우 중요한 포인트이다. 이러한 커뮤니티에서의 나눔은 모두의 일상적인 '생활 경험'인 보물서점, 옷 입는 법, 장식하는 법, 요리하는 법 등 우리의 오프라인 생활 소비와 밀접한 관련이 있습니다.
또한 몇 가지 숫자를 사용하여 수년간 Xiaohongshu 커뮤니티의 발전을 측정할 수 있습니다. 게시된 노트의 수가 2018년부터 2021년까지, 그리고 2020년부터 2021년까지 매년 매우 빠른 속도로 증가하고 있음을 알 수 있습니다. , Xiaohongshu 사용자 노트 게시량이 전년 대비 150% 이상 증가했습니다.
이렇게 빠르게 발전하는 콘텐츠 커뮤니티에서 가장 중요한 3대 사업은 커뮤니티, 상업화, 전자상거래입니다.
우선, 저희의 콘텐츠 커뮤니티이자 콘텐츠 플랫폼은 모든 라이프 카테고리, 주로 UGC를 포괄하는 라이프스타일 콘텐츠 커뮤니티입니다. 또한 이러한 생활과 일상의 소비에 맞는 '진심한 나눔' 덕분에 사용자들은 우리 커뮤니티 콘텐츠에 대해 높은 신뢰도를 갖게 됩니다. 좋은 라이프스타일, 소비자 콘텐츠, 서비스 및 제품 등을 보면 누구나 '씨앗'을 받게 될 것입니다. "잔디", 우리는 독특한 "잔디 심기" 비즈니스 모델을 통해 브랜드와 효과의 변화를 가져옵니다.
"잔디를 심고 나면 뽑아줄 수 있나요?" 모두가 콘텐츠를 소비하면서 자신이 좋아하는 물건을 자연스럽고 편리하게 구매하고 싶어하는 것이 바로 우리의 효율적인 폐쇄 루프 소비 분야, 바로 전자상거래입니다.
멀티모달 기술은 AI 분야 전체에서 널리 주목받고 빠르게 발전하고 있는 기술 방향 중 하나입니다. UGC 커뮤니티와 콘텐츠 생태계에는 수많은 이미지, 비디오, 텍스트 및 사용자가 포함되어 있습니다. 행동 정보를 제공하여 대량의 고품질 다중 모드 데이터를 생성하므로 탁월한 실용적인 시나리오가 됩니다. 사용자는 좋은 콘텐츠를 보고 좋아하고, 다양한 검색 행위를 하고, 특정 동영상을 시청하는 등 실제 사용자 피드백의 상당 부분을 차지합니다.
이제 매일 사용자 행동을 통해 실제로 생성되는 피드백 샘플의 수는 수백억 개에 이릅니다. 대량 멀티모달 데이터에서 사용자가 관심 있는 콘텐츠와 좋은 비즈니스 콘텐츠를 채굴하는 방법. 이 목표에서 시작하여 많은 가치 있고 도전적인 문제가 도출됩니다.
이러한 기술을 어떻게 해결합니까?
샤오홍슈를 열면 가장 먼저 보이는 것은 폭포 흐름이나 나열된 콘텐츠 흐름입니다. 추천 시스템에서 모두에게 추천하는 콘텐츠입니다. 통계에 따르면 Xiaohongshu는 매일 수백억 건의 사용자 작업을 생성합니다. 이 데이터를 위해 Xiaohongshu의 기술팀은 LarC 기반의 머신러닝 프레임워크를 사용하여 모델을 학습하고, 사용자 행동의 규칙을 기반으로 사용자가 관심을 갖는 콘텐츠를 찾아 사용자에게 추천합니다.
아래 그림은 Xiaohongshu 추천 모델의 일반적인 구조를 보여줍니다. 사용자의 클릭수, 체류 시간, 좋아요 및 수집 여부 등을 예측할 수 있는 다중 작업 기계 학습 모델입니다. Xiaohongshu 플랫폼에서 생성된 대규모 계수 매개변수를 고려하여 Xiaohongshu는 대규모 충돌 없는 매개변수 서버를 통해 이러한 매개변수를 업데이트하고 캡처합니다.
추천 시스템의 온라인 교육은 다음과 같습니다. 사용자가 정보 흐름을 탐색할 때 추천 시스템은 사용자의 탐색, 클릭, 좋아요 및 기타 행동을 실시간으로 캡처하여 Flink의 실시간 처리 컴퓨팅 엔진을 기반으로 결합하여 고성능 샘플을 생성합니다. 예측을 위해 실시간으로 모델에 전송됩니다. 동시에 이러한 단기 축적 샘플은 모델 매개변수를 업데이트하기 위한 매우 짧은 온라인 교육에도 사용됩니다. 업데이트된 모델 매개변수는 다음 요청을 처리하기 위해 즉시 온라인에 게시됩니다. 전체 프로세스는 몇 분 안에 유지됩니다.
업계의 고전적인 질문도 있습니다. 예를 들어 사람들이 추천 콘텐츠를 검색할 때 종종 다음과 같은 질문을 합니다. 내가 전에 본 것들은 왜 집중적으로 푸시되나요? 내가 보는 것이 신선하지 않다면 어떻게 해야 하나요?
추천 시나리오에서 더 짧은 기간에 초점을 맞추면 추적 및 정보 보호의 심각한 문제가 발생할 수 있습니다. Xiaohongshu의 기술 팀은 사용자의 다양한 장기 및 단기 행동을 위해 다양한 시퀀스 모델링 방법을 설계했습니다. 다방면에서 개선이 이루어졌습니다. 또한 콘텐츠 추천의 다양성 문제와 관련하여 Xiaohongshu 기술팀은 DPP에서 SSD 알고리즘으로의 전통적인 다양성 접근 방식을 개선하고 정보 흐름 추천 시나리오에서 슬라이딩 윈도우를 효율적으로 계산하여 단일 기사 모델의 가치 순위를 변화시켰습니다. 전체 탐색 주기를 모델링합니다. 이것이 의존하는 것은 롱테일 콘텐츠의 유사성을 학습하는 트윈 신경망입니다.
KDD 2021 컨퍼런스에서 관련 작업 결과를 공개했습니다. 단일 기사의 가치 평가에서 시퀀스의 가치 평가로, 단일 기사의 다양성에서 다중의 다양성으로 변화했습니다. 이는 또한 SSD 알고리즘을 기반으로 하며 이 샴 신경망을 기반으로 한 콘텐츠 유사성 평가를 기반으로 합니다.
샤오홍슈 커뮤니티에는 실생활에 매우 유용한 정보가 많이 포함되어 있기 때문에 많은 사용자가 샤오홍슈를 검색 엔진으로 사용할 것입니다. 여기에는 다양한 데이터 형식 검색, 심각한 롱테일 현상, 의도 이해 문제 등 몇 가지 과제가 포함됩니다.
기존 이미지 및 텍스트 검색 엔진은 텍스트를 통해 사진을 검색할 수 있지만 방법은 비교적 간단합니다. 일반적으로 사진에 텍스트를 태그한 다음 텍스트를 일치시킵니다. Xiaohongshu 팀이 구축한 차세대 다중 모드 범생활 검색 엔진은 다중 모드 콘텐츠에 대한 심층적인 이해를 기반으로 하며 사진, 텍스트 및 텍스트를 통해 시각적 콘텐츠를 실제로 검색할 수 있으며 더 많은 것을 만들 수도 있습니다. 사용자의 특성을 기반으로 한 맞춤형 검색 결과입니다.
범생활 지식검색엔진이란? 예를 들어 Xiaohongshu에서 멋진 옷이나 신발을 보고 그 조합과 다양한 상황에서 어떻게 보이는지 검색하려고 합니다. 이는 생활지식에 대한 탐색이면서 동시에 다중모달 탐색이기도 하다.
이는 특히 이미지 검색과 같은 기술 아키텍처를 위해 Xiaohongshu 기술 팀이 계획한 다중 양식을 보여줍니다. 가장 중요한 종속성 중 하나는 표현 학습을 위해 대규모 신경망이 필요한 다중 모듈 기능입니다. 옷, 신발, 기타 상품 등 사진에 포함된 내용을 잘 표현할 수 있습니다. 대량의 멀티모달 콘텐츠에서 동일한 상품이나 유사한 상품을 검색하는 것이 매우 좋습니다. 이는 검색에 당사의 대규모 신경망을 적용한 것입니다.
다른 플랫폼과 비교하여 Xiaohongshu의 광고 콘텐츠는 네이티브화라는 큰 차이점을 가지고 있습니다. 소위 네이티브화란 좋아요, 댓글, 기타 행동 측면에서 볼 때 사용자가 해당 콘텐츠를 매우 높이 평가하고 전혀 상업적인 콘텐츠라고 느끼지 않을 수 있음을 의미합니다. 하지만 플랫폼상의 판매자 입장에서 이러한 상업적 콘텐츠를 제작할 수 있는 문턱은 매우 높습니다. 판매자의 비즈니스 의도와 생산된 콘텐츠의 사용자 가치 사이에서 어떻게 균형을 맞추는 것이 중요한 문제입니다.
이를 위해 Xiaohongshu 기술팀은 대규모 신경망을 기반으로 한 생성 기술을 사용하여 판매자가 콘텐츠를 기반으로 더 나은 제목과 콘텐츠를 생성할 수 있도록 돕습니다. 예를 들어, 판매자는 여러 판매 포인트를 표현하거나 대상 고객 그룹 또는 선호하는 Xiaohongshu 스타일을 강조하도록 선택할 수 있습니다. 기계는 비즈니스 효과에 관계없이 기계에서 생성된 제목을 인용한 후 자동으로 제안합니다. 클릭수 또는 체류 기간이 크게 향상되었으며 사용자도 이러한 콘텐츠를 매우 좋아하므로 비즈니스 가치와 사용자 가치 사이의 균형을 잘 유지합니다.
이는 실제로 T5, BERT 및 GPT와 같은 업계 최고의 모델 아키텍처를 포함한 대규모 사전 학습 모델을 기반으로 합니다. 이러한 모델 아키텍처는 Xiaohongshu의 대규모 다중 모드 데이터를 기반으로 학습됩니다. 사전 학습된 모델의 일부는 노트의 내용을 이해하는 데 사용되며, 사전 학습된 모델의 일부는 타이틀 생성을 위한 생성 모델을 안내하는 데 사용됩니다. 이는 관련 기술이 비즈니스 분야에 적용되는 방식입니다.
위의 모든 기계 학습 콘텐츠는 실제로 Xiaohongshu 기술팀이 자체 개발한 LarC 기계 학습 플랫폼을 기반으로 합니다. 2019년 출시해 2020년과 2021년에는 관련 머신러닝 프레임워크와 플랫폼을 검색, 추천, 광고 등 전 분야로 추진했다. 2022년에는 LarC가 플랫폼이 됩니다.
현재 LarC 기계 학습 플랫폼의 기능은 기본 인프라부터 컴퓨팅 프레임워크, 리소스 예약, 오프라인 애플리케이션 및 온라인 배포까지 여러 수준을 포괄하여 매우 완벽합니다(노란색 부분은 구현되었음을 나타냄).
LarC 기계 학습 플랫폼을 통해 Xiaohongshu 기술 팀은 모든 알고리즘 수강생이 대규모 데이터를 빠르고 효율적으로 처리하고 대규모 기계 학습 및 딥 러닝 모델을 훈련할 수 있도록 지원하기를 희망합니다.
Xiaohongshu는 "보통 사람들", "진정한 나눔", "삶의 경험"을 키워드로 빠르게 발전하는 콘텐츠 커뮤니티입니다.
대량의 다중 모드 데이터와 사용자 피드백 데이터가 포함된 이러한 시나리오에서 많은 최첨단 기술 탐색이 탄생했습니다. 위 내용은 여러분과 공유할 수 있는 많은 기술 작업 중 몇 가지 사항을 선별한 것입니다. 사실 더 많은 내용이 Xiaohongshu의 기술과 이를 통해 얻은 대규모 딥 러닝을 이해할 수 있기를 바랍니다.
위 내용은 Xiaohongshu의 '풀 심기' 메커니즘이 처음으로 해독되었습니다. 대규모 딥 러닝 시스템 기술이 어떻게 적용되는지의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!