馬斯克開源Twitter推薦演算法,GitHub秒破萬星,也承諾每24-48小時進化一次
馬斯克的“開源承諾”,終於如約而至。
就在剛剛,馬斯克正式宣布:
大部分(Twitter的)推薦演算法將在今天開源,剩下的也會跟進。
而且馬斯克緊接著亮出了GitHub上Twitter推薦演算法原始碼的位址。
短短數小時,便攬獲上萬個Star:
#除此之外,馬斯克還表示:
推特將每24到48小時更新一次基於用戶建議的推薦演算法。
至此,這個號稱每天從5億條推文做推薦的大演算法的廬山真面目,終於得以露出。
Twitter的推薦演算法長什麼樣子?
據介紹,Twitter的推薦系統是基於一組核心模型和功能,可以從推文、使用者和互動資料中提取潛在資訊。
這些模型的作用是回答Twitter網路中的重要問題,例如,「未來你與另一個用戶互動的機率是多少?」或者,「Twitter上有哪些社群以及其中的趨勢推文是什麼?」
若是能夠準確回答這些問題,就可以讓Twitter提供更多相關的推薦。
Twitter的推薦系統由三大部分構成:
- 從不同的推薦來源取得最好的推文,這個過程稱為候選來源。
- 使用機器學習模型對每條推文進行排名。
- 套用heuristics和filters,例如過濾已封鎖使用者的推文、NSFW內容和已看到的推文。
負責建造和提供「For You」時間軸的服務被稱為「Home Mixer」。
「Home Mixer」建立在「Product Mixer」之上,這是客製化的Scala框架,有助於建立內容的動態流。
這項服務作為軟體主幹,連接不同的候選來源、評分函數、heuristics和filters。
候選來源(Candidate Sources)
#Twitter使用多個候選來源來為使用者檢索最近和相關的推文。
對於每個請求,推特嘗試透過這些來源從數億個推文池中提取最佳的1500條。
從您關注的人(內部網路)和不關注的人(外部網路)中尋找候選人。
如今,「為您推薦」時間軸平均由50%的內部網路推文和50%的外部網路推文組成(儘管這可能因用戶而異)。
內部網路資源(In-Network Source)
內部網路資源是最大的候選來源,旨在提供關注的使用者最相關、最新的推文。
它使用邏輯回歸模型高效地對關注的人的推文進行排名,以其相關性為基礎。然後將排名最高的推文發送到下一階段。
排名內部網路推文最重要的組成部分是Real Graph。
Real Graph是一種模型,用於預測兩個使用者之間的互動可能性。使用者和推文作者之間的Real Graph分數越高,就會包含更多他們的推文。
內部網路來源最近成為Twitter的研究對象。最近Twitter停止使用Fanout服務,這是一個12年前用來從每個用戶的推文快取中提供內部網路推文的服務。
外部網路資源(Out-of-Network Sources)
在用戶網路之外尋找相關的推文是一個棘手的問題。
因為如果你不追蹤作者,你怎麼知道某條推文是否與你相關?
為此,Twitter採取了兩種方法來解決這個問題。
一個是社交圖(Social Graph)。
這個方法是透過分析你關注的人或有相似興趣的人的活動,來估計你會發現什麼是相關的。
主要遍歷參與的圖,並按照以下步驟回答以下問題:
- 我關注的人最近在Twitter上發了什麼訊息?
- 誰跟我一樣喜歡類似的推文,他們最近還喜歡什麼?
團隊根據這些問題的答案產生候選推文,並使用Logit模型對產生的推文進行排名。
這種類型的圖形遍歷對於外部網路推薦是必不可少的;團隊開發了 GraphJet,一個維護用戶和推文之間即時互動圖的圖形處理引擎,來執行這些遍歷。
雖然這種搜尋Twitter參與和關注網路的啟發式方法已經被證明是有用的,但嵌入式空間方法已經成為外部網路推文的更大來源。
第二個是嵌入空間(Embedding Spaces)。
嵌入式空間方法旨在回答一個關於內容相似性的更普遍的問題——什麼推文和用戶與我的興趣相似?
Embeddings透過產生使用者興趣和推文內容的數字表示來運作。然後可以計算這個嵌入空間中任兩個用戶之間的相似度,推文或用戶-推文 對。
只要產生準確的embedding,就可以使用這種相似性作為相關性的替代。
Twitter 最有用的嵌入空間之一是 SimClusters。
SimClusters 使用自訂矩陣分解演算法發現由一群有影響力的用戶錨定的社區(有14.5萬個社區,每三週更新一次)。
用戶和推文在社群空間中表示,並且可以屬於多個社群。社群的規模從個人朋友群的數千名用戶到新聞或流行文化的數億用戶不等:
…
更多與之相關的詳細內容,可戳文末連結~
One More Thing
Twitter的演算法開源了,然後手快的網友吧…都已經開始根據演算法總結怎麼成為大V了:
你追蹤的人數和追蹤你的人數比例很重要、訂閱TwitterBlue有一定作用…
[1]
https://www.php.cn/link/ce2b9a26bddc32cba5af69372ee14c00[2]
https://www.php.cn /link/e55bc0255c752d1cb05da10c0f1f5026#[3]
https://www.php.cn/link/10fe8dc69a0964edc16fed1a1bd5710fe8dc69a0964edc16fed1a1bd5711a1bdhttps://www.php.cn/link/51f4efbfb3e18f4ea053c4d3d282c4e2
#
以上是馬斯克開源Twitter推薦演算法,GitHub秒破萬星,也承諾每24-48小時進化一次的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

區塊鏈技術的迅速發展帶來了對可靠且高效的分析工具的需求。這些工具對於從區塊鏈交易中提取有價值的見解至關重要,以便更好地理解和利用其潛力。本文將探討市場上一些領先的區塊鏈數據分析工具,包括他們的功能、優勢和局限性。通過了解這些工具,用戶可以獲得必要的見解,最大限度地利用區塊鏈技術的可能性。

黃泉光錐能夠在戰鬥中有效的提升角色的爆擊傷害和攻擊力,黃泉推薦的光錐分別是行於流逝的岸、晚安與睡顏、雨一直下、只需等待、決心如汗珠般閃耀,以下小編會為大家帶來崩壞星穹鐵道黃泉光錐推薦。黃泉光錐推薦一、行於流逝的岸1、黃泉專武可以提升爆傷,攻擊敵方可使敵方陷入泡影負面狀態,造成的傷害提高,終結技傷害額外提高,既有負面狀態還有傷害提高,不得不說是專武。 2.專屬光錐在眾多虛無光錐裡很獨特直接對直傷進行加成,有高額的傷害和對暴傷屬性的提升。 3.不僅如此,光錐還提供了一個負面狀態效果,可以使得黃泉本身有反

C++sort函數底層採用歸併排序,其複雜度為O(nlogn),並提供不同的排序演算法選擇,包括快速排序、堆排序和穩定排序。

01前景概要目前,難以在檢測效率和檢測結果之間取得適當的平衡。我們研究了一種用於高解析度光學遙感影像中目標偵測的增強YOLOv5演算法,利用多層特徵金字塔、多重偵測頭策略和混合注意力模組來提高光學遙感影像的目標偵測網路的效果。根據SIMD資料集,新演算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在偵測結果和速度之間達到了更好的平衡。 02背景&動機隨著遠感技術的快速發展,高解析度光學遠感影像已被用於描述地球表面的許多物體,包括飛機、汽車、建築物等。目標檢測在遠感影像的解釋中

一、58畫像平台建置背景首先和大家分享下58畫像平台的建造背景。 1.傳統的畫像平台傳統的想法已經不夠,建立用戶畫像平台依賴數據倉儲建模能力,整合多業務線數據,建構準確的用戶畫像;還需要數據挖掘,理解用戶行為、興趣和需求,提供演算法側的能力;最後,還需要具備數據平台能力,有效率地儲存、查詢和共享用戶畫像數據,提供畫像服務。業務自建畫像平台和中台類型畫像平台主要區別在於,業務自建畫像平台服務單條業務線,按需定制;中台平台服務多條業務線,建模複雜,提供更為通用的能力。 2.58中台畫像建構的背景58的使用者畫像

作者|汪昊審校|重樓新聞App是人們日常生活中獲取資訊來源的重要方式。在2010年左右,國外比較火的新聞App包括Zite和Flipboard等,而國內比較火的新聞App主要是四大門戶。而隨著今日頭條為代表的新時代新聞推薦產品的火爆,新聞App進入了全新的時代。而科技公司,不管哪一家,只要掌握了高精尖的新聞推薦演算法技術,就基本在技術層面掌握了主動權和話語權。今天,我們來看看RecSys2023的最佳長篇論文提名獎論文-GoingBeyondLocal:GlobalGraph-EnhancedP

計數,聽起來簡單,卻在實際執行上很困難。想像一下,你被送到一片原始熱帶雨林,進行野生動物普查。每當看到一隻動物,就拍一張照片。數位相機只是記錄追蹤動物總數,但你對獨特動物的數量感興趣,卻沒有統計。那麼,若想獲取這獨特動物數量,最好的方法是什麼?這時,你一定會說,從現在開始計數,最後再從照片中將每一種新物種與名單進行比較。然而,這種常見的計數方法,有時並不適用於高達數十億條目的資訊量。來自印度統計研究所、UNL、新加坡國立大學的電腦科學家提出了一種新演算法——CVM。它可以近似計算長列表中,不同條
