马斯克开源Twitter推荐算法,GitHub秒破万星,还承诺每24-48小时进化一次
马斯克的“开源承诺”,终于如约而至。
就在刚刚,马斯克正式宣布:
大部分(Twitter的)推荐算法将在今天开源,剩下的也会跟进。
而且马斯克紧接着亮出了GitHub上Twitter推荐算法源代码的地址。
仅仅数小时,便揽获上万个Star:
除此之外,马斯克还表示:
推特将每24到48小时更新一次基于用户建议的推荐算法。
至此,这个号称每天从5亿条推文做推荐的大算法的庐山真面目,终于得以露出。
Twitter的推荐算法长什么样?
据介绍,Twitter的推荐系统基于一组核心模型和功能,可以从推文、用户和互动数据中提取潜在信息。
这些模型的作用是回答Twitter网络中的重要问题,例如,“未来你与另一个用户互动的概率是多少?”或者,“Twitter上有哪些社区以及其中的趋势推文是什么?”
若是能够准确回答这些问题,就可以让Twitter提供更多相关的推荐。
Twitter的推荐系统由三大部分构成:
- 从不同的推荐源获取最好的推文,这个过程称为候选源。
- 使用机器学习模型对每条推文进行排名。
- 应用heuristics和filters,例如过滤来自已屏蔽用户的推文、NSFW内容和已看到的推文。
负责构建和提供“For You”时间轴的服务被称为“Home Mixer”。
“Home Mixer”建立在“Product Mixer”之上,这是定制的Scala框架,有助于构建内容的动态流。
这项服务作为软件主干,连接不同的候选源、评分函数、heuristics和filters。
候选源(Candidate Sources)
Twitter使用多个候选源来为用户检索最近和相关的推文。
对于每个请求,推特尝试通过这些源从数亿条推文池中提取最佳的1500条。
从您关注的人(内部网络)和不关注的人(外部网络)中寻找候选人。
如今,“为您推荐”时间轴平均由50%的内部网络推文和50%的外部网络推文组成(尽管这可能因用户而异)。
内部网络资源(In-Network Source)
内部网络资源是最大的候选来源,旨在提供关注的用户最相关、最新的推文。
它使用逻辑回归模型高效地对关注的人的推文进行排名,以其相关性为基础。然后将排名最高的推文发送到下一阶段。
排名内部网络推文最重要的组成部分是Real Graph。
Real Graph是一种模型,用于预测两个用户之间的互动可能性。用户和推文作者之间的Real Graph分数越高,就会包括更多他们的推文。
内部网络来源最近成为Twitter的研究对象。最近Twitter停止使用Fanout服务,这是一个12年前用来从每个用户的推文缓存中提供内部网络推文的服务。
外部网络资源(Out-of-Network Sources)
在用户网络之外寻找相关的推文是一个棘手的问题。
因为如果你不关注作者,怎么知道某条推文是否与你相关?
为此,Twitter采取了两种方法来解决这个问题。
一个是社交图(Social Graph)。
这个方法是通过分析你关注的人或有相似兴趣的人的活动,来估计你会发现什么是相关的。
主要遍历参与的图,并按照以下步骤回答以下问题:
- 我关注的人最近在Twitter上发了什么消息?
- 谁和我一样喜欢类似的推文,他们最近还喜欢什么?
团队根据这些问题的答案生成候选推文,并使用Logit模型对产生的推文进行排名。
这种类型的图形遍历对于外部网络推荐是必不可少的;团队开发了 GraphJet,一个维护用户和推文之间实时交互图的图形处理引擎,来执行这些遍历。
虽然这种搜索Twitter参与和关注网络的启发式方法已经被证明是有用的,但嵌入式空间方法已经成为外部网络推文的更大来源。
第二个是嵌入空间(Embedding Spaces)。
嵌入式空间方法旨在回答一个关于内容相似性的更普遍的问题——什么推文和用户与我的兴趣相似?
Embeddings通过生成用户兴趣和推文内容的数字表示来工作。然后可以计算这个嵌入空间中任意两个用户之间的相似度,推文或用户-推文 对。
只要生成准确的embedding,就可以使用这种相似性作为相关性的替代。
Twitter 最有用的嵌入空间之一是 SimClusters。
SimClusters 使用自定义矩阵分解算法发现由一群有影响力的用户锚定的社区(有14.5万个社区,每三周更新一次)。
用户和推文在社区空间中表示,并且可以属于多个社区。社区的规模从个人朋友群的几千名用户到新闻或流行文化的数亿用户不等:
……
更多与之相关的详细内容,可戳文末链接~
One More Thing
Twitter的算法开源了,然后手快的网友吧……都已经开始根据算法总结怎么成为大V了:
你关注的人数和关注你的人数比例很重要、订阅TwitterBlue有一定作用……
参考链接:
[1]https://www.php.cn/link/ce2b9a26bddc32cba5af69372ee14c00
[2]https://www.php.cn/link/e55bc0255c752d1cb05da10c0f1f5026
[3]https://www.php.cn/link/10fe8dc69a0964edc16fed1a1bd55716
[4]https://www.php.cn/link/51f4efbfb3e18f4ea053c4d3d282c4e2
以上是马斯克开源Twitter推荐算法,GitHub秒破万星,还承诺每24-48小时进化一次的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

C++中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、SIMD指令和第三方库,并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用Eigen库实现线性回归算法,有效地管理内存和使用高性能矩阵操作。

区块链技术的迅速发展带来了对可靠且高效的分析工具的需求。这些工具对于从区块链交易中提取有价值的见解至关重要,以便更好地理解和利用其潜力。本文将探讨市场上一些领先的区块链数据分析工具,包括他们的功能、优势和局限性。通过了解这些工具,用户可以获得必要的见解,最大限度地利用区块链技术的可能性。

黄泉光锥能够在战斗中有效的提高角色的爆击伤害和攻击力,黄泉推荐的光锥分别是行于流逝的岸、晚安与睡颜、雨一直下、只需等待、决心如汗珠般闪耀,下面小编会为大家带来崩坏星穹铁道黄泉光锥推荐。黄泉光锥推荐一、行于流逝的岸1、黄泉专武可以提升爆伤,攻击敌方可使敌方陷入泡影负面状态,造成的伤害提高,终结技伤害额外提高,既有负面状态还有伤害提高,不得不说是专武。2、专属光锥在众多虚无光锥里很独特直接对直伤进行加成,有高额的伤害和对暴伤属性的提升。3、不仅如此,光锥还提供了一个负面状态效果,可以使得黄泉自身有反

C++sort函数底层采用归并排序,其复杂度为O(nlogn),并提供不同的排序算法选择,包括快速排序、堆排序和稳定排序。

01前景概要目前,难以在检测效率和检测结果之间取得适当的平衡。我们就研究出了一种用于高分辨率光学遥感图像中目标检测的增强YOLOv5算法,利用多层特征金字塔、多检测头策略和混合注意力模块来提高光学遥感图像的目标检测网络的效果。根据SIMD数据集,新算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在检测结果和速度之间实现了更好的平衡。02背景&动机随着远感技术的快速发展,高分辨率光学远感图像已被用于描述地球表面的许多物体,包括飞机、汽车、建筑物等。目标检测在远感图像的解释中

一、58画像平台建设背景首先和大家分享下58画像平台的建设背景。1.传统的画像平台传统的思路已经不够,建设用户画像平台依赖数据仓库建模能力,整合多业务线数据,构建准确的用户画像;还需要数据挖掘,理解用户行为、兴趣和需求,提供算法侧的能力;最后,还需要具备数据平台能力,高效存储、查询和共享用户画像数据,提供画像服务。业务自建画像平台和中台类型画像平台主要区别在于,业务自建画像平台服务单条业务线,按需定制;中台平台服务多条业务线,建模复杂,提供更为通用的能力。2.58中台画像建设的背景58的用户画像

计数,听起来简单,却在实际执行很有难度。想象一下,你被送到一片原始热带雨林,进行野生动物普查。每当看到一只动物,拍一张照片。数码相机只是记录追踪动物总数,但你对独特动物的数量感兴趣,却没有统计。那么,若想获取这一独特动物数量,最好的方法是什么?这时,你一定会说,从现在开始计数,最后再从照片中将每一种新物种与名单进行比较。然而,这种常见的计数方法,有时并不适用于高达数十亿条目的信息量。来自印度统计研究所、UNL、新加坡国立大学的计算机科学家提出了一种新算法——CVM。它可以近似计算长列表中,不同条

作者|汪昊审校|重楼新闻App是人们日常生活中获取信息来源的重要方式。在2010年左右,国外比较火的新闻App包括Zite和Flipboard等,而国内比较火的新闻App主要是四大门户。而随着今日头条为代表的新时代新闻推荐产品的火爆,新闻App进入了全新的时代。而科技公司,不管哪一家,只要掌握了高精尖的新闻推荐算法技术,就基本在技术层面掌握了主动权和话语权。今天,我们来看一篇RecSys2023的最佳长论文提名奖论文——GoingBeyondLocal:GlobalGraph-EnhancedP
