腾讯数十亿广告的秘密武器：利用大数据实时精准推荐-mysql教程-PHP中文網

首頁

資料庫

mysql教程

腾讯数十亿广告的秘密武器：利用大数据实时精准推荐

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:04 PM

使用即時廣告推薦數據武器秘密精準騰訊

在过去几年，你在腾讯做了什么来推动大数据的应用？过去三年，我一直在坚持一件事：推动大数据的实时应用。现在从国外数据中心的数据，一秒钟可以达到深圳数据中心，这就是腾讯具备的数据能力。有了这个能力，就可以做很多商业化行为的模式。目前腾讯收集

在过去几年，你在腾讯做了什么来推动大数据的应用？

过去三年，我一直在坚持一件事：推动大数据的实时应用。现在从国外数据中心的数据，一秒钟可以达到深圳数据中心，这就是腾讯具备的数据能力。有了这个能力，就可以做很多商业化行为的模式。

腾讯数十亿广告的秘密武器：实时精准推荐

目前腾讯收集的数据已经超过了1万亿条，计算机规模已经超过了8千8百台。这么庞大的数据如果能实时处理，就能发挥出巨大的商业价值。这个商业价值就是精准推荐。

每年腾讯几十亿的广告，其基础来自于数据的精准推荐。实时数据推荐还可以用于视频的推荐，腾讯音乐推荐，新闻客户端的推荐，游戏道具的推荐，等等。

目前我们做到从数据进来到投放数据，延时不会超过50毫秒。有这个技术基础，腾讯的精准推荐才有了基础。

从内部管理而言，实时也降低了成本。因为实时数据处理可以用足“每一秒”。传统的数据仓库一般从晚上零点到第二天早上八点，做数据截断、抽取和处理，因为早上九点老板就要看数据报告了。数据处理的时间只有一天之中的三分之一，其他时间都是空闲的。

当我们把数据做到实时处理的事后，实际意义是将分析时间成本分摊到全天，成本更低。同时这也有利于控制风险，因为只要一出错马上可以监控，迅速回滚。

腾讯数十亿广告的秘密武器：实时精准推荐

所以你将大部分精力放在了“实时”上，你为什么认定“实时”会为腾讯增加更多的商业价值？

数据首先是有时效性的，一秒钟前的行为和一秒钟后的行为有着天差地别。

以往我们通过统计数据，得出规律，找到用户喜好。而现在实时变得更为重要。前一秒你看了母婴内容，那么几秒内就应该推送相关广告，转化率会比较高。如果你还在推送几天前，这个用户看足球的数据信息，这个生意就很难做下去了。

在腾讯，我们分三个领域各自研究精准推荐：数据整理、实时计算、算法研究。我深知，实时计算是关键核心。

在我的脑海中，一切数据必须以消息为中心，实时处理、提炼瓜分。实在解决不了的数据，再做离线分析。

比如一张照片，在数据处理端口肯定首先被实时过滤，这张照片是在哪里拍的？其中几个人，通过什么方式拍摄的？在所有数据收集处理完之后，我可能还需要找这张图片与其他图片的关联关系，这时才会做离线处理。

腾讯基本上90%以上的数据都是在线实时处理。我一直在坚持将腾讯的数据集中起来，放在一个平台体系之下，这其实是来自阿里巴巴的教训。（蒋杰原来在支付宝数据部门工作）阿里巴巴的数据直到今天还是四分五裂。

其实，我对于数据的实时经验也是在支付宝时期积累的。当时我学到的一点是，如果没有搜索引擎的支撑，就根本无法做数据分析。当时很多人都说，没有办法让数据在6秒内被搜索出来，而我坚持认为可以达到。

实际上，现在在腾讯，一万五千个字段，在3秒之内所有的数据交叉都可以实现。这是一个做技术的本分。

在实时这个领域，技术上的难点是什么？

我一直在慢慢弱化数据仓库，逐步走向实时数据仓库。其中最大的问题是，如何实现数据实时获取？

数据实时处理的前提，首先是实时采集。我的办法是一方面和业务部门谈好，另一方面我将数据采集文件部署到所有的机器里，从安装操作系统的时候就写入数据采集文件。这样，腾讯所有40万台机器都可以协同操作。

过去两年，腾讯从原来的一小时响应，到现在一秒钟精准推送，CTR （点击率）能提升20%。规模越大效果越明显。

精准推荐有三大要素，第一是数据，第二是实时，第三是算法。

首先要有强大的数据，如果数据缺失什么都干不了；第二，效果明显的是实时，第三才是优化算法。这是整个精准推荐体系的核心。实时在其中排在第二，我们的实践证明，在什么都没变的情况下，频率改变带来了整体收入的提升。

腾讯数十亿广告的秘密武器：实时精准推荐

在解决了获取数据之后，数据底层所遭遇的最大困难是什么？

眼下的挑战在于深度学习。大数据时代，腾讯有200PB的图片数据，如何去挖掘图片数据的价值？如何去挖掘语音数据的价值？

我们正在做的是从结构化数据分析转向非结构化数据。如何从非结构化数据中提炼商业价值？这包括了深度学习的DNN和CNN技术，包括如何做文本之间相似度的关系。这都是需要突破的点。

微信所有的语音训练都是深度学习的办法来处理。比如，每当你在用微信放语音的时候，机器自动翻译成文字，就是靠深度学习网络来训练的。但目前，计算能力依然是一个门槛，这个能力并非我们想象这么轻松，需要更多计算技术来改进。

未来数据处理会有剧烈的改变么？

硬件决定了数据的能效。数据规模越大，数据展现的方式会越多，未来实时计算的处理需求会越来越旺盛。相信未来，能贴合更多应用场景的高效计算引擎会出现，这是我对未来的判断。

很明显的是，如果当前一秒的数据没有处理完整，提炼清楚，随后的分析成本就会越来越高，而数据的价值则越来越低。所以，在未来，高效计算引擎和存储引擎的出现，会对大数据发展有突飞猛进的效用。

后记：

在蒋杰看来，没什么比实时更重要。在腾讯，他敏感意识到实时数据对于广告的价值，所以把大部分精力放到实时处理数据以及如何优化广告投放上。

今天很多公司的数据仓库是离线的，也因此数据距离实际业务很遥远，这个距离不仅仅是无法实时反应，更多在于无法保证数据的稳定和质量。

以此而言，数据实时化是业务与数据的结合的关键。

但实时数据并非终点。

每秒都在生产新数据，新数据与既有数据之间的关系如何梳理？假如我们一直通过数据收集、分析得知，电脑前坐着的是一只狗，但假如某天的数据收集显示，它会猫叫。那么我们能判断电脑前的其实是一只猫么？

这不仅仅是数据更新变化这么简单，而关系到我们如何判断和分析。

所以，此时，延时判断变得很重要。

如何在庞大数据面前，做出延时判断？尽管你有实时数据分析的能力。

这可能是下一个更有趣的话题。

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1325

PHP教程

1272

C# 教程

1252

Related knowledge

大模型App騰訊元寶上線！混元再升級，打造可隨身攜帶的全能AI助理 Jun 09, 2024 pm 10:38 PM

5月30日，騰訊宣布旗下混元大模型全面升級，基於混元大模型的App「騰訊元寶」正式上線，蘋果及安卓應用程式商店皆可下載。相較於先前測試階段的混元小程式版本，面向工作效率場景，騰訊元寶提供了AI搜尋、AI總結、AI寫作等核心能力；面向日常生活場景，元寶的玩法也更加豐富，提供了多個特色AI應用，並新增了創建個人智能體等玩法。「騰訊做大模型不爭一時之先。」騰訊雲副總裁、騰訊混元大模型負責人劉煜宏表示：「過去的一年，我們持續推進騰訊混元大模型的能力爬坡，在豐富、海量的業務場景中打磨技術，同時洞察用戶的真實需求

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

Google狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow，7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中，Pytorch依然比Tensorflow更受歡迎。但未來，也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近，Keras團隊為三個後端（TensorFlow、JAX、PyTorch）與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先，他們為生成式和非生成式人工智慧任務選擇了一組主流

iPhone上的蜂窩數據網路速度慢：修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後，緩慢的行動數據連線？通常，手機上蜂窩互聯網的強度取決於幾個因素，例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時，強制重啟設備只會重置許多內容，包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來，按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度，但在訊號較弱

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

超級智能體生命力覺醒！可自我更新的AI來了，媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂煉大模型，一網路的資料不夠用，根本不夠用。訓練模型搞得跟《飢餓遊戲》似的，全球AI研究者，都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中，這問題尤其突出。一籌莫展之際，來自人大系的初創團隊，用自家的新模型，率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下，兩側都能產生高品質、多模態的新數據，對模型本身進行數據反哺。模型是啥？中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰？智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立，高

阿里7B多模態文件理解大模型拿下新SOTA Apr 02, 2024 am 11:31 AM

多模態文件理解能力新SOTA！阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5，針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰，提出了一系列解決方案。話不多說，先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式：不同樣式的圖表都可以：更細節的文字識別和定位也能輕鬆搞定：還能對文檔理解給出詳細解釋：要知道，“文檔理解”目前是大語言模型實現落地的一個重要場景，市面上有許多輔助文檔閱讀的產品，有的主要透過OCR系統進行文字識別，配合LLM進行文字理

單卡跑Llama 70B快過雙卡，微軟硬生把FP6搞到A100哩 | 開源 Apr 29, 2024 pm 04:55 PM

FP8和更低的浮點數量化精度，不再是H100的「專利」了！老黃想讓大家用INT8/INT4，微軟DeepSpeed團隊在沒有英偉達官方支援的條件下，硬生在A100上跑起FP6。測試結果表明，新方法TC-FPx在A100上的FP6量化，速度接近甚至偶爾超過INT4，而且比後者擁有更高的精度。在此基礎之上，還有端到端的大模型支持，目前已經開源並整合到了DeepSpeed等深度學習推理框架中。這項成果對大模型的加速效果也是立竿見影──在這種框架下用單卡跑Llama，吞吐量比雙卡還要高2.65倍。一名

See all articles

腾讯数十亿广告的秘密武器：利用大数据实时精准推荐

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題