首頁 資料庫 mysql教程 腾讯数十亿广告的秘密武器:利用大数据实时精准推荐

腾讯数十亿广告的秘密武器:利用大数据实时精准推荐

Jun 07, 2016 pm 04:04 PM
使用 即時 廣告 推薦 數據 武器 秘密 精準 騰訊

在过去几年,你在腾讯做了什么来推动大数据的应用? 过去三年,我一直在坚持一件事:推动大数据的实时应用。现在从国外数据中心的数据,一秒钟可以达到深圳数据中心,这就是腾讯具备的数据能力。有了这个能力,就可以做很多商业化行为的模式。 目前腾讯收集

在过去几年,你在腾讯做了什么来推动大数据的应用?

过去三年,我一直在坚持一件事:推动大数据的实时应用。现在从国外数据中心的数据,一秒钟可以达到深圳数据中心,这就是腾讯具备的数据能力。有了这个能力,就可以做很多商业化行为的模式。

腾讯数十亿广告的秘密武器:实时精准推荐

目前腾讯收集的数据已经超过了1万亿条, 计算机规模已经超过了8千8百台。这么庞大的数据如果能实时处理,就能发挥出巨大的商业价值。这个商业价值就是精准推荐。

每年腾讯几十亿的广告,其基础来自于数据的精准推荐。实时数据推荐还可以用于视频的推荐,腾讯音乐推荐,新闻客户端的推荐,游戏道具的推荐,等等。

目前我们做到从数据进来到投放数据,延时不会超过50毫秒。有这个技术基础,腾讯的精准推荐才有了基础。

从内部管理而言,实时也降低了成本。因为实时数据处理可以用足“每一秒”。传统的数据仓库一般从晚上零点到第二天早上八点,做数据截断、抽取和处理,因为早上九点老板就要看数据报告了。数据处理的时间只有一天之中的三分之一,其他时间都是空闲的。

当我们把数据做到实时处理的事后,实际意义是将分析时间成本分摊到全天,成本更低。同时这也有利于控制风险,因为只要一出错马上可以监控,迅速回滚。

腾讯数十亿广告的秘密武器:实时精准推荐

所以你将大部分精力放在了“实时”上,你为什么认定“实时”会为腾讯增加更多的商业价值?

数据首先是有时效性的,一秒钟前的行为和一秒钟后的行为有着天差地别。

以往我们通过统计数据,得出规律,找到用户喜好。而现在实时变得更为重要。前一秒你看了母婴内容,那么几秒内就应该推送相关广告,转化率会比较高。如果你还在推送几天前,这个用户看足球的数据信息,这个生意就很难做下去了。

在腾讯,我们分三个领域各自研究精准推荐:数据整理、实时计算、算法研究。我深知,实时计算是关键核心。

在我的脑海中,一切数据必须以消息为中心,实时处理、提炼瓜分。实在解决不了的数据,再做离线分析。

比如一张照片,在数据处理端口肯定首先被实时过滤,这张照片是在哪里拍的?其中几个人,通过什么方式拍摄的?在所有数据收集处理完之后,我可能还需要找这张图片与其他图片的关联关系,这时才会做离线处理。

腾讯基本上90%以上的数据都是在线实时处理。我一直在坚持将腾讯的数据集中起来,放在一个平台体系之下,这其实是来自阿里巴巴的教训。(蒋杰原来在支付宝数据部门工作)阿里巴巴的数据直到今天还是四分五裂。

其实,我对于数据的实时经验也是在支付宝时期积累的。当时我学到的一点是,如果没有搜索引擎的支撑,就根本无法做数据分析。当时很多人都说,没有办法让数据在6秒内被搜索出来,而我坚持认为可以达到。

实际上,现在在腾讯,一万五千个字段,在3秒之内所有的数据交叉都可以实现。这是一个做技术的本分。

在实时这个领域,技术上的难点是什么?

我一直在慢慢弱化数据仓库,逐步走向实时数据仓库。其中最大的问题是,如何实现数据实时获取?

数据实时处理的前提,首先是实时采集。我的办法是一方面和业务部门谈好,另一方面我将数据采集文件部署到所有的机器里,从安装操作系统的时候就写入数据采集文件。这样,腾讯所有40万台机器都可以协同操作。

过去两年,腾讯从原来的一小时响应,到现在一秒钟精准推送,CTR (点击率)能提升20%。规模越大效果越明显。

精准推荐有三大要素,第一是数据,第二是实时,第三是算法。

首先要有强大的数据,如果数据缺失什么都干不了;第二,效果明显的是实时,第三才是优化算法。这是整个精准推荐体系的核心。实时在其中排在第二,我们的实践证明, 在什么都没变的情况下,频率改变带来了整体收入的提升。

腾讯数十亿广告的秘密武器:实时精准推荐

在解决了获取数据之后,数据底层所遭遇的最大困难是什么?

眼下的挑战在于深度学习。大数据时代,腾讯有200PB的图片数据,如何去挖掘图片数据的价值?如何去挖掘语音数据的价值?

我们正在做的是从结构化数据分析转向非结构化数据。如何从非结构化数据中提炼商业价值?这包括了深度学习的DNN和CNN技术,包括如何做文本之间相似度的关系。这都是需要突破的点。

微信所有的语音训练都是深度学习的办法来处理。比如,每当你在用微信放语音的时候,机器自动翻译成文字,就是靠深度学习网络来训练的。但目前,计算能力依然是一个门槛,这个能力并非我们想象这么轻松,需要更多计算技术来改进。

未来数据处理会有剧烈的改变么?

硬件决定了数据的能效。数据规模越大,数据展现的方式会越多,未来实时计算的处理需求会越来越旺盛。相信未来,能贴合更多应用场景的高效计算引擎会出现,这是我对未来的判断。

很明显的是,如果当前一秒的数据没有处理完整,提炼清楚,随后的分析成本就会越来越高,而数据的价值则越来越低。所以,在未来,高效计算引擎和存储引擎的出现,会对大数据发展有突飞猛进的效用。

后记:

在蒋杰看来,没什么比实时更重要。在腾讯,他敏感意识到实时数据对于广告的价值,所以把大部分精力放到实时处理数据以及如何优化广告投放上。

今天很多公司的数据仓库是离线的,也因此数据距离实际业务很遥远,这个距离不仅仅是无法实时反应,更多在于无法保证数据的稳定和质量。

以此而言,数据实时化是业务与数据的结合的关键。

但实时数据并非终点。

每秒都在生产新数据,新数据与既有数据之间的关系如何梳理?假如我们一直通过数据收集、分析得知,电脑前坐着的是一只狗,但假如某天的数据收集显示,它会猫叫。那么我们能判断电脑前的其实是一只猫么?

这不仅仅是数据更新变化这么简单,而关系到我们如何判断和分析。

所以,此时,延时判断变得很重要。

如何在庞大数据面前,做出延时判断?尽管你有实时数据分析的能力。

这可能是下一个更有趣的话题。

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1653
14
CakePHP 教程
1413
52
Laravel 教程
1306
25
PHP教程
1251
29
C# 教程
1224
24
大模型App騰訊元寶上線!混元再升級,打造可隨身攜帶的全能AI助理 大模型App騰訊元寶上線!混元再升級,打造可隨身攜帶的全能AI助理 Jun 09, 2024 pm 10:38 PM

5月30日,騰訊宣布旗下混元大模型全面升級,基於混元大模型的App「騰訊元寶」正式上線,蘋果及安卓應用程式商店皆可下載。相較於先前測試階段的混元小程式版本,面向工作效率場景,騰訊元寶提供了AI搜尋、AI總結、AI寫作等核心能力;面向日常生活場景,元寶的玩法也更加豐富,提供了多個特色AI應用,並新增了創建個人智能體等玩法。 「騰訊做大模型不爭一時之先。」騰訊雲副總裁、騰訊混元大模型負責人劉煜宏表示:「過去的一年,我們持續推進騰訊混元大模型的能力爬坡,在豐富、海量的業務場景中打磨技術,同時洞察用戶的真實需求

開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! 開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

iPhone上的蜂窩數據網路速度慢:修復 iPhone上的蜂窩數據網路速度慢:修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

阿里7B多模態文件理解大模型拿下新SOTA 阿里7B多模態文件理解大模型拿下新SOTA Apr 02, 2024 am 11:31 AM

多模態文件理解能力新SOTA!阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。話不多說,先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式:不同樣式的圖表都可以:更細節的文字識別和定位也能輕鬆搞定:還能對文檔理解給出詳細解釋:要知道,“文檔理解”目前是大語言模型實現落地的一個重要場景,市面上有許多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理

超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題 超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

黃泉光錐推薦 黃泉光錐推薦 Mar 27, 2024 pm 05:31 PM

黃泉光錐能夠在戰鬥中有效的提升角色的爆擊傷害和攻擊力,黃泉推薦的光錐分別是行於流逝的岸、晚安與睡顏、雨一直下、只需等待、決心如汗珠般閃耀,以下小編會為大家帶來崩壞星穹鐵道黃泉光錐推薦。黃泉光錐推薦一、行於流逝的岸1、黃泉專武可以提升爆傷,攻擊敵方可使敵方陷入泡影負面狀態,造成的傷害提高,終結技傷害額外提高,既有負面狀態還有傷害提高,不得不說是專武。 2.專屬光錐在眾多虛無光錐裡很獨特直接對直傷進行加成,有高額的傷害和對暴傷屬性的提升。 3.不僅如此,光錐還提供了一個負面狀態效果,可以使得黃泉本身有反

See all articles