硅谷观察之大数据篇【下】:硅谷巨头们的大数据玩法
硅谷观察之大数据篇的【上】篇中,我把硅谷地区大数据生长状况基本梳理了一个相对完整的形状出来。有朋友看了【下】的预告后在微博上给我留言说,听说下篇要介绍一些公司的大数据部门情况,问能不能点名加个Google尤其是Google Maps,因为特别想知道这个世界
硅谷观察之大数据篇的【上】篇中,我把硅谷地区大数据生长状况基本梳理了一个相对完整的形状出来。有朋友看了【下】的预告后在微博上给我留言说,听说下篇要介绍一些公司的大数据部门情况,问能不能点名加个Google尤其是Google Maps,因为特别想知道这个世界上最大的搜索引擎以及每天必不可少的出行神器是怎么当一个挖掘机的。
于是,上周我又去了Google采访。本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据,其中包括了著名FLAG中的三家(Apple在大数据这块来说表现并不突出)。
本篇内容来自对Evernote AI负责人Zeesha Currimbhoy、LinkedIn大数据部门资深总监Simon Zhang、前Facebook基础架构工程师Ashish Thusoo和Google大数据部门一线工程师及Google Maps相关负责人的专访。Enjoy~~
Evernote:今年新建AI部门剑指深度学习
Evernote的全球大会上,CEO Phil Libin提到,Evernote的一个重要方向就是“让Evernote变成一个强大的大脑”。要实现这个目标,就不得不提他们刚刚整合改组的Augmented Intelligence团队(以下简称AI team)。我在斯坦福约到AI team的manager Zeesha Currimbhoy,在此分析一下从她那里得到的一手资料。
是什么
今年早些时候,这个2岁的数据处理团队改组为由Zeesha带领的Augmented Intelligence team,总共十人不到,很低调,平日几乎听不到声响。他们究竟在做什么?
与我们常说的AI(artificial Intelligence)不同,Evernote的团队名叫做Augmented Intelligence,通常情况下简称为IA。
Zeesha显然是这个团队里元老级的人物:“我是在2012年加入Evernote的,直接加入到了当时刚刚建立的数据处理团队,这也就是现在AI team的雏形。我们最开始的项目都是简单易行的小项目,比如按照你的个人打字方式来优化用户的输入体验。”
传统意义上的AI指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到IA则是让电脑进行一定量的运算,而终极目的是以之武装人脑,让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处,但是其出发点却是完全不同的。
这个区别也是Evernote AI team的亮点所在。作为一个笔记记录工具,Evernote与Google之类的搜索引擎相比,最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。
从哪来Zeesha小组的初衷便是,通过分析用户储存的笔记来学习其思维方式,然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户,从而达到帮助用户思考的过程。从这个意义上讲,Zeesha版的未来Evernote更像是一个大脑的超级外挂,为人脑提供各种强大的可理解的数据支持。
目前整个团队的切入点是很小而专注的。
“我们不仅仅是帮助用户做搜索,更重要的是在正确的时间给用户推送正确的信息。”
实现这个目标的第一步就是给用户自己的笔记分类,找到关联点。今年早些时候,Evernote已经在Mac的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目,Evernote就会自动返回所有相关信息。
例如,用户可以直接搜索“2012后在布拉格的所有图片”,或者“所有素食菜单”。不管用户的笔记是怎样分类的,Decriptive Search都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是AI team长期目标的开始,这个团队将在此基础上开发一系列智能化的产品。
到哪去不用说,这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是Evernote用户的数据量。虽然Evernote的用户量已经达到了一亿,但是由于整个团队的关注点在个人化分析,外加隐私保护等诸多原因,AI team并没有做跨用户的数据分析。
这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如,假设我只在Evernote上面存了10个笔记,那Evernote也应该能够通过这些少量的数据来分析出有效结果。当然,这些技术的直接结果是用户用Evernote越多,得到的个性化用户体验就越好。长期来讲,也是一个可以增加用户黏性的特点。
不过Zeesha也坦言:“的确,我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路,但是考虑到这个领域一时还没有很成功的先例,我们有理由期待在Zeesha带领下的Evernote AI team在近期做出一些有意思的成果。
Facebook:大数据主要用于外部广告精准投放和内部交流
Facebook有一个超过30人的团队花了近4年的时间才建立了Facebook的数据处理平台。如今,Facebook仍需要超过100名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。
Facebook的一大价值就在于其超过13.5亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索,才在2013年把部门的key foundation定位成广告的精准投放,开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动,比如买下世界第二大广告平台Atlas。
据前Facebook Data Infrastructure Manager Ashish Thusoo介绍,Facebook的数据处理平台是一个self-service, self-managing的平台,管理着超过1 Exabyte的数据。公司内部的各个部门可以直接看到处理过的实时数据,并根据需求进一步分析。
目前公司超过30%的团队,包括工程师、Product Managers、Business Analysts等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流,明显改变了公司的运行方式。
追溯历史,Facebook最早有大数据的雏形是在2005年,当时是小扎克亲自做的。方法很简单:用Memcache和MySQL进行数据存储和管理。
很快bug就显现了,用户量带来数据的急速增大,使用Memcache和MySQL对Facebook的快速开发生命周期(改变-修复-发布)带来了阻碍,系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒100万读操作和几百万写操作的TAO(“The Associations and Objects”)分布式数据库,主要解决特定资源过量访问时服务器挂掉的bug。
小扎克在2013年第一季度战略时提到的最重点就是公司的大数据方向,还特别提出不对盈利做过多需求,而是要求基于大数据来做好以下三个功能:
发布新的广告产品。比如类似好友,管理特定好友和可以提升广告商精确投放的功能。除与Datalogix, Epsilon,Acxiom和BlueKai合作外,以加强广告商定向投放广告的能力。
通过收购Atlas Advertising Suite,加强广告商判断数字媒体广告投资回报率(ROI)。
LinkedIn:大数据如何直接支持销售和变现赚钱
LinkedIn大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息,并直接用来支持销售并变现。其最核心团队商业分析团队的总监Simon Zhang说,现在国内大家都在讨论云,讨论云计算,讨论大数据,讨论大数据平台,但很少有人讲:我如何用数据产生更多价值,通俗点讲,直接赚到钱。
但这个问题很重要,因为关系到直接收入。四年半前 LinkedIn内所有用户的简历里抽取出来大概有 300万公司信息,作为销售人员不可能给每个公司都打电话,所以问题来了:哪家公司应该打?打了后会是个有用的call?
销售们去问Simon,他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。
Simon和当时部门仅有的另外三个同事写出了一个模型后发现:真正买LinkedIn服务的人,在决定的那个环节上,其实是一线的产品经理,和用LinkedIn在上面猎聘的那些人。但他们做决策后是上面的老板签字,这是一个迷惑项。数据分析结果出来后,他们销售人员改变投放策略,把目标群体放在这些中层的管理人身上,销售转化率瞬间增加了三倍。
那时LinkedIn才 500 个人,Simon一个人支持 200名销售人员。他当时预测谷歌要花 10 个 Million美金在猎聘这一块上,销售人员说,Simon,这是不可能的事。
“但是数据就是这么显示的,只有可能多不会少。我意识到,一定要流程化这个步骤。”
今天LinkedIn 的“猎头”这块业务占据了总收入的60%。是怎么在四年里发展起来的,他透露当时建造这个模型有以下这么几个步骤:
分析每个公司它有多少员工。分析这个公司它招了多少人。
分析人的位置功能职位级别一切参数,这些都是我们模型里面的各种功能。然后去分析,他们内部有多少HR 员工,有多少负责猎头的人,他们猎头的流失率,他们每天在Linkedin的活动时间是多少。
这是LinkedIn大数据部门最早做的事情。
Simon告诉36氪,公司内部从大数据分析这一个基本项上,可以不断迭代出新产品线LinkedIn的三大商业模型是人才解决方案、市场营销解决方案和付费订阅,也是我们传统的三大收入支柱。事实上我们还有一个,也就是第四个商业模型,叫“销售解决方案”,已经在今年7 月底上线。
这是卖给企业级用户的。回到刚才销售例子,LinkedIn大数据系统是一个牛逼的模型,只需要改动里面一下关键字,或者一个参数,就可以变成另一个产品。“我们希望能帮到企业级用户,让他们在最快的速度里知道谁会想买你的东西。”
虽然这第四个商业模式目前看来对收入的贡献还不多,只占1%,但anyway有着无限的想象空间,公司内部对这个产品期待很高。“我还不能告诉你它的增长率,但这方向代表的是趋势,Linkedin 的 B2B 是一个不用怀疑的大的趋势。”Simon说。
Google:一个闭环的大数据生态圈
作为世界上最大的搜索引擎,Google和大数据的关系又是怎样的呢?感谢微博上留言的朋友,这可确实是一个很有意思的议题。
Google在大数据方面的基础产品最早是2003年发布的第一个大规模商用分布式文件系统GFS(Google File System),主要由MapReduce和Big Table这两部分组成。前者是用于大数据并行计算的软件架构,后者则被认为是现代NOSQL数据库的鼻祖。
GFS为大数据的计算实现提供了可能,现在涌现出的各种文件系统和NOSQL数据库不可否认的都受到Google这些早期项目的影响。
随后2004和2006年分别发布的Map Reduce和BigTable,奠定了Google三大大数据产品基石。这三个产品的发布都是创始人谢尔盖-布林和拉里-佩奇主导的,这两人都是斯坦福大学的博士,科研的力量渗透到工业界,总是一件很美妙的事。
2011年,Google推出了基于Google基础架构为客户提供大数据的查询服务和存储服务的BigQuery,有点类似于Amazon的AWS,虽然目前从市场占有率上看与AWS还不在一个数量级,但价格体系更有优势。Google通过这个迎上了互联网公司拼服务的风潮,让多家第三方服务中集成了BigQuery可视化查询工具。抢占了大数据存储和分析的市场。
BigQuery和GAE(Google App Engine)等Google自有业务服务器构建了一个大数据生态圈,程序创建,数据收集,数据处理和数据分析等形成了闭环。
再来看Google的产品线,搜索,广告,地图,图像,音乐,视频这些,都是要靠大数据来支撑,根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。
单独说一下Google maps,这个全球在移动地图市场拥有超过40%的市场占有率的产品,也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落,对建筑物的3D视觉处理也早在去年就完成,这个数据处理的工作量可能是目前最大的了,但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在:输入一个地点时,最近被最多用户采用的路径会被最先推荐给用户。
Google还把Google+,Panoramio和其他Google云平台的图片进行了标记和处理,将图片内容和地理位置信息地结合在一起,图像识别和社交系统评分处理后,Google能够把质量比较高的的图片推送给用户,优化了用户看地图时的视觉感受。
大数据为Google带来了丰厚的利润,比如在美国你一旦上网就能感觉到时无处不在的Google广告(AdSense)。当然,它是一把双刃剑,给站长们带来收入的同时,但如何平衡用户隐私的问题,是大数据处理需要克服的又一个技术难关,或许还需要互联网秩序的进一步完善去支持。
像在【上】中所说,除Facebook等几个很领先的公司外,大部分公司要么还没有能力自行处理数据的能力。最后附上两个例子,想说这边的大公司没有独立大数据部门也是正常的,采取外包合作是普遍现象:
Pinterest:
Pinterest曾尝试自行通过Amazon EMR建立数据处理平台,但是因为其稳定性无法控制和数据量增长过快的原因,最终决定改为使用Qubole提供的服务。在Qubole这个第三方平台上,Pinterest有能力处理其0.7亿用户每天所产生的海量数据,并且能够完成包括ETL、搜索、ad
hoc query等不同种类的数据处理方式。尽管Pinterest也是一个技术性公司,也有足够优秀的工程师来建立数据处理团队,他们依然选择了Qubole这样的专业团队来完成数据处理服务。
Nike:
不仅仅硅谷的互联网公司,众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是Nike。Nike从2012年起与API服务公司Apigee合作,一方面,他们通过Apigee的API完善公司内部的数据管理系统,让各个部门的数据进行整合,使得公司内部运行更加顺畅、有效率。另一方面,他们也通过API开发Nike Fuel Band相关的移动产品。更是在2014年开启了Nike+
FuelLab项目,开放了相关API,使得众多的开放者可以利用Nike所收集的大量数据开发数据分析产品,成功地连接了Nike传统的零售业务,新的科技开发,和大数据价值。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを残して正常なデータ ブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

Excel で複数の条件によるフィルタリングを使用する方法を知る必要がある場合は、次のチュートリアルで、データを効果的にフィルタリングおよび並べ替えできるようにするための手順を説明します。 Excel のフィルタリング機能は非常に強力で、大量のデータから必要な情報を抽出するのに役立ちます。設定した条件でデータを絞り込み、条件に合致した部分のみを表示することができ、データ管理を効率化できます。フィルター機能を利用すると、目的のデータを素早く見つけることができ、データの検索や整理の時間を節約できます。この機能は、単純なデータ リストに適用できるだけでなく、複数の条件に基づいてフィルタリングすることもできるため、必要な情報をより正確に見つけることができます。全体として、Excel のフィルタリング機能は非常に実用的です。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

オペレーション デルタは、古典的なブラックホーク ダウンにインスピレーションを得たまったく新しいシューティング ゲームで、臨場感あふれる戦場体験をもたらします。このゲームには、ランニング モードやナイフ格闘モードなど、さまざまな興味深くやりがいのあるゲームプレイ モードが備わっています。ナイフファイティングは、プレイヤーが近接攻撃にのみナイフを使用でき、銃器やその他の武器を使用できない興味深いモードです。このモードはプレイヤーの反応速度と判断力を鍛え、ゲームをより面白く、エキサイティングなものにします。デルタ アクション モバイル ゲームでナイフ ファイティングをプレイする方法は? 回答: ナイフ ファイティングは 3 対 3 の対決モードです。各ゲームの制限時間は 10 分です。プレイヤーはこの時間内にできるだけ多くの敵を倒す必要があり、高得点を獲得できます。ナイフファイティングに選ばれたマップはロングボウバレーで、川、丘、森などの地形が存在する絶妙なマップです。

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。
