你要了解数据科学团队中的这些角色
译者 | 李睿
审校 | 孙淑娟
全球知名的流媒体服务商Netflix公司在2017年将其五星级评级系统更改为“拇指向上”(喜欢)和“拇指向下”(不喜欢)简单的评价系统。该系统可以根据百分比匹配来推荐电影,但也有人对这一做法很反感。那么如何将电影艺术中所有的细微差别简化为一种原始的二元反应?
实际上,Netflix公司发现人们对那些他们认为很好的电影给予了很高的评价,但不一定是他们真正喜欢观看的电影。至少数据是这么描述的。那么数据分析在像Netflix这样的公司中是如何工作的?数据科学团队的角色是什么?
Netflix反馈系统
Gibson Biddle是Netflix公司的前副总裁兼首席产品官。在谈到消费者洞察时,他对导致整个评级系统发生变化的意外客户行为进行了解释。在转换成百分比匹配时,Netflix表示虽然观众可能喜欢观看亚当·桑德勒主演的喜剧,但给出的评价可能只有三颗星;而观众对观看《辛德勒的名单》这部电影感觉很好,并给出五颗星的评价,但这并不会增加其整体乐趣,让订阅者满意对Netflix来说是至关重要的。因此,他们简化了反馈系统以避免偏差。但是这些对客户的洞察本身就令人印象深刻,如果没有促进数据使用的文化和强大的数据基础设施这个因素,它们是不可能实现的。用技术术语来说,这被称为数据驱动的组织。
数据驱动的组织
人们可能多次听到“数据驱动”这个流行术语,但它的真正含义是什么?仅Netflix公司每天就记录超过7000亿个事件,从登录和点击电影缩略图到暂停视频和打开字幕。所有这些数据都可供用户使用。任何人都可以使用tableau或Jupiter等可视化工具访问它,或者他们可以通过大数据门户访问它——这是一个允许用户检查报告、生成报告或查询他们需要的任何信息的环境。然后,这些数据用于制定业务决策,从较小的缩略图(例如展示哪些缩略图)到企业的决策(例如Netflix公司下一步应该投资和推出哪些节目)。
数据驱动的组织并非只有Netflix公司一家。据估计,财富1000强企业中约有97%的企业投资于人工智能和大数据等项目。以下了解真正的数据基础设施技术和使其运营的数据工程师。
数据基础设施技术
为了描述数据基础设施的工作原理,技术人员借用了通常运输液体或气体的“管道”这一术语。数据管道有自己的起点、终点和中间站。所以这是一个非常贴切的比喻。数据的来源可能是任何事务,从点击保留按钮和刷新页面到与客户支持的对话记录,从车辆跟踪设备到发电厂的涡轮振动传感器。在当今世界,实际上很难说有什么不能生成数据,即使没有数据也能告诉人们一些事情。
一旦生成数据项,它就会沿着管道到达暂存区域。这是保存所有原始数据的地方。原始数据尚未准备好使用。你必须做好准备。如果没有做,必须填补空白,更改其格式或合并来自不同来源的数据,以获得更细致的观察。一旦完成这些操作,就会获得结构化和干净的数据。所有这些操作都是自动进行的。它们用两个词语来描述。
- 提取:从数据源中提取数据并将其送到暂存区域。
- 转换:准备数据以供使用并加载将准备好的数据进一步推入ETL。
所有准备好的数据都进入另一个存储器,即数据仓库。
数据仓库
与暂存区域不同,数据仓库是所有存储记录都进行结构化并准备使用的地方。就像图书馆的分类系统一样,可以查询、可视化和下载仓库的信息。为此,必须拥有商业智能(BI)软件。它将数据呈现给最终用户。
数据列表和业务分析师
数据列表和业务分析师是执行基本任务的人员。他们访问数据、探索数据、将其可视化,并尝试使其具有商业意义。例如,企业的营销活动成功吗?表现最差的渠道是什么?它们就像一个感官系统,通过历史数据为企业提供支持,并为管理层以及最终决策者提供见解。
数据工程师
数据工程师负责构建整个管道。大多数技术人员都精通所谓的“管道”。通过管道将数据从源头移动到目的地,并在途中对其进行转换。他们设计管道架构、设置ETL流程、配置仓库,并将其与报告工具连接起来。例如,Airbnb公司拥有约50名数据工程师。该公司有时可能会遇到涉及一些额外规则的更精细的方法。例如,数据质量工程师确保正确捕获和转换数据。当试图从中得出决策时,拥有有偏见或不正确的数据代价太高。可能有单独的工程师仅负责ETL。此外,商业智能开发人员只专注于集成报告和可视化工具。然而,报告工具并不会成为头条新闻,数据工程师也不是21世纪的最佳工作,但机器学习和数据科学家可能是。
机器学习和数据科学家
众所周知的是,数据科学家特别擅长收集数据并回答有关数据的复杂问题,例如企业下个季度的收入是多少?优步预约的汽车什么时候到达?喜欢《辛德勒名单》和《原钻》的可能性有多大?
实际上有两种方法可以回答这些问题。数据科学家像业务分析师和数据分析师一样使用商业智能工具和仓库数据。所以,他们会从仓库中获取数据。有时数据科学家会使用数据湖:另一种存储非结构化欺诈数据的存储类型。他们将创建一个预测模型,并提出可供管理层使用的预测。它适用于收入估算的一次性报告,但对预测优步预约汽车的到达时间没有帮助。
机器学习的真正价值在于生产模型可以自动工作,并定期生成复杂问题的答案,有时每秒生成数千次,用它们处理的事情要复杂得多。
生产机器学习模型
为了使模型工作,还需要基础设施。有时这是一个很大的问题。数据科学家探索数据仓库和数据湖中的数据,对其进行实验,选择算法,并训练模型以产生最终的机器学习代码。这需要对统计数据库、机器学习算法和学科领域有深入的理解。
SLAC公司前数据工程负责人Josh Wills在推特上表示,“数据科学家是比任何软件工程都更擅长统计学的人。”
例如订餐者使用ubereats 软件点餐。用户一旦确认订单,该应用程序必须估计交付时间、订餐者的位置、餐厅和订单数据发送到部署了交付预测机器学习模型的服务器。但这些数据还不足够。该模型还从一个单独的数据库中获取额外数据,其中包含餐厅准备的平均时间和其他详细信息。一旦有了所有的数据,模型会向订餐者返回预测。然而,这一过程并没有就此结束。预测本身保存在一个单独的数据库中。它将针对监控模型性能,并通过分析工具探索模型,以便稍后对其进行更新。所有这些数据最终都会出现在数据湖和数据仓库中。
实际上,仅ubereats订餐服务就使用了数百种不同的模型同时工作,对推荐进行评分,对餐厅进行搜索排名,并估计送货时间。
结论
Foursquare公司核心技术负责人Adam Waxman认为,未来将不再有数据科学家或机器学习工程师这些职位,因为随着模型训练的自动化和持续构建生产环境,许多数据科学家的工作将成为软件开发中的常见功能。
原文标题:Roles in Data Science Teams,作者:Anomi Ragendran
以上是你要了解数据科学团队中的这些角色的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

在机器学习和数据科学领域,模型的可解释性一直是研究者和实践者关注的焦点。随着深度学习和集成方法等复杂模型的广泛应用,理解模型的决策过程变得尤为重要。可解释人工智能(ExplainableAI|XAI)通过提高模型的透明度,帮助建立对机器学习模型的信任和信心。提高模型的透明度可以通过多种复杂模型的广泛应用等方法来实现,以及用于解释模型的决策过程。这些方法包括特征重要性分析、模型预测区间估计、局部可解释性算法等。特征重要性分析可以通过评估模型对输入特征的影响程度来解释模型的决策过程。模型预测区间估计

通俗来说,机器学习模型是一种数学函数,它能够将输入数据映射到预测输出。更具体地说,机器学习模型就是一种通过学习训练数据,来调整模型参数,以最小化预测输出与真实标签之间的误差的数学函数。在机器学习中存在多种模型,例如逻辑回归模型、决策树模型、支持向量机模型等,每一种模型都有其适用的数据类型和问题类型。同时,不同模型之间存在着许多共性,或者说有一条隐藏的模型演化的路径。将联结主义的感知机为例,通过增加感知机的隐藏层数量,我们可以将其转化为深度神经网络。而对感知机加入核函数的话就可以转化为SVM。这一

本文将介绍如何通过学习曲线来有效识别机器学习模型中的过拟合和欠拟合。欠拟合和过拟合1、过拟合如果一个模型对数据进行了过度训练,以至于它从中学习了噪声,那么这个模型就被称为过拟合。过拟合模型非常完美地学习了每一个例子,所以它会错误地分类一个看不见的/新的例子。对于一个过拟合的模型,我们会得到一个完美/接近完美的训练集分数和一个糟糕的验证集/测试分数。略有修改:"过拟合的原因:用一个复杂的模型来解决一个简单的问题,从数据中提取噪声。因为小数据集作为训练集可能无法代表所有数据的正确表示。"2、欠拟合如

20世纪50年代,人工智能(AI)诞生。当时研究人员发现机器可以执行类似人类的任务,例如思考。后来,在20世纪60年代,美国国防部资助了人工智能,并建立了实验室进行进一步开发。研究人员发现人工智能在许多领域都有用武之地,例如太空探索和极端环境中的生存。太空探索是对宇宙的研究,宇宙涵盖了地球以外的整个宇宙空间。太空被归类为极端环境,因为它的条件与地球不同。要在太空中生存,必须考虑许多因素,并采取预防措施。科学家和研究人员认为,探索太空并了解一切事物的现状有助于理解宇宙的运作方式,并为潜在的环境危机

C++中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、SIMD指令和第三方库,并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用Eigen库实现线性回归算法,有效地管理内存和使用高性能矩阵操作。

译者|李睿审校|重楼人工智能(AI)和机器学习(ML)模型如今变得越来越复杂,这些模型产生的输出是黑盒——无法向利益相关方解释。可解释性人工智能(XAI)致力于通过让利益相关方理解这些模型的工作方式来解决这一问题,确保他们理解这些模型实际上是如何做出决策的,并确保人工智能系统中的透明度、信任度和问责制来解决这个问题。本文探讨了各种可解释性人工智能(XAI)技术,以阐明它们的基本原理。可解释性人工智能至关重要的几个原因信任度和透明度:为了让人工智能系统被广泛接受和信任,用户需要了解决策是如何做出的

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的

MetaFAIR联合哈佛优化大规模机器学习时产生的数据偏差,提供了新的研究框架。据所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个GPU。以LLaMA270B模型为例,其训练总共需要1,720,320个GPU小时。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。最近,许多机构在训练SOTA生成式AI模型时报告了训练过程中的不稳定情况,它们通常以损失尖峰的形式出现,比如谷歌的PaLM模型训练过程中出现了多达20次的损失尖峰。数值偏差是造成这种训练不准确性的根因,
