如果你让我向一个 5 岁的孩子解释数据科学,我可能会这样说:“这就像当一名侦探!你收集线索(数据),弄清楚它们如何组合在一起(分析和清理数据),并用它们来解开谜团或猜测接下来会发生什么(预测结果)。”
数据科学不仅仅适合侦探或拥有高学历的成年人。很有可能,您可能已经在日常生活中应用了数据科学原理,甚至没有意识到。以我为例。
在成长过程中,我是一个好奇、安静的孩子,从未停止思考。从表面上看,我没说什么,但在我心里,那是一个完整的市场。我把其他人似乎没有注意到的点联系起来,并提出了无尽的问题,而不仅仅是典型的“为什么会这样?”但更好奇的是:“什么时候会发生?什么可能使它发生?即使现在,作为一个成年人,我仍然有问太多问题的坏习惯。一位朋友曾经告诉我:“你问问题就像个孩子!”我把它当作一种赞美。
正是这种好奇心让我在小时候不知不觉地接受了数据科学原理,尤其是当涉及到像 NEPA(现在的 PHCN)这样不可预测的事情时。如果您曾经住在尼日利亚,您就会知道停电非常常见,以至于灯光亮起感觉就像一场小型庆祝活动。我讨厌这一切的不可预测性,所以我开始关注。我自己承担了破解 NEPA 代码的责任。
我的笔记本变成了我的迷你数据库。我观察了 NEPA 的行为模式,并记录了每次断电和恢复的时间。 (数据收集)。 我放学回家后立即问妈妈或在家的人:“他们带灯来了吗?他们什么时候拿的?”我会写下我注意到的事情——灯亮了多长时间,什么时候亮,什么时候灭。 这就像一种仪式;我需要知道电源的“状态更新”。
随着时间的推移,我考虑了模式和外部因素,如公共假期、节日、天气状况、足球比赛等。这花了一些时间,但我开始注意到趋势。例如,如果倾盆大雨,我只知道他们几个小时内不会开灯,因为电线需要时间“干燥”。或者,如果尼日利亚正在踢一场足球比赛,NEPA 很可能会感到慷慨。如果我今天构建 NEPA 模型,我必须考虑更复杂的变量,例如国家电网崩溃的次数(感觉就像每隔一周)。
使用这些模式,我创建了一个“心理模型”。尽管电力供应是不可预测的,但我仍然可以在一定程度上预测它,我的兄弟姐妹和邻居开始对待我,就像我有内幕消息一样,我赢得了“NEPA 预测员”的非正式头衔,他们会问我,“什么时候会发生。”光回来了?”我会自信地回答:“给他们两个小时,就可以了。”
当然,数据并不完美。 NEPA 曾多次“落入我的手”。有时,当我以为会恢复时,电源却没有恢复,或者意外地断电了。但在大多数情况下,我的预测出人意料地准确。 因此,我过滤掉了这些不一致的情况(数据清理)并专注于寻找模式。
回顾过去,我意识到我一直在应用核心数据科学流程:
数据收集:我收集了有关电源的信息 - 何时来、何时去以及停留了多长时间。
数据清理和准备:我删除了不相关的细节并专注于关键变量,例如天气状况或一天中的时间。
探索性数据分析 (EDA):我在笔记中寻找模式以了解电源的工作原理。
数据建模:我创建了一个“心理模型”,根据我确定的模式来预测电力何时恢复。
模型评估:我用现实检验了我的预测。如果灯没有按我预期的那样亮起,我就调整了模型。
模型部署:我的“模型”对其他人变得有用——我的兄弟姐妹和邻居依靠我的预测来做出决定。
尽管这听起来很有趣,但童年时期的 NEPA 实验是我第一次接触数据科学。数据科学不仅仅是数字、图表和算法。这是关于解决现实世界的问题,就像我小时候对力量预测所做的那样。是的,数据科学可能很复杂,但其核心是结构化的好奇心——我们所有人都拥有的好奇心。对我来说,这一切都是从 NEPA 和笔记本开始的。
随着时间的推移,我们不仅会探索数据科学的不同概念和过程,还会探索我们可以解决的问题和我们可以创建的解决方案。无论是分析数据集还是寻找改善生活的见解,数据科学都是我们可以用来做出更好决策的工具。
让我们一起深入研究 - 一次一个线索、一种模式和一个预测!
以上是孩子的好奇心:令人惊讶的数据科学基础的详细内容。更多信息请关注PHP中文网其他相关文章!