目录
什么是数据科学堆栈(DSS)?
数据科学堆栈中包括什么?
在Ubuntu安装数据科学堆栈(DSS)
先决条件
设置Microk8
安装DSS CLI
数据科学堆栈开始
初始化DSS和MLFLOW
开始您的第一本Jupyter笔记本
查看DSS状态
列表DSS命令
从microk8s中删除数据科学堆栈
删除DSS CLI和MICROK8S
常见问题(常见问题解答)
结论
首页 系统教程 操作系统 规范启动为ML初学者的数据科学堆栈

规范启动为ML初学者的数据科学堆栈

Mar 17, 2025 am 10:22 AM

数据科学是数据的研究。它涉及收集,分析和解释大量信息。数据科学家使用这些信息来做出决策,解决问题并预测未来的趋势。

数据科学家使用各种工具和技术来分析和解释复杂的数据集。这有助于企业和组织做出更好的决策。

如果您是从数据科学开始的初学者,那么在建立适当的数据科学环境方面,您可能会面临一些挑战。

以下是建立数据科学环境对初学者可能具有挑战性的一些原因:

  1. 软件安装:新手通常在安装必要的软件(例如编程语言(例如Python或r),库和工具(例如Jupyter Notebooks或Rstudio))方面很难。
  2. 了解依赖关系:软件通常需要其他软件的特定版本才能正常工作。如果无法正确管理,这可能会令人困惑,并导致错误。
  3. 学习曲线:数据科学涉及学习新技能,包括编程,统计和机器学习。对于初学者来说,这可能是压倒性的。
  4. 数据处理:处理数据可能很复杂,尤其是在处理大型或混乱的数据集时。了解如何清洁,存储和处理数据至关重要,但最初可能很难掌握。
  5. 版本控制:跟踪代码和数据的更改很重要,但设置和管理可能很棘手,尤其是对于诸如GIT之类的版本控制系统的人。
  6. 选择合适的工具:有许多可用的工具和框架,为特定项目选择合适的工具可能会使初学者令人生畏。

通过了解这些挑战,初学者可以更好地准备自己,并寻求正确的资源和支持以克服它们。

对于新的数据科学家来说,最初的障碍可能具有挑战性,但是随着持久性和一致的学习,旅程将变得更加顺利。

多亏了Canonical的数据科学堆栈(DSS) ,现在设置数据科学变得更加容易。在本教程中,我们将讨论什么是数据科学堆栈,以及如何在Ubuntu操作系统中轻松快速地设置数据科学环境

目录

什么是数据科学堆栈(DSS)?

Canonical的数据科学堆栈(DSS)是数据科学家和机器学习工程师的开箱即用解决方案。

数据科学堆栈通过提供预先配置的环境,包括所有必要的工具和库,用于机器学习和数据分析,从而简化了设置过程。

通过设计用于在Ubuntu工作站上运行并优化GPU的使用,DSS可以增强机器学习模型的性能,这对计算密集型任务特别有益。

DSS允许用户更多地关注其模型的开发和优化,而不是环境设置的技术。

这可以节省大量时间,否则将花费在安装和配置各个组件上。

数据科学堆栈中包括什么?

数据科学堆栈(DSS)为数据科学家和机器学习工程师提供了一个全面而整合的环境。这是它提供的:

  1. 预安装的工具:DSS包括流行的开源工具,例如Microk8sJupyterlabMLFlow ,这对于数据探索,模型开发和实验跟踪至关重要。
  2. 机器学习框架:默认情况下,它具有两个广泛使用的机器学习框架, PytorchTensorflow ,它们可以用于建筑和培训模型。
  3. 命令行接口(CLI) :DSS提供了一种直观的CLI,用于部署这些工具和框架,从而更容易管理和扩展环境。
  4. 用户界面:部署后,用户可以访问工具的UI,以便在无需手动设置的情况下开始从事其数据科学项目。
  5. 包装依赖性:DSS处理包装依赖性,以确保所有工具,库和框架彼此兼容并顺利进行。
  6. 硬件兼容性:它旨在与机器的硬件兼容,优化工具和框架的性能
  7. 简化的配置:传统上,在工作站上设置机器学习环境可能很复杂且难以逆转。 DSS通过提供有效利用工作站的GPU的可访问,可访问,隔离和可重现的ML环境来解决这一问题。
  8. GPU配置:DSS通过包括GPU操作员来简化GPU配置,该操作员管理GPU用于机器学习任务的设置和使用,从而有效利用其计算能力。

总体而言,DSS旨在为数据科学和机器学习提供无忧且优化的环境,使用户可以专注于其核心任务,而不是技术设置和维护其工具。

在Ubuntu安装数据科学堆栈(DSS)

要开始使用数据科学堆栈(DSS)进行机器学习和数据科学,请按照以下步骤设置您的环境:

先决条件

  • 操作系统:确保您的系统上安装了Ubuntu 22.04 LTS或Ubuntu 24.04 LTS。
  • Internet连接:您需要一个主动的Internet连接才能下载并安装必要的软件。
  • SNAP :确保在系统上安装了SNAP,因为安装Microk8和DSS所需。

设置Microk8

DSS使用Microk8作为其容器编排系统,允许工作负载访问主机的GPU。

要在Ubuntu上安装Microk8,请运行:

 $ sudo snap安装microk8s  - 渠道1.28/稳定 - 经典
登录后复制

接下来,启用所需的服务:

 $ sudo microk8s启用存储DNS RBAC
登录后复制

安装DSS CLI

数据科学堆栈通过命令行接口(CLI)管理。

使用以下命令安装DSS CLI:

 $ sudo snap install data-science-stack-通道最新/稳定
登录后复制

完成这些步骤后,您将安装DSS的基础组件并准备使用。现在,您可以继续设置机器学习环境,并开始使用DSS CLI开始运行第一笔笔记本。

数据科学堆栈开始

安装Microk8和DSS CLI后,下一步是在Microk8s顶部初始化DSS并准备MLFLOW以供使用。

初始化DSS和MLFLOW

要初始化DSS,您需要使用THEDSS InitializeCommand,该启动量可以在Microk8s群集中设置必要的资源。

 $ DSS初始化-kubeconfig =“ $(sudo microk8s config)”
登录后复制

- kubeconfigflag用于指定Microk8S生成的Kubernetes配置文件的路径。

DSS初始化命令可能需要几分钟才能完成。在此期间,DSS CLI将显示表示部署进度的消息。您会看到类似于以下信息的消息:

 [INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
登录后复制

此消息表明,DSS正在等待TensorFlow笔记本电脑的部署准备就绪。在系统设置环境并确保正确配置所有组件的情况下,请耐心等待。

初始化完成后,您将看到下面的输出:

 [info]执行初始化命令
[info]存储提供kubeconfig到/home/ostechnix/snap/data-science-stack/16/.dsss/config
[INFO]等待命名空间DSS中的部署MLFlow准备就绪...
[info]命名空间DSS中的部署MLFLOF已准备就绪
[INFO] DSS初始化。要创建第一个笔记本电脑运行命令:

DSS创建

示例:
  DSS创建mynotebook -image = pytorch
  DSS创建mynotebook -image = kubeflownotebookswg/jupyter-scipy:v1.8.0
登录后复制

规范启动为ML初学者的数据科学堆栈

现在,您将准备开始使用MLFlow跟踪服务器和DSS提供的其他组件。

然后,您可以继续在DSS环境中创建并运行第一个机器学习笔记本。

开始您的第一本Jupyter笔记本

要使用数据科学堆栈(DSS)启动第一个Jupyter笔记本,您需要使用Thedss CreateCommand,这使您可以指定要创建的笔记本的类型。

在这里,我们正在创建一个带有CUDA支持的tensorflow笔记本,名为My-Tensorflow-Notebook:

 $ dss创建my-tensorflow-notebook -image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0
登录后复制

成功创建笔记本后,您将看到下面的输出:

 [info]执行创建命令
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[INFO]等待命名空间DSS中的部署my-Tensorflow-Notebook准备就绪...
[info]命名空间DSS中的部署my-tensorflow notebook已准备就绪
[INFO]成功:笔记本My-Tensorflow-Notebook成功创建了。
[INFO]访问笔记本,请访问http://10.152.183.253:80。
登录后复制

规范启动为ML初学者的数据科学堆栈

笔记本准备好后,该命令显示一个URL,您可以使用该URL访问Jupyterlab UI。

要开始使用笔记本电脑,请打开Web浏览器,然后将提供的URL输入地址栏。

如您在上面的输出中看到的那样,我们可以从Web浏览器访问http://10.152.183.253:80的新创建的笔记本。用您自己的URL替换URL。

这将带您进入Jupyterlab接口,您可以在其中创建新笔记本电脑,上传数据并使用TensorFlow和CUDA开始机器学习任务。

规范启动为ML初学者的数据科学堆栈

请记住,URL中的IP地址和端口号可能会根据您的特定设置而有所不同。

就是这样。您现在可以开始与笔记本互动。

查看DSS状态

要快速检查您的数据科学堆栈(DSS)环境的状态,包括MLFLOW的状态和GPU加速度的可用性,您可以使用如下所示。

 $ DSS状态
登录后复制

THEDSS STATUCMAND将为您提供DSS环境当前状态的摘要。这是输出外观的示例:

 [INFO] MLFLOW部署:准备就绪
[info] mlflow URL:http://10.152.183.157:5000
[INFO] GPU加速度:禁用
登录后复制

输出的说明:

  • MLFLOW部署:Ready表示MLFlow跟踪服务器正在启动并运行。
  • MLFlow URL提供了您可以在其中访问MLFlow UI以跟踪机器学习实验的URL。
  • GPU加速度:禁用表明,在当前DSS环境中没有可用或配置的GPU。

要验证,请从Web浏览器打开MLFLOW URL http://10.152.183.157:5000。

这将打开Web浏览器中的MLFlow仪表板。

MLFlow仪表板中的实验选项卡:

规范启动为ML初学者的数据科学堆栈

由于这是我们的新装置,因此还没有实验。为了创建实验,请使用MLFlow实验CLI。

MLFlow仪表板中的模型选项卡:

规范启动为ML初学者的数据科学堆栈

列表DSS命令

要查看数据科学堆栈(DSS)的可用命令列表,您可以将DSS命令与-HELP选项一起使用。

在您的终端中运行以下命令:

 $ dss-螺旋
登录后复制

这将显示命令列表以及其目的的简要说明。

如果您需要有关特定DSS命令的更多详细信息,则可以使用命令,然后使用-HELP选项。

例如,要获取有关初始化命令的详细信息,您将运行:

 $ DSS日志 - 螺旋
登录后复制

从microk8s中删除数据科学堆栈

如果您不再需要DSS,则可以使用DSS Purge命令从Microk8s群集中删除数据科学堆栈。

要删除DSS,请在您的终端中执行以下命令:

 $ DSS清除
登录后复制

该命令将完全删除所有DSS组件,包括Jupyter笔记本电脑,MLFLOW服务器以及DSS环境中存储的任何数据。

重要的是要注意,此操作是不可逆转的,并且DSS环境中的所有数据将永久丢失。在进行清除之前,请确保备份任何重要数据。

删除DSS CLI和MICROK8S

当DSS Purge命令从Microk8s群集中删除DSS组件时,它不会删除DSS CLI或Microk8s群集本身。如果您也想删除这些内容,则需要删除它们各自的快照:

要删除DSS CLI,请使用以下命令:

 $ sudo snap删除数据科学堆栈
登录后复制

要删除microk8s,请使用以下命令:

 $ sudo snap删除microk8s
登录后复制

通过遵循以下步骤,您可以从系统中完全删除数据科学堆栈(DSS)及其相关组件。

常见问题(常见问题解答)

问:什么是数据科学堆栈(DSS)?

答:数据科学堆栈(DSS)是一个用于机器学习和数据科学的全面,现成的环境。它旨在简化数据科学工具和框架的设置和管理,使用户可以专注于其核心任务,而不是环境配置的复杂性。

问:DSS中包含哪些工具?

答:DSS包括各种开源工具,例如Jupyter笔记本,MLFLOW和流行的机器学习框架,例如Tensorflow和Pytorch。它还提供了一个容器编排系统Microk8s,用于管理工作负载。

问:如何安装DSS?

答:要安装DSS,您需要使用Ubuntu 22.04 LTS或Ubuntu 24.04 LTS,Internet连接并安装了SNAP。然后,您可以使用SNAP命令安装Microk8和DSS CLI。有关详细说明,请参阅《官方文档或安装指南》。

问:如何使用DSS启动jupyter笔记本?

答:您可以使用DSS Create命令启动带有DSS的Jupyter笔记本,为笔记本指定所需的图像。例如,要启动TensorFlow笔记本电脑,您将使用DSS创建My-TensorFlow-Notebook -image = KubeFlownoteBookswg/jupyter-tensorflow-cuda:v1.8.0。

问:DSS状态命令的目的是什么?

答:DSS状态命令可快速概述DSS环境的当前状态,包括MLFLOW的状态和GPU加速度的可用性。它可以帮助您验证所有组件的运行正确。

问:如何从环境中删除DSS?

答:要删除DSS,您可以使用DSS Purge命令,该命令将删除所有DSS组件,包括Jupyter Notebooks和MLFlow服务器。请注意,此操作是不可逆转的,将导致DSS环境中所有数据的丢失。

问:在哪里可以找到有关DSS命令的更多信息?

答:您可以通过使用DSS -HELP命令来列出所有可用命令和DSS - 螺旋,以获取特定命令的详细用法。

问:DSS可以免费使用吗?

是的,DSS基于开源工具,可以免费使用。

问:DSS适合数据科学的初学者?

答:是的,DSS的设计为用户友好,可以成为初学者的好工具,因为它降低了设置数据科学环境的复杂性。它提供了现成的优化环境,使用户可以快速开始从事数据科学项目。

结论

总之,数据科学堆栈(DSS)简化了数据科学任务的设置。它提供了一系列工具,可以很好地合作,从而更容易快速启动项目。

无论您是数据科学的新手还是经验丰富,DSS都可以通过处理技术设置来帮助您专注于工作。这是一个可靠的工具,支持有效的数据分析和模型构建。

资源

  • 数据科学堆栈(DSS)文档

相关阅读

  • 如何在Linux上安装Anaconda
  • 如何在Linux中安装Miniconda

以上是规范启动为ML初学者的数据科学堆栈的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Linux最好使用的是什么? Linux最好使用的是什么? Apr 03, 2025 am 12:11 AM

Linux最适合用作服务器管理、嵌入式系统和桌面环境。1)在服务器管理中,Linux用于托管网站、数据库和应用程序,提供稳定性和可靠性。2)在嵌入式系统中,Linux因其灵活性和稳定性被广泛应用于智能家居和汽车电子系统。3)在桌面环境中,Linux提供了丰富的应用和高效的性能。

Linux的5个基本组件是什么? Linux的5个基本组件是什么? Apr 06, 2025 am 12:05 AM

Linux的五个基本组件是:1.内核,管理硬件资源;2.系统库,提供函数和服务;3.Shell,用户与系统交互的接口;4.文件系统,存储和组织数据;5.应用程序,利用系统资源实现功能。

什么是基本的Linux管理? 什么是基本的Linux管理? Apr 02, 2025 pm 02:09 PM

Linux系统管理是通过配置、监控和维护来确保系统稳定、高效和安全。1.掌握shell命令如top、systemctl。2.使用apt或yum管理软件包。3.编写自动化脚本提高效率。4.调试常见错误如权限问题。5.通过监控工具优化性能。

如何学习Linux基础知识? 如何学习Linux基础知识? Apr 10, 2025 am 09:32 AM

Linux基础学习从零开始的方法包括:1.了解文件系统和命令行界面,2.掌握基本命令如ls、cd、mkdir,3.学习文件操作,如创建和编辑文件,4.探索高级用法如管道和grep命令,5.掌握调试技巧和性能优化,6.通过实践和探索不断提升技能。

Linux最有用的是什么? Linux最有用的是什么? Apr 09, 2025 am 12:02 AM

Linux在服务器、嵌入式系统和桌面环境中的应用广泛。1)在服务器领域,Linux因其稳定性和安全性成为托管网站、数据库和应用的理想选择。2)在嵌入式系统中,Linux因其高度定制性和高效性而受欢迎。3)在桌面环境中,Linux提供了多种桌面环境,满足不同用户需求。

什么是Linux设备? 什么是Linux设备? Apr 05, 2025 am 12:04 AM

Linux设备是运行Linux操作系统的硬件设备,包括服务器、个人电脑、智能手机和嵌入式系统。它们利用Linux的强大功能执行各种任务,如网站托管和大数据分析。

Linux的缺点是什么? Linux的缺点是什么? Apr 08, 2025 am 12:01 AM

Linux的缺点包括用户体验、软件兼容性、硬件支持和学习曲线。1.用户体验不如Windows或macOS友好,依赖命令行界面。2.软件兼容性不如其他系统,缺乏许多商业软件的原生版本。3.硬件支持不如Windows全面,可能需要手动编译驱动程序。4.学习曲线较陡峭,掌握命令行操作需要时间和耐心。

互联网在Linux上运行吗? 互联网在Linux上运行吗? Apr 14, 2025 am 12:03 AM

互联网运行不依赖单一操作系统,但Linux在其中扮演重要角色。Linux广泛应用于服务器和网络设备,因其稳定性、安全性和可扩展性受欢迎。

See all articles