目錄
什麼是數據科學堆棧(DSS)?
數據科學堆棧中包括什麼?
在Ubuntu安裝數據科學堆棧(DSS)
先決條件
設置Microk8
安裝DSS CLI
數據科學堆棧開始
初始化DSS和MLFLOW
開始您的第一本Jupyter筆記本
查看DSS狀態
列表DSS命令
從microk8s中刪除數據科學堆棧
刪除DSS CLI和MICROK8S
常見問題(常見問題解答)
結論
首頁 系統教程 Linux 規範啟動為ML初學者的數據科學堆棧

規範啟動為ML初學者的數據科學堆棧

Mar 17, 2025 am 10:22 AM

數據科學是數據的研究。它涉及收集,分析和解釋大量信息。數據科學家使用這些信息來做出決策,解決問題並預測未來的趨勢。

數據科學家使用各種工具和技術來分析和解釋複雜的數據集。這有助於企業和組織做出更好的決策。

如果您是從數據科學開始的初學者,那麼在建立適當的數據科學環境方面,您可能會面臨一些挑戰。

以下是建立數據科學環境對初學者可能具有挑戰性的一些原因:

  1. 軟件安裝:新手通常在安裝必要的軟件(例如編程語言(例如Python或r),庫和工具(例如Jupyter Notebooks或Rstudio))方面很難。
  2. 了解依賴關係:軟件通常需要其他軟件的特定版本才能正常工作。如果無法正確管理,這可能會令人困惑,並導致錯誤。
  3. 學習曲線:數據科學涉及學習新技能,包括編程,統計和機器學習。對於初學者來說,這可能是壓倒性的。
  4. 數據處理:處理數據可能很複雜,尤其是在處理大型或混亂的數據集時。了解如何清潔,存儲和處理數據至關重要,但最初可能很難掌握。
  5. 版本控制:跟踪代碼和數據的更改很重要,但設置和管理可能很棘手,尤其是對於諸如GIT之類的版本控制系統的人。
  6. 選擇合適的工具:有許多可用的工具和框架,為特定項目選擇合適的工具可能會使初學者令人生畏。

通過了解這些挑戰,初學者可以更好地準備自己,並尋求正確的資源和支持以克服它們。

對於新的數據科學家來說,最初的障礙可能具有挑戰性,但是隨著持久性和一致的學習,旅程將變得更加順利。

多虧了Canonical的數據科學堆棧(DSS) ,現在設置數據科學變得更加容易。在本教程中,我們將討論什麼是數據科學堆棧,以及如何在Ubuntu操作系統中輕鬆快速地設置數據科學環境

目錄

什麼是數據科學堆棧(DSS)?

Canonical的數據科學堆棧(DSS)是數據科學家和機器學習工程師的開箱即用解決方案。

數據科學堆棧通過提供預先配置的環境,包括所有必要的工具和庫,用於機器學習和數據分析,從而簡化了設置過程。

通過設計用於在Ubuntu工作站上運行並優化GPU的使用,DSS可以增強機器學習模型的性能,這對計算密集型任務特別有益。

DSS允許用戶更多地關注其模型的開發和優化,而不是環境設置的技術。

這可以節省大量時間,否則將花費在安裝和配置各個組件上。

數據科學堆棧中包括什麼?

數據科學堆棧(DSS)為數據科學家和機器學習工程師提供了一個全面而整合的環境。這是它提供的:

  1. 預安裝的工具:DSS包括流行的開源工具,例如Microk8sJupyterlabMLFlow ,這對於數據探索,模型開發和實驗跟踪至關重要。
  2. 機器學習框架:默認情況下,它具有兩個廣泛使用的機器學習框架, PytorchTensorflow ,它們可以用於建築和培訓模型。
  3. 命令行接口(CLI) :DSS提供了一種直觀的CLI,用於部署這些工具和框架,從而更容易管理和擴展環境。
  4. 用戶界面:部署後,用戶可以訪問工具的UI,以便在無需手動設置的情況下開始從事其數據科學項目。
  5. 包裝依賴性:DSS處理包裝依賴性,以確保所有工具,庫和框架彼此兼容並順利進行。
  6. 硬件兼容性:它旨在與機器的硬件兼容,優化工具和框架的性能
  7. 簡化的配置:傳統上,在工作站上設置機器學習環境可能很複雜且難以逆轉。 DSS通過提供有效利用工作站的GPU的可訪問,可訪問,隔離和可重現的ML環境來解決這一問題。
  8. GPU配置:DSS通過包括GPU操作員來簡化GPU配置,該操作員管理GPU用於機器學習任務的設置和使用,從而有效利用其計算能力。

總體而言,DSS旨在為數據科學和機器學習提供無憂且優化的環境,使用戶可以專注於其核心任務,而不是技術設置和維護其工具。

在Ubuntu安裝數據科學堆棧(DSS)

要開始使用數據科學堆棧(DSS)進行機器學習和數據科學,請按照以下步驟設置您的環境:

先決條件

  • 操作系統:確保您的系統上安裝了Ubuntu 22.04 LTS或Ubuntu 24.04 LTS。
  • Internet連接:您需要一個主動的Internet連接才能下載並安裝必要的軟件。
  • SNAP :確保在系統上安裝了SNAP,因為安裝Microk8和DSS所需。

設置Microk8

DSS使用Microk8作為其容器編排系統,允許工作負載訪問主機的GPU。

要在Ubuntu上安裝Microk8,請運行:

 $ sudo snap安裝microk8s  - 渠道1.28/穩定 - 經典
登入後複製

接下來,啟用所需的服務:

 $ sudo microk8s啟用存儲DNS RBAC
登入後複製

安裝DSS CLI

數據科學堆棧通過命令行接口(CLI)管理。

使用以下命令安裝DSS CLI:

 $ sudo snap install data-science-stack-通道最新/穩定
登入後複製

完成這些步驟後,您將安裝DSS的基礎組件並準備使用。現在,您可以繼續設置機器學習環境,並開始使用DSS CLI開始運行第一筆筆記本。

數據科學堆棧開始

安裝Microk8和DSS CLI後,下一步是在Microk8s頂部初始化DSS並準備MLFLOW以供使用。

初始化DSS和MLFLOW

要初始化DSS,您需要使用THEDSS InitializeCommand,該啟動量可以在Microk8s群集中設置必要的資源。

 $ DSS初始化-kubeconfig =“ $(sudo microk8s config)”
登入後複製

- kubeconfigflag用於指定Microk8S生成的Kubernetes配置文件的路徑。

DSS初始化命令可能需要幾分鐘才能完成。在此期間,DSS CLI將顯示表示部署進度的消息。您會看到類似於以下信息的消息:

 [INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒...
登入後複製

此消息表明,DSS正在等待TensorFlow筆記本電腦的部署準備就緒。在系統設置環境並確保正確配置所有組件的情況下,請耐心等待。

初始化完成後,您將看到下面的輸出:

 [info]執行初始化命令
[info]存儲提供kubeconfig到/home/ostechnix/snap/data-science-stack/16/.dsss/config
[INFO]等待命名空間DSS中的部署MLFlow準備就緒...
[info]命名空間DSS中的部署MLFLOF已準備就緒
[INFO] DSS初始化。要創建第一個筆記本電腦運行命令:

DSS創建

示例:
  DSS創建mynotebook -image = pytorch
  DSS創建mynotebook -image = kubeflownotebookswg/jupyter-scipy:v1.8.0
登入後複製

規範啟動為ML初學者的數據科學堆棧

現在,您將準備開始使用MLFlow跟踪服務器和DSS提供的其他組件。

然後,您可以繼續在DSS環境中創建並運行第一個機器學習筆記本。

開始您的第一本Jupyter筆記本

要使用數據科學堆棧(DSS)啟動第一個Jupyter筆記本,您需要使用Thedss CreateCommand,這使您可以指定要創建的筆記本的類型。

在這裡,我們正在創建一個帶有CUDA支持的tensorflow筆記本,名為My-Tensorflow-Notebook:

 $ dss創建my-tensorflow-notebook -image = kubeflownotebookswg/jupyter-tensorflow-cuda:v1.8.0
登入後複製

成功創建筆記本後,您將看到下面的輸出:

 [info]執行創建命令
[INFO] Waiting for deployment my-tensorflow-notebook in namespace dss to be ready...
[INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒...
[INFO]等待命名空間DSS中的部署my-Tensorflow-Notebook準備就緒...
[info]命名空間DSS中的部署my-tensorflow notebook已準備就緒
[INFO]成功:筆記本My-Tensorflow-Notebook成功創建了。
[INFO]訪問筆記本,請訪問http://10.152.183.253:80。
登入後複製

規範啟動為ML初學者的數據科學堆棧

筆記本準備好後,該命令顯示一個URL,您可以使用該URL訪問Jupyterlab UI。

要開始使用筆記本電腦,請打開Web瀏覽器,然後將提供的URL輸入地址欄。

如您在上面的輸出中看到的那樣,我們可以從Web瀏覽器訪問http://10.152.183.253:80的新創建的筆記本。用您自己的URL替換URL。

這將帶您進入Jupyterlab接口,您可以在其中創建新筆記本電腦,上傳數據並使用TensorFlow和CUDA開始機器學習任務。

規範啟動為ML初學者的數據科學堆棧

請記住,URL中的IP地址和端口號可能會根據您的特定設置而有所不同。

就是這樣。您現在可以開始與筆記本互動。

查看DSS狀態

要快速檢查您的數據科學堆棧(DSS)環境的狀態,包括MLFLOW的狀態和GPU加速度的可用性,您可以使用如下所示。

 $ DSS狀態
登入後複製

THEDSS STATUCMAND將為您提供DSS環境當前狀態的摘要。這是輸出外觀的示例:

 [INFO] MLFLOW部署:準備就緒
[info] mlflow URL:http://10.152.183.157:5000
[INFO] GPU加速度:禁用
登入後複製

輸出的說明:

  • MLFLOW部署:Ready表示MLFlow跟踪服務器正在啟動並運行。
  • MLFlow URL提供了您可以在其中訪問MLFlow UI以跟踪機器學習實驗的URL。
  • GPU加速度:禁用表明,在當前DSS環境中沒有可用或配置的GPU。

要驗證,請從Web瀏覽器打開MLFLOW URL http://10.152.183.157:5000。

這將打開Web瀏覽器中的MLFlow儀表板。

MLFlow儀表板中的實驗選項卡:

規範啟動為ML初學者的數據科學堆棧

由於這是我們的新裝置,因此還沒有實驗。為了創建實驗,請使用MLFlow實驗CLI。

MLFlow儀表板中的模型選項卡:

規範啟動為ML初學者的數據科學堆棧

列表DSS命令

要查看數據科學堆棧(DSS)的可用命令列表,您可以將DSS命令與-HELP選項一起使用。

在您的終端中運行以下命令:

 $ dss-螺旋
登入後複製

這將顯示命令列表以及其目的的簡要說明。

如果您需要有關特定DSS命令的更多詳細信息,則可以使用命令,然後使用-HELP選項。

例如,要獲取有關初始化命令的詳細信息,您將運行:

 $ DSS日誌 - 螺旋
登入後複製

從microk8s中刪除數據科學堆棧

如果您不再需要DSS,則可以使用DSS Purge命令從Microk8s群集中刪除數據科學堆棧。

要刪除DSS,請在您的終端中執行以下命令:

 $ DSS清除
登入後複製

該命令將完全刪除所有DSS組件,包括Jupyter筆記本電腦,MLFLOW服務器以及DSS環境中存儲的任何數據。

重要的是要注意,此操作是不可逆轉的,並且DSS環境中的所有數據將永久丟失。在進行清除之前,請確保備份任何重要數據。

刪除DSS CLI和MICROK8S

當DSS Purge命令從Microk8s群集中刪除DSS組件時,它不會刪除DSS CLI或Microk8s群集本身。如果您也想刪除這些內容,則需要刪除它們各自的快照:

要刪除DSS CLI,請使用以下命令:

 $ sudo snap刪除數據科學堆棧
登入後複製

要刪除microk8s,請使用以下命令:

 $ sudo snap刪除microk8s
登入後複製

通過遵循以下步驟,您可以從系統中完全刪除數據科學堆棧(DSS)及其相關組件。

常見問題(常見問題解答)

問:什麼是數據科學堆棧(DSS)?

答:數據科學堆棧(DSS)是一個用於機器學習和數據科學的全面,現成的環境。它旨在簡化數據科學工具和框架的設置和管理,使用戶可以專注於其核心任務,而不是環境配置的複雜性。

問:DSS中包含哪些工具?

答:DSS包括各種開源工具,例如Jupyter筆記本,MLFLOW和流行的機器學習框架,例如Tensorflow和Pytorch。它還提供了一個容器編排系統Microk8s,用於管理工作負載。

問:如何安裝DSS?

答:要安裝DSS,您需要使用Ubuntu 22.04 LTS或Ubuntu 24.04 LTS,Internet連接並安裝了SNAP。然後,您可以使用SNAP命令安裝Microk8和DSS CLI。有關詳細說明,請參閱《官方文檔或安裝指南》。

問:如何使用DSS啟動jupyter筆記本?

答:您可以使用DSS Create命令啟動帶有DSS的Jupyter筆記本,為筆記本指定所需的圖像。例如,要啟動TensorFlow筆記本電腦,您將使用DSS創建My-TensorFlow-Notebook -image = KubeFlownoteBookswg/jupyter-tensorflow-cuda:v1.8.0。

問:DSS狀態命令的目的是什麼?

答:DSS狀態命令可快速概述DSS環境的當前狀態,包括MLFLOW的狀態和GPU加速度的可用性。它可以幫助您驗證所有組件的運行正確。

問:如何從環境中刪除DSS?

答:要刪除DSS,您可以使用DSS Purge命令,該命令將刪除所有DSS組件,包括Jupyter Notebooks和MLFlow服務器。請注意,此操作是不可逆轉的,將導致DSS環境中所有數據的丟失。

問:在哪裡可以找到有關DSS命令的更多信息?

答:您可以通過使用DSS -HELP命令來列出所有可用命令和DSS - 螺旋,以獲取特定命令的詳細用法。

問:DSS可以免費使用嗎?

是的,DSS基於開源工具,可以免費使用。

問:DSS適合數據科學的初學者?

答:是的,DSS的設計為用戶友好,可以成為初學者的好工具,因為它降低了設置數據科學環境的複雜性。它提供了現成的優化環境,使用戶可以快速開始從事數據科學項目。

結論

總之,數據科學堆棧(DSS)簡化了數據科學任務的設置。它提供了一系列工具,可以很好地合作,從而更容易快速啟動項目。

無論您是數據科學的新手還是經驗豐富,DSS都可以通過處理技術設置來幫助您專注於工作。這是一個可靠的工具,支持有效的數據分析和模型構建。

資源

  • 數據科學堆棧(DSS)文檔

相關閱讀

  • 如何在Linux上安裝Anaconda
  • 如何在Linux中安裝Miniconda

以上是規範啟動為ML初學者的數據科學堆棧的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Linux最好使用的是什麼? Linux最好使用的是什麼? Apr 03, 2025 am 12:11 AM

Linux最適合用作服務器管理、嵌入式系統和桌面環境。 1)在服務器管理中,Linux用於託管網站、數據庫和應用程序,提供穩定性和可靠性。 2)在嵌入式系統中,Linux因其靈活性和穩定性被廣泛應用於智能家居和汽車電子系統。 3)在桌面環境中,Linux提供了豐富的應用和高效的性能。

Linux的5個基本組件是什麼? Linux的5個基本組件是什麼? Apr 06, 2025 am 12:05 AM

Linux的五個基本組件是:1.內核,管理硬件資源;2.系統庫,提供函數和服務;3.Shell,用戶與系統交互的接口;4.文件系統,存儲和組織數據;5.應用程序,利用系統資源實現功能。

如何學習Linux基礎知識? 如何學習Linux基礎知識? Apr 10, 2025 am 09:32 AM

Linux基礎學習從零開始的方法包括:1.了解文件系統和命令行界面,2.掌握基本命令如ls、cd、mkdir,3.學習文件操作,如創建和編輯文件,4.探索高級用法如管道和grep命令,5.掌握調試技巧和性能優化,6.通過實踐和探索不斷提陞技能。

Linux最有用的是什麼? Linux最有用的是什麼? Apr 09, 2025 am 12:02 AM

Linux在服務器、嵌入式系統和桌面環境中的應用廣泛。 1)在服務器領域,Linux因其穩定性和安全性成為託管網站、數據庫和應用的理想選擇。 2)在嵌入式系統中,Linux因其高度定制性和高效性而受歡迎。 3)在桌面環境中,Linux提供了多種桌面環境,滿足不同用戶需求。

什麼是Linux設備? 什麼是Linux設備? Apr 05, 2025 am 12:04 AM

Linux設備是運行Linux操作系統的硬件設備,包括服務器、個人電腦、智能手機和嵌入式系統。它們利用Linux的強大功能執行各種任務,如網站託管和大數據分析。

Linux的缺點是什麼? Linux的缺點是什麼? Apr 08, 2025 am 12:01 AM

Linux的缺點包括用戶體驗、軟件兼容性、硬件支持和學習曲線。 1.用戶體驗不如Windows或macOS友好,依賴命令行界面。 2.軟件兼容性不如其他系統,缺乏許多商業軟件的原生版本。 3.硬件支持不如Windows全面,可能需要手動編譯驅動程序。 4.學習曲線較陡峭,掌握命令行操作需要時間和耐心。

互聯網在Linux上運行嗎? 互聯網在Linux上運行嗎? Apr 14, 2025 am 12:03 AM

互聯網運行不依賴單一操作系統,但Linux在其中扮演重要角色。 Linux廣泛應用於服務器和網絡設備,因其穩定性、安全性和可擴展性受歡迎。

Linux操作是什麼? Linux操作是什麼? Apr 13, 2025 am 12:20 AM

Linux操作系統的核心是其命令行界面,通過命令行可以執行各種操作。 1.文件和目錄操作使用ls、cd、mkdir、rm等命令管理文件和目錄。 2.用戶和權限管理通過useradd、passwd、chmod等命令確保系統安全和資源分配。 3.進程管理使用ps、kill等命令監控和控制系統進程。 4.網絡操作包括ping、ifconfig、ssh等命令配置和管理網絡連接。 5.系統監控和維護通過top、df、du等命令了解系統運行狀態和資源使用情況。

See all articles