目錄
一、Wget
二、Pendulum
三、imbalanced-learn
四、FlashText
五、fuzzywuzzy
這個函式庫的名字聽起來很奇怪,但是在字串匹配方面,fuzzywuzzy 是一個非常有用的函式庫。可以很方便地實現計算字串匹配度、令牌匹配度等操作,也可以很方便地匹配保存在不同資料庫中的記錄。
結果展示也是資料科學中的重要面向。能夠將結果進行視覺化將具有很大優勢。 IPyvolume 是一個可以在 Jupyter notebook 中可視化三維和圖形(例如三維散點圖等)的 Python 庫,並且只需要少量配置。但它目前還是 1.0 之前的版本階段。用一個比較恰當的比喻來解釋就是:IPyvolume 的 volshow 對於三維數組就像 matplotlib 的 imshow 對於二維數組一樣好用。可以在這裡獲取更多。
九、Gym
总结
首頁 後端開發 Python教學 九個超實用的數據科學Python庫

九個超實用的數據科學Python庫

Apr 17, 2023 am 09:25 AM
python 程式設計語言 開發

在本文中,我們會研究一些用於資料科學任務的 Python 函式庫,而不是常見的像是 panda、scikit-learn 和 matplotlib 等的函式庫。儘管像 panda 和 scikit-learn 這樣的函式庫,是在機器學習任務中經常出現的,但是了解這個領域中的其它 Python 產品總是很有好處的。

一、Wget

從網路上擷取資料是資料科學家的重要任務之一。 Wget 是一個免費的實用程序,可用於從網路上下載非互動式的檔案。它支援 HTTP、HTTPS 和 FTP 協議,以及透過 HTTP 的代理進行檔案檢索。由於它是非互動式的,即使用戶沒有登錄,它也可以在後台工作。所以下次當你想要下載一個網站或一個頁面上的所有圖片時,wget 可以幫助你。

安裝:

1

$ pip install wget

登入後複製

範例:

1

2

3

4

5

6

7

8

import wget

url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

 

filename = wget.download(url)

100% [................................................] 3841532 / 3841532

 

filename

'razorback.mp3'

登入後複製

二、Pendulum

#對於那些在python 中處理日期時間時會感到沮喪的人來說, Pendulum 很適合你。它是一個簡化日期時間操作的 Python 套件。它是 Python 原生類別的簡易替代。請參閱文件深入學習。

安裝:

1

$ pip install pendulum

登入後複製

範例:

1

2

3

4

5

6

7

8

import pendulum

 

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')

dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

 

print(dt_vancouver.diff(dt_toronto).in_hours())

 

3

登入後複製

三、imbalanced-learn

可以看出,當每個類別的樣本數基本上相同時,大多數分類演算法的效果是最好的,即需要保持資料平衡。但現實案例中大多是不平衡的資料集,這些資料集對機器學習演算法的學習階段和後續預測都有很大影響。幸運的是,這個函式庫就是用來解決這個問題的。它與 scikit-learn 相容,是 scikit-lear-contrib 計畫的一部分。下次當你遇到不平衡的資料集時,請嘗試使用它。

安裝:

1

2

3

4

5

$ pip install -U imbalanced-learn

 

# 或者

 

$ conda install -c conda-forge imbalanced-learn

登入後複製

範例:

使用方法和範例請參考文件。

四、FlashText

在 NLP 任務中,清理文字資料往往需要替換句子中的關鍵字或從句子中提取關鍵字。通常,這種操作可以使用正規表示式來完成,但是如果要搜尋的術語數量達到數千個,這就會變得很麻煩。 Python 的 FlashText 模組是基於 FlashText 演算法為這種情況提供了一個合適的替代方案。 FlashText 最棒的一點是,不管搜尋字詞的數量如何,運行時間都是相同的。你可以在這裡了解更多內容。

安裝:

1

$ pip install flashtext

登入後複製

範例:

#提取關鍵字

1

2

3

4

5

6

7

8

9

10

11

from flashtext import KeywordProcessor

keyword_processor = KeywordProcessor()

 

# keyword_processor.add_keyword(<unclean name>, <standardised name>)

 

keyword_processor.add_keyword('Big Apple', 'New York')

keyword_processor.add_keyword('Bay Area')

keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

 

keywords_found

['New York', 'Bay Area']

登入後複製

取代關鍵字

1

2

3

4

5

6

7

keyword_processor.add_keyword('New Delhi', 'NCR region')

 

new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

 

new_sentence

'I love New York and NCR region.'

Fuzzywuzzy

登入後複製

五、fuzzywuzzy

這個函式庫的名字聽起來很奇怪,但是在字串匹配方面,fuzzywuzzy 是一個非常有用的函式庫。可以很方便地實現計算字串匹配度、令牌匹配度等操作,也可以很方便地匹配保存在不同資料庫中的記錄。

安裝:

1

$ pip install fuzzywuzzy

登入後複製

範例:

1

2

3

4

5

6

7

8

9

10

11

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

 

# 简单匹配度

 

fuzz.ratio("this is a test", "this is a test!")

97

 

# 模糊匹配度

fuzz.partial_ratio("this is a test", "this is a test!")

 100

登入後複製

更多有趣範例可以在 GitHub 倉庫找到。

六、PyFlux

時間序列分析是機器學習領域中最常見的問題之一。 PyFlux 是 Python 中的一個開源函式庫,它是為處理時間序列問題而建構的。本函式庫擁有一系列優秀的現代時間序列模型,包括但不限於 ARIMA、GARCH 和 VAR 模型。簡而言之,PyFlux 為時間序列建模提供了一種機率方法。值得嘗試。

安裝九個超實用的數據科學Python庫

1

pip install pyflux

登入後複製

範例

詳細用法和範例請參考官方文件。

九個超實用的數據科學Python庫七、Ipyvolume

結果展示也是資料科學中的重要面向。能夠將結果進行視覺化將具有很大優勢。 IPyvolume 是一個可以在 Jupyter notebook 中可視化三維和圖形(例如三維散點圖等)的 Python 庫,並且只需要少量配置。但它目前還是 1.0 之前的版本階段。用一個比較恰當的比喻來解釋就是:IPyvolume 的 volshow 對於三維數組就像 matplotlib 的 imshow 對於二維數組一樣好用。可以在這裡獲取更多。

使用pip

1

$ pip install ipyvolume

登入後複製

使用Conda/Anaconda

1

$ conda install -c conda-forge ipyvolume

登入後複製

例子

###動畫###############體繪製###############八、Dash######Dash 是一個高效的用於建立web 應用程式的Python 框架。它是在Flask、Plotly.js 和React.js 基礎上設計而成的,綁定了許多例如下拉框、滑動條和圖表的現代UI 元素,你可以直接使用Python 程式碼來寫相關分析,而無需再使用javascript。 Dash 非常適合建立資料視覺化應用程式。然後,這些應用程式可以在 web 瀏覽器中呈現。使用者指南可以在這裡取得。 ######安裝###

1

2

3

4

pip install dash==0.29.0# 核心 dash 后端

pip install dash-html-components==0.13.2# HTML 组件

pip install dash-core-components==0.36.0# 增强组件

pip install dash-table==3.1.3# 交互式 DataTable 组件(最新!)

登入後複製
###範例下面的範例展示了一個具有下拉功能的高度互動式圖表。當使用者在下拉式選單中選擇一個值時,應用程式程式碼將動態地將資料從 Google Finance 匯出到 panda DataFrame。 ###

九個超實用的數據科學Python庫

九、Gym

OpenAI 的 Gym 是一款用于增强学习算法的开发和比较工具包。它兼容任何数值计算库,如 TensorFlow 或 Theano。Gym 库是测试问题集合的必备工具,这个集合也称为环境 —— 你可以用它来开发你的强化学习算法。这些环境有一个共享接口,允许你进行通用算法的编写。

安装

1

pip install gym

登入後複製

例子这个例子会运行CartPole-v0环境中的一个实例,它的时间步数为 1000,每一步都会渲染整个场景。

总结

以上这些有用的数据科学 Python 库都是我精心挑选出来的,不是常见的如 numpy 和 pandas 等库。如果你知道其它库,可以添加到列表中来,请在下面的评论中提一下。另外别忘了先尝试运行一下它们。

以上是九個超實用的數據科學Python庫的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱門文章

倉庫:如何復興隊友
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 週前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱門文章

倉庫:如何復興隊友
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 週前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱門文章標籤

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

華為倉頡程式語言官方入門教學發布,一文看懂如何取得通用版本 SDK 華為倉頡程式語言官方入門教學發布,一文看懂如何取得通用版本 SDK Jun 25, 2024 am 08:05 AM

華為倉頡程式語言官方入門教學發布,一文看懂如何取得通用版本 SDK

歷經 5 年研發沉澱,華為下一代程式語言「倉頡」正式開啟預覽 歷經 5 年研發沉澱,華為下一代程式語言「倉頡」正式開啟預覽 Jun 22, 2024 am 09:54 AM

歷經 5 年研發沉澱,華為下一代程式語言「倉頡」正式開啟預覽

華為開啟鴻蒙 HarmonyOS NEXT 倉頡程式語言開發者預覽版 Beta 招募 華為開啟鴻蒙 HarmonyOS NEXT 倉頡程式語言開發者預覽版 Beta 招募 Jun 22, 2024 am 04:07 AM

華為開啟鴻蒙 HarmonyOS NEXT 倉頡程式語言開發者預覽版 Beta 招募

模板化的優點和缺點有哪些? 模板化的優點和缺點有哪些? May 08, 2024 pm 03:51 PM

模板化的優點和缺點有哪些?

天津大學、北航深度參與華為'倉頡”,推出首個基於國產程式語言的 AI 智能體程式框架'蒼穹” 天津大學、北航深度參與華為'倉頡”,推出首個基於國產程式語言的 AI 智能體程式框架'蒼穹” Jun 23, 2024 am 08:37 AM

天津大學、北航深度參與華為'倉頡”,推出首個基於國產程式語言的 AI 智能體程式框架'蒼穹”

怎麼下載deepseek 小米 怎麼下載deepseek 小米 Feb 19, 2025 pm 05:27 PM

怎麼下載deepseek 小米

Google AI 為開發者發佈 Gemini 1.5 Pro 和 Gemma 2 Google AI 為開發者發佈 Gemini 1.5 Pro 和 Gemma 2 Jul 01, 2024 am 07:22 AM

Google AI 為開發者發佈 Gemini 1.5 Pro 和 Gemma 2

華為自研倉頡程式語言官網及開發文件上線,首度融入鴻蒙生態 華為自研倉頡程式語言官網及開發文件上線,首度融入鴻蒙生態 Jun 22, 2024 am 03:10 AM

華為自研倉頡程式語言官網及開發文件上線,首度融入鴻蒙生態

See all articles