Jadual Kandungan
1. Wget
2. Pendulum
3 tidak seimbang-belajar
4. FlashText
Lima , fuzzywuzzy
6. PyFlux
7. Ipyvolume
8 Dash
九、Gym
总结
Rumah pembangunan bahagian belakang Tutorial Python Sembilan perpustakaan Python yang sangat berguna untuk sains data

Sembilan perpustakaan Python yang sangat berguna untuk sains data

Apr 17, 2023 am 09:25 AM
python bahasa pengaturcaraan membangun

Dalam artikel ini, kita akan melihat beberapa pustaka Python untuk tugas sains data selain daripada tugasan yang lebih biasa seperti panda, scikit-learn dan matplotlib. Walaupun perpustakaan seperti panda dan scikit-learn biasanya digunakan dalam tugasan pembelajaran mesin, ia sentiasa berfaedah untuk memahami produk Python lain dalam bidang ini.

1. Wget

Mengekstrak data daripada Internet ialah salah satu tugas penting seorang saintis data. Wget ialah utiliti percuma yang boleh digunakan untuk memuat turun fail bukan interaktif dari Internet. Ia menyokong protokol HTTP, HTTPS dan FTP, serta mendapatkan semula fail melalui proksi HTTP. Oleh kerana ia tidak interaktif, ia boleh berfungsi di latar belakang walaupun pengguna tidak log masuk. Jadi lain kali anda ingin memuat turun semua imej pada tapak web atau halaman, wget boleh membantu anda.

Pemasangan:

$ pip install wget
Salin selepas log masuk

Contoh:

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename
'razorback.mp3'
Salin selepas log masuk

2. Pendulum

Bagi mereka yang kecewa apabila berurusan dengan tarikh dan masa dalam ular sawa. Orang ramai, Pendulum adalah untuk anda. Ia adalah pakej Python yang memudahkan operasi datetime. Ia adalah pengganti mudah untuk kelas asli Python. Lihat dokumentasi untuk pembelajaran lebih mendalam.

Pemasangan:

$ pip install pendulum
Salin selepas log masuk

Contoh:

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3
Salin selepas log masuk

3 tidak seimbang-belajar

Ia boleh dilihat apabila bilangan sampel dalam. setiap kelas Kebanyakan algoritma klasifikasi berfungsi paling baik apabila ia pada asasnya sama, iaitu, keseimbangan data perlu dikekalkan. Walau bagaimanapun, kebanyakan kes dunia sebenar adalah set data yang tidak seimbang, yang mempunyai kesan yang besar pada fasa pembelajaran dan ramalan seterusnya bagi algoritma pembelajaran mesin. Nasib baik, perpustakaan ini direka untuk menyelesaikan masalah ini. Ia serasi dengan scikit-learn dan merupakan sebahagian daripada projek scikit-lear-contrib. Cuba gunakan ini apabila anda menghadapi set data yang tidak seimbang.

Pemasangan:

$ pip install -U imbalanced-learn

# 或者

$ conda install -c conda-forge imbalanced-learn
Salin selepas log masuk

Contoh:

Sila rujuk dokumentasi untuk penggunaan dan contoh.

4. FlashText

Dalam tugasan NLP, membersihkan data teks selalunya memerlukan penggantian kata kunci dalam ayat atau mengekstrak kata kunci daripada ayat. Biasanya ini boleh dilakukan menggunakan ungkapan biasa, tetapi ini boleh menjadi menyusahkan jika bilangan istilah yang dicari mencecah ribuan. Modul FlashText Python adalah berdasarkan algoritma FlashText dan menyediakan alternatif yang sesuai untuk situasi ini. Perkara yang menarik tentang FlashText ialah masa larian adalah sama tanpa mengira bilangan istilah carian. Anda boleh mengetahui lebih lanjut di sini.

Pemasangan:

$ pip install flashtext
Salin selepas log masuk

Contoh:

Ekstrak kata kunci

from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(<unclean name>, <standardised name>)

keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

keywords_found
['New York', 'Bay Area']
Salin selepas log masuk

Ganti kata kunci

keyword_processor.add_keyword('New Delhi', 'NCR region')

new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

new_sentence
'I love New York and NCR region.'
Fuzzywuzzy
Salin selepas log masuk

Lima , fuzzywuzzy

Nama pustaka ini kedengaran pelik, tetapi fuzzywuzzy ialah perpustakaan yang sangat berguna apabila ia berkaitan dengan pemadanan rentetan. Operasi seperti mengira tahap padanan rentetan dan darjah padanan token boleh dilaksanakan dengan mudah, dan rekod yang disimpan dalam pangkalan data yang berbeza juga boleh dipadankan dengan mudah.

Pemasangan:

$ pip install fuzzywuzzy
Salin selepas log masuk

Contoh:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# 简单匹配度

fuzz.ratio("this is a test", "this is a test!")
97

# 模糊匹配度
fuzz.partial_ratio("this is a test", "this is a test!")
 100
Salin selepas log masuk

Contoh yang lebih menarik boleh didapati dalam repositori GitHub.

6. PyFlux

Analisis siri masa ialah salah satu masalah yang paling biasa dalam bidang pembelajaran mesin. PyFlux ialah perpustakaan sumber terbuka dalam Python yang dibina untuk menangani masalah siri masa. Perpustakaan ini mempunyai koleksi model siri masa moden yang sangat baik, termasuk tetapi tidak terhad kepada model ARIMA, GARCH dan VAR. Ringkasnya, PyFlux menyediakan pendekatan kebarangkalian kepada pemodelan siri masa. Berbaloi mencuba.

Pemasangan

pip install pyflux
Salin selepas log masuk

Contoh

Sila rujuk dokumentasi rasmi untuk penggunaan dan contoh terperinci.

7. Ipyvolume

Paparan hasil juga merupakan aspek penting dalam sains data. Mampu memvisualisasikan hasilnya akan menjadi kelebihan yang besar. IPyvolume ialah perpustakaan Python yang boleh menggambarkan volum dan grafik 3D (seperti plot serakan 3D, dsb.) dalam buku nota Jupyter dan hanya memerlukan sedikit konfigurasi. Tetapi ia masih dalam peringkat versi pra-1.0. Metafora yang lebih sesuai untuk dijelaskan ialah: Volshow IPyvolume berguna untuk tatasusunan tiga dimensi sebagaimana tayangan matplotlib adalah untuk tatasusunan dua dimensi. Lebih banyak terdapat di sini.

Menggunakan pip

$ pip install ipyvolume
Salin selepas log masuk

Menggunakan Conda/Anaconda

$ conda install -c conda-forge ipyvolume
Salin selepas log masuk

Contoh

Animasi

Sembilan perpustakaan Python yang sangat berguna untuk sains data

Rendering Volume

Sembilan perpustakaan Python yang sangat berguna untuk sains data

8 Dash

Dash ialah rangka kerja Python yang cekap untuk membina aplikasi web. Ia direka berdasarkan Flask, Plotly.js dan React.js, dan terikat kepada banyak elemen UI moden seperti kotak drop-down, slider dan carta Anda boleh terus menggunakan kod Python untuk menulis analisis yang berkaitan tanpa perlu Menggunakan javascript. Dash bagus untuk membina aplikasi visualisasi data. Aplikasi ini kemudiannya boleh dipaparkan dalam pelayar web. Panduan pengguna boleh didapati di sini.

Pemasangan

pip install dash==0.29.0# 核心 dash 后端
pip install dash-html-components==0.13.2# HTML 组件
pip install dash-core-components==0.36.0# 增强组件
pip install dash-table==3.1.3# 交互式 DataTable 组件(最新!)
Salin selepas log masuk

Contoh Contoh berikut menunjukkan carta yang sangat interaktif dengan fungsi lungsur turun. Apabila pengguna memilih nilai dalam menu lungsur, kod aplikasi mengeksport data secara dinamik daripada Google Finance ke DataFrame panda.

Sembilan perpustakaan Python yang sangat berguna untuk sains data

九、Gym

OpenAI 的 Gym 是一款用于增强学习算法的开发和比较工具包。它兼容任何数值计算库,如 TensorFlow 或 Theano。Gym 库是测试问题集合的必备工具,这个集合也称为环境 —— 你可以用它来开发你的强化学习算法。这些环境有一个共享接口,允许你进行通用算法的编写。

安装

pip install gym
Salin selepas log masuk

例子这个例子会运行CartPole-v0环境中的一个实例,它的时间步数为 1000,每一步都会渲染整个场景。

总结

以上这些有用的数据科学 Python 库都是我精心挑选出来的,不是常见的如 numpy 和 pandas 等库。如果你知道其它库,可以添加到列表中来,请在下面的评论中提一下。另外别忘了先尝试运行一下它们。

Atas ialah kandungan terperinci Sembilan perpustakaan Python yang sangat berguna untuk sains data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Adakah Mysql perlu membayar Adakah Mysql perlu membayar Apr 08, 2025 pm 05:36 PM

MySQL mempunyai versi komuniti percuma dan versi perusahaan berbayar. Versi komuniti boleh digunakan dan diubahsuai secara percuma, tetapi sokongannya terhad dan sesuai untuk aplikasi dengan keperluan kestabilan yang rendah dan keupayaan teknikal yang kuat. Edisi Enterprise menyediakan sokongan komersil yang komprehensif untuk aplikasi yang memerlukan pangkalan data yang stabil, boleh dipercayai, berprestasi tinggi dan bersedia membayar sokongan. Faktor yang dipertimbangkan apabila memilih versi termasuk kritikal aplikasi, belanjawan, dan kemahiran teknikal. Tidak ada pilihan yang sempurna, hanya pilihan yang paling sesuai, dan anda perlu memilih dengan teliti mengikut keadaan tertentu.

Cara Menggunakan MySQL Selepas Pemasangan Cara Menggunakan MySQL Selepas Pemasangan Apr 08, 2025 am 11:48 AM

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Demystifying JavaScript: Apa yang berlaku dan mengapa penting Demystifying JavaScript: Apa yang berlaku dan mengapa penting Apr 09, 2025 am 12:07 AM

JavaScript adalah asas kepada pembangunan web moden, dan fungsi utamanya termasuk pengaturcaraan yang didorong oleh peristiwa, penjanaan kandungan dinamik dan pengaturcaraan tak segerak. 1) Pengaturcaraan yang didorong oleh peristiwa membolehkan laman web berubah secara dinamik mengikut operasi pengguna. 2) Penjanaan kandungan dinamik membolehkan kandungan halaman diselaraskan mengikut syarat. 3) Pengaturcaraan Asynchronous memastikan bahawa antara muka pengguna tidak disekat. JavaScript digunakan secara meluas dalam interaksi web, aplikasi satu halaman dan pembangunan sisi pelayan, sangat meningkatkan fleksibiliti pengalaman pengguna dan pembangunan silang platform.

Bagaimana untuk mengoptimumkan prestasi MySQL untuk aplikasi beban tinggi? Bagaimana untuk mengoptimumkan prestasi MySQL untuk aplikasi beban tinggi? Apr 08, 2025 pm 06:03 PM

Panduan Pengoptimuman Prestasi Pangkalan Data MySQL Dalam aplikasi yang berintensifkan sumber, pangkalan data MySQL memainkan peranan penting dan bertanggungjawab untuk menguruskan urus niaga besar-besaran. Walau bagaimanapun, apabila skala aplikasi berkembang, kemunculan prestasi pangkalan data sering menjadi kekangan. Artikel ini akan meneroka satu siri strategi pengoptimuman prestasi MySQL yang berkesan untuk memastikan aplikasi anda tetap cekap dan responsif di bawah beban tinggi. Kami akan menggabungkan kes-kes sebenar untuk menerangkan teknologi utama yang mendalam seperti pengindeksan, pengoptimuman pertanyaan, reka bentuk pangkalan data dan caching. 1. Reka bentuk seni bina pangkalan data dan seni bina pangkalan data yang dioptimumkan adalah asas pengoptimuman prestasi MySQL. Berikut adalah beberapa prinsip teras: Memilih jenis data yang betul dan memilih jenis data terkecil yang memenuhi keperluan bukan sahaja dapat menjimatkan ruang penyimpanan, tetapi juga meningkatkan kelajuan pemprosesan data.

Adakah mysql memerlukan internet Adakah mysql memerlukan internet Apr 08, 2025 pm 02:18 PM

MySQL boleh berjalan tanpa sambungan rangkaian untuk penyimpanan dan pengurusan data asas. Walau bagaimanapun, sambungan rangkaian diperlukan untuk interaksi dengan sistem lain, akses jauh, atau menggunakan ciri -ciri canggih seperti replikasi dan clustering. Di samping itu, langkah -langkah keselamatan (seperti firewall), pengoptimuman prestasi (pilih sambungan rangkaian yang betul), dan sandaran data adalah penting untuk menyambung ke Internet.

Kaedah Navicat untuk melihat kata laluan pangkalan data MongoDB Kaedah Navicat untuk melihat kata laluan pangkalan data MongoDB Apr 08, 2025 pm 09:39 PM

Tidak mustahil untuk melihat kata laluan MongoDB secara langsung melalui Navicat kerana ia disimpan sebagai nilai hash. Cara mendapatkan kata laluan yang hilang: 1. Tetapkan semula kata laluan; 2. Periksa fail konfigurasi (mungkin mengandungi nilai hash); 3. Semak Kod (boleh kata laluan Hardcode).

Hadidb: Pangkalan data yang ringan dan berskala mendatar di Python Hadidb: Pangkalan data yang ringan dan berskala mendatar di Python Apr 08, 2025 pm 06:12 PM

Hadidb: Pangkalan data Python yang ringan, tinggi, Hadidb (Hadidb) adalah pangkalan data ringan yang ditulis dalam Python, dengan tahap skalabilitas yang tinggi. Pasang HadIdb menggunakan pemasangan PIP: Pengurusan Pengguna PipInstallHadidB Buat Pengguna: CreateUser () Kaedah untuk membuat pengguna baru. Kaedah pengesahan () mengesahkan identiti pengguna. dariHadidb.OperationImportuserer_Obj = user ("admin", "admin") user_obj.

Adakah mysql memerlukan pelayan Adakah mysql memerlukan pelayan Apr 08, 2025 pm 02:12 PM

Untuk persekitaran pengeluaran, pelayan biasanya diperlukan untuk menjalankan MySQL, atas alasan termasuk prestasi, kebolehpercayaan, keselamatan, dan skalabilitas. Pelayan biasanya mempunyai perkakasan yang lebih kuat, konfigurasi berlebihan dan langkah keselamatan yang lebih ketat. Untuk aplikasi kecil, rendah, MySQL boleh dijalankan pada mesin tempatan, tetapi penggunaan sumber, risiko keselamatan dan kos penyelenggaraan perlu dipertimbangkan dengan teliti. Untuk kebolehpercayaan dan keselamatan yang lebih besar, MySQL harus digunakan di awan atau pelayan lain. Memilih konfigurasi pelayan yang sesuai memerlukan penilaian berdasarkan beban aplikasi dan jumlah data.

See all articles