목차
1. Wget
2. Pendulum
3. imbalanced-learn
4. FlashText
5. fuzzywuzzy
6. PyFlux
7. Ipyvolume
九、Gym
总结
백엔드 개발 파이썬 튜토리얼 데이터 과학을 위한 9가지 매우 유용한 Python 라이브러리

데이터 과학을 위한 9가지 매우 유용한 Python 라이브러리

Apr 17, 2023 am 09:25 AM
python 프로그래밍 언어 개발하다

이 기사에서는 panda, scikit-learn 및 matplotlib와 같은 보다 일반적인 라이브러리 외에 데이터 과학 작업을 위한 일부 Python 라이브러리를 살펴보겠습니다. panda 및 scikit-learn과 같은 라이브러리는 기계 학습 작업에 일반적으로 사용되지만 이 분야의 다른 Python 제품을 이해하는 것은 항상 유익합니다.

1. Wget

인터넷에서 데이터를 추출하는 것은 데이터 과학자의 중요한 작업 중 하나입니다. Wget은 인터넷에서 비대화형 파일을 다운로드하는 데 사용할 수 있는 무료 유틸리티입니다. HTTP, HTTPS 및 FTP 프로토콜은 물론 HTTP 프록시를 통한 파일 검색도 지원합니다. 비대화형이므로 사용자가 로그인하지 않아도 백그라운드에서 작동할 수 있습니다. 따라서 다음에 웹사이트나 페이지의 모든 이미지를 다운로드하고 싶을 때 wget이 도움을 드릴 수 있습니다.

설치:

$ pip install wget
로그인 후 복사

예:

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename
'razorback.mp3'
로그인 후 복사

2. Pendulum

Python에서 날짜와 시간을 처리할 때 좌절감을 느끼는 분들을 위해 Pendulum이 적합합니다. 날짜/시간 작업을 단순화하는 Python 패키지입니다. 이는 Python의 기본 클래스를 간단히 대체합니다. 더 깊은 학습을 위해서는 문서를 참조하세요.

설치:

$ pip install pendulum
로그인 후 복사

예:

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3
로그인 후 복사

3. imbalanced-learn

대부분의 분류 알고리즘은 각 클래스의 샘플 수가 기본적으로 동일할 때, 즉 데이터 균형이 같아야 할 때 가장 잘 작동함을 알 수 있습니다. 유지 . 그러나 실제 사례의 대부분은 불균형한 데이터 세트로, 이는 머신러닝 알고리즘의 학습 단계와 후속 예측에 큰 영향을 미칩니다. 다행히 이 라이브러리는 이 문제를 해결하도록 설계되었습니다. 이는 scikit-learn과 호환되며 scikit-lear-contrib 프로젝트의 일부입니다. 다음에 불균형 데이터 세트가 발견되면 이 방법을 사용해 보세요.

설치:

$ pip install -U imbalanced-learn

# 或者

$ conda install -c conda-forge imbalanced-learn
로그인 후 복사

예:

사용법과 예는 설명서를 참조하세요.

4. FlashText

NLP 작업에서 텍스트 데이터를 정리하려면 문장의 키워드를 바꾸거나 문장에서 키워드를 추출해야 하는 경우가 많습니다. 일반적으로 이는 정규식을 사용하여 수행할 수 있지만 검색되는 용어의 수가 수천 개에 달하면 번거로울 수 있습니다. Python의 FlashText 모듈은 FlashText 알고리즘을 기반으로 하며 이러한 상황에 적합한 대안을 제공합니다. FlashText의 가장 큰 장점은 검색어 수에 관계없이 런타임이 동일하다는 것입니다. 여기에서 자세한 내용을 알아볼 수 있습니다.

설치:

$ pip install flashtext
로그인 후 복사

예:

키워드 추출

from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(<unclean name>, <standardised name>)

keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

keywords_found
['New York', 'Bay Area']
로그인 후 복사

키워드 교체

keyword_processor.add_keyword('New Delhi', 'NCR region')

new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

new_sentence
'I love New York and NCR region.'
Fuzzywuzzy
로그인 후 복사

5. fuzzywuzzy

이 라이브러리 이름이 이상하게 들리지만 문자열 일치에 관해서는 fuzzywuzzy가 매우 유용한 라이브러리입니다. 문자열 일치 정도, 토큰 일치 정도 계산 등의 작업을 쉽게 구현할 수 있으며, 서로 다른 데이터베이스에 저장된 레코드도 쉽게 일치시킬 수 있습니다.

설치:

$ pip install fuzzywuzzy
로그인 후 복사

예:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# 简单匹配度

fuzz.ratio("this is a test", "this is a test!")
97

# 模糊匹配度
fuzz.partial_ratio("this is a test", "this is a test!")
 100
로그인 후 복사

GitHub 저장소에서 더 흥미로운 예를 찾을 수 있습니다.

6. PyFlux

시계열 분석은 기계 학습 분야에서 가장 일반적인 문제 중 하나입니다. PyFlux는 시계열 문제를 해결하기 위해 구축된 Python의 오픈 소스 라이브러리입니다. 라이브러리에는 ARIMA, GARCH 및 VAR 모델을 포함하되 이에 국한되지 않는 최신 시계열 모델의 훌륭한 컬렉션이 있습니다. 간단히 말해서, PyFlux는 시계열 모델링에 대한 확률론적 접근 방식을 제공합니다. 시도해 볼 가치가 있습니다.

Installation

pip install pyflux
로그인 후 복사

Examples

자세한 사용법과 예시는 공식 문서를 참고하세요.

7. Ipyvolume

결과 표시도 데이터 과학에서 중요한 측면입니다. 결과를 시각화할 수 있다는 것은 큰 장점이 될 것입니다. IPyvolume은 Jupyter 노트북에서 3D 볼륨과 그래픽(예: 3D 산점도 등)을 시각화할 수 있고 약간의 구성만 필요로 하는 Python 라이브러리입니다. 하지만 아직은 1.0 이전 버전 단계입니다. 설명하기에 더 적절한 비유는 다음과 같습니다. IPyvolume의 volshow는 matplotlib의 imshow가 2차원 배열에 유용한 것처럼 3차원 배열에 유용합니다. 여기에서 더 많은 정보를 확인할 수 있습니다. R PIPre

$ pip install ipyvolume
로그인 후 복사
E

를 사용하여 Conda/Anaconda

rreee

를 사용합니다. 예

애니메이션

바디 드로잉 데이터 과학을 위한 9가지 매우 유용한 Python 라이브러리

8. Dash데이터 과학을 위한 9가지 매우 유용한 Python 라이브러리

dash는 웹 애플리케이션 구축을 위한 효율적인 Python 프레임워크입니다. Flask, Plotly.js 및 React.js를 기반으로 설계되었으며 드롭다운 상자, 슬라이더 및 차트와 같은 많은 최신 UI 요소에 바인딩되어 있습니다. JavaScript를 사용하지 않고도 Python 코드를 사용하여 관련 분석을 직접 작성할 수 있습니다. Dash는 데이터 시각화 애플리케이션을 구축하는 데 적합합니다. 그런 다음 이러한 애플리케이션을 웹 브라우저에서 렌더링할 수 있습니다. 사용자 가이드는 여기에서 확인할 수 있습니다.

Installation

$ conda install -c conda-forge ipyvolume
로그인 후 복사

예 아래 예는 드롭다운 기능을 갖춘 대화형 차트를 보여줍니다. 사용자가 드롭다운 메뉴에서 값을 선택하면 애플리케이션 코드가 Google Finance의 데이터를 Panda DataFrame으로 동적으로 내보냅니다.

데이터 과학을 위한 9가지 매우 유용한 Python 라이브러리

九、Gym

OpenAI 的 Gym 是一款用于增强学习算法的开发和比较工具包。它兼容任何数值计算库,如 TensorFlow 或 Theano。Gym 库是测试问题集合的必备工具,这个集合也称为环境 —— 你可以用它来开发你的强化学习算法。这些环境有一个共享接口,允许你进行通用算法的编写。

安装

pip install gym
로그인 후 복사

例子这个例子会运行CartPole-v0环境中的一个实例,它的时间步数为 1000,每一步都会渲染整个场景。

总结

以上这些有用的数据科学 Python 库都是我精心挑选出来的,不是常见的如 numpy 和 pandas 等库。如果你知道其它库,可以添加到列表中来,请在下面的评论中提一下。另外别忘了先尝试运行一下它们。

위 내용은 데이터 과학을 위한 9가지 매우 유용한 Python 라이브러리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP와 Python : 다른 패러다임이 설명되었습니다 PHP와 Python : 다른 패러다임이 설명되었습니다 Apr 18, 2025 am 12:26 AM

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP와 Python 중에서 선택 : 가이드 PHP와 Python 중에서 선택 : 가이드 Apr 18, 2025 am 12:24 AM

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

숭고한 코드 파이썬을 실행하는 방법 숭고한 코드 파이썬을 실행하는 방법 Apr 16, 2025 am 08:48 AM

Sublime 텍스트로 Python 코드를 실행하려면 먼저 Python 플러그인을 설치 한 다음 .py 파일을 작성하고 코드를 작성한 다음 CTRL B를 눌러 코드를 실행하면 콘솔에 출력이 표시됩니다.

PHP와 Python : 그들의 역사에 깊은 다이빙 PHP와 Python : 그들의 역사에 깊은 다이빙 Apr 18, 2025 am 12:25 AM

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

Python vs. JavaScript : 학습 곡선 및 사용 편의성 Python vs. JavaScript : 학습 곡선 및 사용 편의성 Apr 16, 2025 am 12:12 AM

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

PHP를 사용하는 이유는 무엇입니까? 설명 된 장점과 혜택 PHP를 사용하는 이유는 무엇입니까? 설명 된 장점과 혜택 Apr 16, 2025 am 12:16 AM

PHP의 핵심 이점에는 학습 용이성, 강력한 웹 개발 지원, 풍부한 라이브러리 및 프레임 워크, 고성능 및 확장 성, 크로스 플랫폼 호환성 및 비용 효율성이 포함됩니다. 1) 배우고 사용하기 쉽고 초보자에게 적합합니다. 2) 웹 서버와 우수한 통합 및 여러 데이터베이스를 지원합니다. 3) Laravel과 같은 강력한 프레임 워크가 있습니다. 4) 최적화를 통해 고성능을 달성 할 수 있습니다. 5) 여러 운영 체제 지원; 6) 개발 비용을 줄이기위한 오픈 소스.

MySQL 대 기타 프로그래밍 언어 : 비교 MySQL 대 기타 프로그래밍 언어 : 비교 Apr 19, 2025 am 12:22 AM

다른 프로그래밍 언어와 비교할 때 MySQL은 주로 데이터를 저장하고 관리하는 데 사용되는 반면 Python, Java 및 C와 같은 다른 언어는 논리적 처리 및 응용 프로그램 개발에 사용됩니다. MySQL은 데이터 관리 요구에 적합한 고성능, 확장 성 및 크로스 플랫폼 지원으로 유명하며 다른 언어는 데이터 분석, 엔터프라이즈 애플리케이션 및 시스템 프로그래밍과 같은 해당 분야에서 이점이 있습니다.

Golang vs. Python : 성능 및 확장 성 Golang vs. Python : 성능 및 확장 성 Apr 19, 2025 am 12:18 AM

Golang은 성능과 확장 성 측면에서 Python보다 낫습니다. 1) Golang의 컴파일 유형 특성과 효율적인 동시성 모델은 높은 동시성 시나리오에서 잘 수행합니다. 2) 해석 된 언어로서 파이썬은 천천히 실행되지만 Cython과 같은 도구를 통해 성능을 최적화 할 수 있습니다.

See all articles