기계 학습 알고리즘을 위한 무작위 데이터 생성 방법 소개-파이썬 튜토리얼-php.cn

array([ 2.87037573,  4.33790491,  2.1662832 ])

로그인 후 복사

" >

array([ 2.87037573,  4.33790491,  2.1662832 ])

로그인 후 복사

3.4 分组正态分布混合数据

집

백엔드 개발

파이썬 튜토리얼

기계 학습 알고리즘을 위한 무작위 데이터 생성 방법 소개

高洛峰

Mar 19, 2017 pm 04:57 PM

머신러닝 알고리즘을 학습하는 과정에서 알고리즘을 검증하고 매개변수를 디버깅하기 위한 데이터가 필요한 경우가 많습니다. 그러나 특정 알고리즘 유형에 적합한 데이터 샘플 세트를 찾는 것은 그리 쉽지 않습니다. 다행스럽게도 numpy와 scikit-learn은 모두 임의의 데이터 생성 기능을 제공합니다. 우리는 특정 모델 에 적합한 데이터를 직접 생성하고, 임의의 데이터를 사용하여 정리, 정규화, 변환 후 모델을 선택할 수 있습니다. 알고리즘을 이용한 예측. 다음은 scikit-learn과 numpy가 데이터 샘플을 생성하는 방법을 요약한 것입니다.

1. Numpy 무작위 데이터 생성API

Numpy는 간단한 샘플링 데이터를 생성하는 데 더 적합합니다. API는 모두 임의 클래스에 있습니다. 일반적인 API는 다음과 같습니다.

1) rand(d0, d1, ..., dn)는 d0xd1x...dn 차원 배열을 생성하는 데 사용됩니다. 🎜>. 배열의 값은 [0,1]

사이입니다. 예: np.random.rand(3,2,2), 다음 3x2x2 배열을 출력합니다

array([[[ 0.49042678,  0.60643763],
        [ 0.18370487,  0.10836908]],
        [[ 0.38269728,  0.66130293],
        [ 0.5775944 ,  0.52354981]],
        [[ 0.71705929,  0.89453574],
        [ 0.36245334,  0.37545211]]])

로그인 후 복사

2) randn((d0, d1, ..., dn)은 d0xd1x...dn 차원 배열을 생성하는 데에도 사용됩니다. 그러나 배열의 값은 N의 표준 정규 분포를 따릅니다. (0,1).

예: np.random.randn(3,2), 다음 3x2 배열을 출력합니다. 이 값은 필요한 경우 N(0,1)의 샘플링 데이터입니다. ,σ2)N(μ,σ2) 정규 분포의 경우 randn에서 생성된 각 값 x에 대해 σx+μσx+μ만 변환하면 됩니다. 예:

예: 2*np.random.randn(3,2) + 1, 다음 3x2 배열을 출력합니다. 이 값은 N(1,4)

array([[-0.5889483 , -0.34054626],
       [-2.03094528, -0.21205145],
       [-0.20804811, -0.97289898]])

로그인 후 복사

3)randint( . low[, high, size]) 크기의 무작위 데이터를 생성합니다. 크기는

정수

일 수 있으며 이는 행렬 차원 또는 텐서 차원입니다. 값은 반개방 구간(낮음, 높음)에 있습니다.

예: np.random.randint(3, size=[2,3,4])는 2x3x4 차원의 데이터를 반환합니다. 값 범위는 최대값이 3인 정수입니다.

array([[ 2.32910328, -0.677016  ],
       [-0.09049511,  1.04687598],
       [ 2.13493001,  3.30025852]])

로그인 후 복사

또 다른 예: np.random.randint(3, 6, size=[2,3])는 2x3 크기의 데이터를 반환합니다. 값 범위는 [3,6)입니다.

array([[[2, 1, 2, 1],
　　　[0, 1, 2, 1],
　　　[2, 1, 0, 2]],
　　　[[0, 1, 0, 0],
　　　[1, 1, 2, 1],
　　　[1, 0, 1, 2]]])

로그인 후 복사

4) random_integers(low[, high, size]), 위의 randint와 유사하지만 차이점은 값 범위가 닫힌 구간[low, high]이라는 점입니다. ] .

5) random_sample([size]), 반 개방 간격 [0.0, 1.0)에서 임의의 부동 소수점 숫자를 반환합니다. 다른 간격 [a,b)인 경우 (b - a) * random_sample([size]) + a

로 변환할 수 있습니다. 예: (5-2)*np.random.random_sample( 3)+ 2 [2,5) 사이의 난수 3개를 반환합니다.

array([[4, 5, 3],
　　　[3, 4, 5]])

로그인 후 복사

2. scikit-learn 무작위 데이터 생성 API 소개

scikit-learn의 무작위 데이터 생성 API는 numpy와 비교하여 적합한 데이터를 생성하는 데 사용할 수 있습니다. 특정 기계에 대한 학습 모델용 데이터입니다. 일반적으로 사용되는 API는 다음과 같습니다.

1) make_regression을 사용하여 회귀 모델 데이터 생성

2) make_hastie_10_2, make_classification 또는 make_multilabel_classification을 사용하여 분류 모델 데이터 생성

3) make_blobs를 사용하여 클러스터 클래스 모델 데이터 생성

4) make_gaussian_Quantiles를 사용하여 그룹화된 다차원 정규 분포 데이터 생성

3. scikit-learn 무작위 데이터 생성 예시

3.1 회귀 모델 무작위 데이터

여기에서는 make_regression을 사용하여 회귀 모델 데이터를 생성합니다. 몇 가지 주요 매개변수는 n_samples(생성된 샘플 수), n_features(샘플 특징 수), Noise(샘플 무작위 노이즈) 및 coef(회귀 계수 반환 여부)입니다. 예제 코드는 다음과 같습니다.

array([ 2.87037573,  4.33790491,  2.1662832 ])

로그인 후 복사

출력 그림은 다음과 같습니다.

3.2 분류 모델 랜덤 데이터 기계 학습 알고리즘을 위한 무작위 데이터 생성 방법 소개

여기에서는 사용합니다. make_classification은 삼항 분류 모델 데이터를 생성합니다. 몇 가지 주요 매개변수로는 n_samples(생성된 샘플 수), n_features(샘플 기능 수), n_redundant(중복 기능 수) 및 n_classes(출력 범주 수)가 있습니다. 예시 코드는 다음과 같습니다.

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets.samples_generator import make_regression
# X为样本特征，y为样本输出， coef为回归系数，共1000个样本，每个样本1个特征
X, y, coef =make_regression(n_samples=1000, n_features=1,noise=10, coef=True)
# 画图
plt.scatter(X, y,  color=&#39;black&#39;)
plt.plot(X, X*coef, color=&#39;blue&#39;, linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()

로그인 후 복사

출력 그래프는 다음과 같습니다.

3.3 클러스터링 모델 랜덤 데이터 기계 학습 알고리즘을 위한 무작위 데이터 생성 방법 소개

여기에서는 make_blobs를 사용하여 클러스터링 모델을 생성합니다. 데이터. 몇 가지 주요 매개변수에는 n_samples(생성된 샘플 수), n_features(샘플 기능 수), center(클러스터 센터 또는 사용자 정의된 클러스터 센터 수) 및 Cluster_std(클러스터 집계 정도를 나타내는 클러스터 데이터 분산)가 포함됩니다. 예시는 다음과 같습니다.

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets.samples_generator import make_classification
# X1为样本特征，Y1为样本类别输出， 共400个样本，每个样本2个特征，输出有3个类别，没有冗余特征，每个类别一个簇
X1, Y1 = make_classification(n_samples=400, n_features=2, n_redundant=0,
                             n_clusters_per_class=1, n_classes=3)
plt.scatter(X1[:, 0], X1[:, 1], marker=&#39;o&#39;, c=Y1)
plt.show()

로그인 후 복사

출력 이미지는 다음과 같습니다.

3.4 分组正态分布混合数据

我们用make_gaussian_quantiles生成分组多维正态分布的数据。几个关键参数有n_samples（生成样本数）， n_features（正态分布的维数），mean（特征均值）， cov（样本协方差的系数）， n_classes（数据在正态分布中按分位数分配的组数）。例子如下：

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets import make_gaussian_quantiles
#生成2维正态分布，生成的数据按分位数分成3组，1000个样本,2个样本特征均值为1和2，协方差系数为2
X1, Y1 = make_gaussian_quantiles(n_samples=1000, n_features=2, n_classes=3, mean=[1,2],cov=2)
plt.scatter(X1[:, 0], X1[:, 1], marker=&#39;o&#39;, c=Y1)

로그인 후 복사

输出图如下

기계 학습 알고리즘을 위한 무작위 데이터 생성 방법 소개

以上就是生产随机数据的一个总结，希望可以帮到学习机器学习算法的朋友们。

위 내용은 기계 학습 알고리즘을 위한 무작위 데이터 생성 방법 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1669

Cakephp 튜토리얼

1428

라라벨 튜토리얼

1329

PHP 튜토리얼

1273

C# 튜토리얼

1256

Related knowledge

Python vs. C : 학습 곡선 및 사용 편의성 Apr 19, 2025 am 12:20 AM

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

파이썬과 시간 : 공부 시간을 최대한 활용 Apr 14, 2025 am 12:02 AM

제한된 시간에 Python 학습 효율을 극대화하려면 Python의 DateTime, Time 및 Schedule 모듈을 사용할 수 있습니다. 1. DateTime 모듈은 학습 시간을 기록하고 계획하는 데 사용됩니다. 2. 시간 모듈은 학습과 휴식 시간을 설정하는 데 도움이됩니다. 3. 일정 모듈은 주간 학습 작업을 자동으로 배열합니다.

Python vs. C : 성능과 효율성 탐색 Apr 18, 2025 am 12:20 AM

Python은 개발 효율에서 C보다 낫지 만 C는 실행 성능이 높습니다. 1. Python의 간결한 구문 및 풍부한 라이브러리는 개발 효율성을 향상시킵니다. 2.C의 컴파일 유형 특성 및 하드웨어 제어는 실행 성능을 향상시킵니다. 선택할 때는 프로젝트 요구에 따라 개발 속도 및 실행 효율성을 평가해야합니다.

Python 학습 : 2 시간의 일일 연구가 충분합니까? Apr 18, 2025 am 12:22 AM

하루에 2 시간 동안 파이썬을 배우는 것으로 충분합니까? 목표와 학습 방법에 따라 다릅니다. 1) 명확한 학습 계획을 개발, 2) 적절한 학습 자원 및 방법을 선택하고 3) 실습 연습 및 검토 및 통합 연습 및 검토 및 통합,이 기간 동안 Python의 기본 지식과 고급 기능을 점차적으로 마스터 할 수 있습니다.

Python vs. C : 주요 차이점 이해 Apr 21, 2025 am 12:18 AM

Python과 C는 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1) Python은 간결한 구문 및 동적 타이핑으로 인해 빠른 개발 및 데이터 처리에 적합합니다. 2) C는 정적 타이핑 및 수동 메모리 관리로 인해 고성능 및 시스템 프로그래밍에 적합합니다.

Python Standard Library의 일부는 무엇입니까? 목록 또는 배열은 무엇입니까? Apr 27, 2025 am 12:03 AM

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.

파이썬 : 자동화, 스크립팅 및 작업 관리 Apr 16, 2025 am 12:14 AM

파이썬은 자동화, 스크립팅 및 작업 관리가 탁월합니다. 1) 자동화 : 파일 백업은 OS 및 Shutil과 같은 표준 라이브러리를 통해 실현됩니다. 2) 스크립트 쓰기 : PSUTIL 라이브러리를 사용하여 시스템 리소스를 모니터링합니다. 3) 작업 관리 : 일정 라이브러리를 사용하여 작업을 예약하십시오. Python의 사용 편의성과 풍부한 라이브러리 지원으로 인해 이러한 영역에서 선호하는 도구가됩니다.

웹 개발을위한 파이썬 : 주요 응용 프로그램 Apr 18, 2025 am 12:20 AM

웹 개발에서 Python의 주요 응용 프로그램에는 Django 및 Flask 프레임 워크 사용, API 개발, 데이터 분석 및 시각화, 머신 러닝 및 AI 및 성능 최적화가 포함됩니다. 1. Django 및 Flask 프레임 워크 : Django는 복잡한 응용 분야의 빠른 개발에 적합하며 플라스크는 소형 또는 고도로 맞춤형 프로젝트에 적합합니다. 2. API 개발 : Flask 또는 DjangorestFramework를 사용하여 RESTFULAPI를 구축하십시오. 3. 데이터 분석 및 시각화 : Python을 사용하여 데이터를 처리하고 웹 인터페이스를 통해 표시합니다. 4. 머신 러닝 및 AI : 파이썬은 지능형 웹 애플리케이션을 구축하는 데 사용됩니다. 5. 성능 최적화 : 비동기 프로그래밍, 캐싱 및 코드를 통해 최적화

See all articles

기계 학습 알고리즘을 위한 무작위 데이터 생성 방법 소개

1. Numpy 무작위 데이터 생성API

array([ 2.87037573, 4.33790491, 2.1662832 ])로그인 후 복사

3.4 分组正态分布混合数据

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제

array([ 2.87037573, 4.33790491, 2.1662832 ])
로그인 후 복사