Set data semasa membina model Pembelajaran Mesin-Tutorial Python-php.cn

Mungkin salah satu kesukaran terbesar bagi mereka yang mula belajar Pembelajaran Mesin ialah bekerja, memproses data, membuat inferens kecil, dan kemudian menyusun model anda.

Dalam artikel ini saya akan memberikan contoh cara menganalisis set data untuk membina model Pembelajaran Mesin dengan lebih baik dengan melalui:

Penjelasan ringkas tentang apa itu Pembelajaran Mesin
Jenis dan perbezaan Pembelajaran
Fahami dan ekstrak maklumat penting daripada set data
Lakukan data daripada set data
Perbezaan antara algoritma model
Pembinaan model Regresi Linear

Tetapi mari kita mulakan dari awal, supaya kita boleh mengkontekstualisasikan, apakah Pembelajaran Mesin (ML)?

ML ialah salah satu cabang Kecerdasan Buatan (AI) yang berbeza, serta Rangkaian Neural atau Robotik, dan lain-lain. Jenis pembelajaran mesin bergantung pada cara data distrukturkan, jadi ia boleh dibahagikan kepada jenis yang berbeza, dari situ mencipta model. Model ML dicipta menggunakan algoritma yang memproses data input dan belajar untuk meramal atau mengklasifikasikan keputusan.

Kepentingan Set Data

Untuk mencipta model ML, kami memerlukan set data, dalam set data mesti ada ciri input kami, yang pada asasnya adalah keseluruhan set data kami kecuali lajur sasaran bergantung pada jenis pembelajaran kami, jika Pembelajaran terpantau set data mesti mengandungi sasaran, atau label, atau jawapan yang betul, kerana maklumat ini akan digunakan untuk melatih dan menguji model.
Beberapa jenis pembelajaran dan struktur set data untuk mereka:

Pembelajaran Terselia: Di sini model belajar melalui set data berlabel, dengan output yang betul telah disediakan, jadi model bertujuan untuk belajar mengaitkan input dan output agar dapat membuat ramalannya dengan betul untuk data baharu .
Pembelajaran tanpa pengawasan: Latihan model dilakukan dengan data tidak berlabel, tiada output yang betul dikaitkan dengan input, jadi objektif model adalah untuk mengenal pasti corak dan kumpulan dalam data.
Pembelajaran Pengukuhan: Dalam hal ini, model belajar daripada interaksi dengan persekitaran. Dia akan mengambil tindakan dalam persekitaran dan menerima ganjaran untuk tindakan yang betul atau menerima penalti untuk tindakan yang salah, dengan objektif untuk memaksimumkan sepenuhnya ganjaran jangka panjang dengan memaksimumkan tingkah laku yang membawa kepada melakukan tindakan yang betul.

Oleh itu, set data pada dasarnya mentakrifkan keseluruhan tingkah laku dan proses pembelajaran model yang dihasilkan oleh mesin.
Untuk meneruskan contoh, saya akan menggunakan set data dengan label, mencontohkan model dengan Pembelajaran Terselia, yang objektifnya adalah untuk menentukan nilai bulanan insurans hayat untuk khalayak tertentu.

Mari kita mulakan dengan memuatkan set data kami dan lihat baris pertamanya.


import pandas as pd

data = pd.read_csv('../dataset_seguro_vida.csv')
data.head()

Salin selepas log masuk

Dataset na construção de um modelo de Machine Learning

Mari kita memperincikan data kita dengan lebih lanjut, kita boleh melihat formatnya dan menemui bilangan baris dan lajur dalam set data.


data.shape

Salin selepas log masuk

Dataset na construção de um modelo de Machine Learning

Kami mempunyai struktur data 500 baris dan 9 lajur di sini.

Sekarang mari kita lihat jenis data yang kita ada dan jika kita kehilangan sebarang data.


data.info()

Salin selepas log masuk

Dataset na construção de um modelo de Machine Learning

Kami mempunyai 3 lajur berangka di sini, termasuk 2 int (nombor bulat) dan 1 apungan (nombor dengan tempat perpuluhan), dan 6 lagi adalah objek. Jadi kita boleh beralih ke langkah seterusnya memproses data sedikit.

Mengerjakan Set Data

Langkah yang baik ke arah menambah baik set data kami ialah memahami bahawa sesetengah jenis data diproses malah difahami dengan lebih mudah oleh model berbanding yang lain. Sebagai contoh, data jenis objek adalah lebih berat malah terhad untuk digunakan, jadi adalah lebih baik untuk mengubahnya kepada kategori, kerana ini membolehkan kita memperoleh beberapa keuntungan daripada prestasi kepada kecekapan dalam penggunaan memori (dalam Dalam akhirnya, kita juga boleh memperbaikinya dengan membuat satu lagi transformasi, tetapi apabila tiba masanya saya akan menerangkan dengan lebih baik).


object_columns = data.select_dtypes(include='object').columns

for col in object_columns:
    data[col] = data[col].astype('category')

data.dtypes

Salin selepas log masuk

Dataset na construção de um modelo de Machine Learning

Como o nosso objetivo é conseguir estipular o valor da mensalidade de um seguro de vida, vamos dar uma olhada melhor nas nossas variáveis numéricas usando a transposição.


data.describe().T

Salin selepas log masuk

Dataset na construção de um modelo de Machine Learning

Podemos aqui ver alguns detalhes e valores dos nossos inputs numéricos, como a média aritmética, o valor mínimo e máximo. Através desses dados podemos fazer a separação desses valores em grupos baseados em algum input de categoria, por gênero, se fuma ou não, entre outros, como demonstração vamos fazer a separação por sexo, para visualizar a media aritmética das colunas divididas por sexo.


value_based_on_sex = data.groupby("Sexo").mean("PrecoSeguro")
value_based_on_sex

Salin selepas log masuk

Dataset na construção de um modelo de Machine Learning

Como podemos ver que no nosso dataset os homens acabam pagando um preço maior de seguro (lembrando que esse dataset é fictício).

Podemos ter uma melhor visualização dos dados através do seaborn, é uma biblioteca construída com base no matplotlib usada especificamente para plotar gráficos estatísticos.


import seaborn as sns

sns.set_style("whitegrid")

sns.pairplot(
    data[["Idade", "Salario", "PrecoSeguro", "Sexo"]],
    hue = "Sexo",
    height = 3,
    palette = "Set1")

Salin selepas log masuk

Dataset na construção de um modelo de Machine Learning

Aqui podemos visualizar a distribuição desses valores através dos gráficos ficando mais claro a separação do conjunto, com base no grupo que escolhemos, como um teste você pode tentar fazer um agrupamento diferente e ver como os gráficos vão ficar.

Vamos criar uma matriz de correlação, sendo essa uma outra forma de visualizar a relação das variáveis numéricas do dataset, com o auxilio visual de um heatmap.


numeric_data = data.select_dtypes(include=['float64', 'int64'])

corr_matrix = numeric_data.corr()
sns.heatmap(corr_matrix, annot= True)

Salin selepas log masuk

Dataset na construção de um modelo de Machine Learning

Essa matriz transposta nos mostra quais variáveis numéricas influenciam mais no nosso modelo, é um pouco intuitivo quando você olha para a imagem, podemos observar que a idade é a que mais vai interferir no preço do seguro.
Basicamente essa matriz funciona assim:

Os valores variam entre -1 e 1:
1: Correlação perfeita positiva - Quando uma variável aumenta, a outra também aumenta proporcionalmente.
0: Nenhuma correlação - Não há relação linear entre as variáveis.
-1: Correlação perfeita negativa - Quando uma variável aumenta, a outra diminui proporcionalmente.

Lembra da transformada que fizemos de object para category nos dados, agora vem a outra melhoria comentada, com os dados que viraram category faremos mais uma transformada, dessa vez a ideia é transformar essa variáveis categóricas em representações numéricas, isso nos permitirá ter um ganho incrível com o desempenho do modelo já que ele entende muito melhor essas variáveis numéricas.

Conseguimos fazer isso facilmente com a lib do pandas, o que ele faz é criar nova colunas binarias para valores distintos, o pandas é uma biblioteca voltada principalmente para analise de dados e estrutura de dados, então ela já possui diversas funcionalidades que nos auxiliam nos processo de tratamento do dataset.


data = pd.get_dummies(data)

Salin selepas log masuk

Dataset na construção de um modelo de Machine Learning

Pronto agora temos nossas novas colunas para as categorias.

Decidindo o Algoritmo

Para a construção do melhor modelo, devemos saber qual o algoritmo ideal para o propósito da ML, na tabela seguinte vou deixar um resumo simplificado de como analisar seu problema e fazer a melhor escolha.

Dataset na construção de um modelo de Machine Learning

Olhando a tabela podemos ver que o problema que temos que resolver é o de regressão. Aqui vai mais uma dica, sempre comesse simples e vá incrementando seu e fazendo os ajustes necessários até os valores de previsibilidade do modelo ser satisfatório.

Para o nosso exemplo vamos montar um modelo de Regressão Linear, já que temos uma linearidade entre os nossos inputs e temos como target uma variável numérica.

Sabemos que a nossa variável target é a coluna PrecoSeguro , as outras são nossos inputs. Os inputs em estatísticas são chamadas de variável independente e o target de variável dependente, pelos nomes fica claro que a ideia é que o nosso target é uma variável que depende dos nosso inputs, se os inputs variam nosso target tem que vai variar também.

Vamos definir nosso y com o target


y = data["PrecoSeguro"]
E para x vamos remover a coluna target e inserir todas as outras
X = data.drop("PrecoSeguro", axis = 1)

Salin selepas log masuk

Antes de montarmos o modelo, nosso dataset precisa ser dividido uma parte para teste e outra para o treino, para fazer isso vamos usar do scikit-learn o método train_test_split.


from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test=train_test_split(
    X,y, 
    train_size = 0.80, 
    random_state = 1)

Salin selepas log masuk

Aqui dividimos o nosso dataset em 80% para treino e 20% para testes. Agora podemos montar o nosso modelo.


from sklearn.linear_model import LinearRegression

lr = LinearRegression()

lr.fit(X_train,y_train)

Salin selepas log masuk

Modelo montado agora podemos avaliar seu desempenho


lr.score(X_test, y_test).
lr.score(X_train, y_train)

Salin selepas log masuk

Aqui podemos analisar a o coeficiente de determinação do nosso modelo para testes e para o treinamento.

Podemos usar um outro método para poder descobrir o desvio padrão do nosso modelo, e entender a estabilidade e a confiabilidade do desempenho do modelo para a amostra


<p>from sklearn.metrics import mean_squared_error<br>
import math</p>

<p>y_pred = lr.predict(X_test)<br>
math.sqrt(mean_squared_error(y_test, y_pred))</p>

Salin selepas log masuk

Considerações

O valor perfeito do coeficiente de determinação é 1, quanto mais próximo desse valor, teoricamente melhor seria o nosso modelo, mas um ponto de atenção é basicamente impossível você conseguir um modelo perfeito, até mesmo algo acima de 0.95 é de se desconfiar.
Se você tiver trabalhando com dados reais e conseguir um valor desse é bom analisar o seu modelo, testar outras abordagens e até mesmo revisar seu dataset, pois seu modelo pode estar sofrendo um overfitting e por isso apresenta esse resultado quase que perfeitos.
Aqui como montamos um dataset com valores irreais e sem nenhum embasamento é normal termos esses valores quase que perfeitos.

Deixarei aqui um link para o github do código e dataset usados nesse post

GitHub

Atas ialah kandungan terperinci Set data semasa membina model Pembelajaran Mesin. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!