Principales questions et réponses d'entretien sur l'apprentissage automatique Python-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Principales questions et réponses d'entretien sur l'apprentissage automatique Python

王林

Sep 10, 2024 pm 08:31 PM

Top Python Machine Learning Interview Questions and Answers

L'apprentissage automatique (ML) est l'un des domaines les plus recherchés dans l'industrie technologique, et la maîtrise de Python est souvent une condition préalable compte tenu de ses bibliothèques étendues et de sa facilité d'utilisation. Si vous vous préparez à un entretien dans ce domaine, il est essentiel de bien maîtriser à la fois les concepts théoriques et les mises en œuvre pratiques. Voici quelques questions et réponses courantes lors des entretiens Python ML pour vous aider à vous préparer.

1. Quelles techniques de prétraitement connaissez-vous le mieux en Python ?

Les

Techniques de prétraitement sont essentielles pour préparer les données pour les modèles d'apprentissage automatique. Certaines des techniques les plus courantes incluent :

Normalisation : Ajuster les valeurs du vecteur caractéristique à une échelle commune sans fausser les différences dans les plages de valeurs.
Variables factices : Utiliser des pandas pour créer des variables indicatrices (0 ou 1) qui montrent si une variable catégorielle peut prendre une valeur spécifique.
Vérification des valeurs aberrantes : plusieurs méthodes peuvent être utilisées, notamment les erreurs univariées, multivariées et Minkowski.

Exemple de code :

from sklearn.preprocessing import MinMaxScaler
import pandas as pd

# Data normalization
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

# Creating dummy variables
df_with_dummies = pd.get_dummies(data, drop_first=True)

Copier après la connexion

2. Que sont les algorithmes de force brute ? Donnez un exemple.

Les

Algorithmes de force brute essayent de manière exhaustive toutes les possibilités pour trouver une solution. Un exemple courant est la recherche linéaire, où l'algorithme vérifie chaque élément d'un tableau pour trouver une correspondance.

Exemple de code :

def linear_search(arr, target):
    for i in range(len(arr)):
        if arr[i] == target:
            return i
    return -1

# Example usage
arr = [2, 3, 4, 10, 40]
target = 10
result = linear_search(arr, target)

Copier après la connexion

3. Quelles sont les façons de gérer un ensemble de données déséquilibré ?

Un ensemble de données déséquilibré a des proportions de classe faussées. Les stratégies pour gérer cela incluent :

Collecter plus de données : Rassembler plus de données pour la classe minoritaire.
Rééchantillonnage : soit suréchantillonner la classe minoritaire, soit sous-échantillonner la classe majoritaire.
SMOTE (Synthetic Minority Oversampling Technique) : Génération d'échantillons synthétiques pour la classe minoritaire.
Ajustements d'algorithmes : Utilisation d'algorithmes capables de gérer les déséquilibres, tels que les méthodes d'ensachage ou de boosting.

Exemple de code :

from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split

X_resampled, y_resampled = SMOTE().fit_resample(X, y)
X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.2)

Copier après la connexion

4. Quelles sont les façons de gérer les données manquantes en Python ?

Les stratégies courantes pour gérer les données manquantes incluent l'Omission et l'Imputation :

Omission : Suppression de lignes ou de colonnes avec des valeurs manquantes.
Imputation : remplissage des valeurs manquantes à l'aide de techniques telles que la moyenne, la médiane, le mode ou des méthodes avancées telles que SimpleImputer ou IterativeImputer.

Exemple de code :

from sklearn.impute import SimpleImputer

# Imputing missing values
imputer = SimpleImputer(strategy='median')
data_imputed = imputer.fit_transform(data)

Copier après la connexion

5. Qu'est-ce que la régression ? Comment implémenteriez-vous la régression en Python ?

Régression est une technique d'apprentissage supervisé utilisée pour trouver des corrélations entre des variables et faire des prédictions pour les variables dépendantes. Les exemples courants incluent la régression linéaire et la régression logistique, qui peuvent être implémentées à l'aide de Scikit-learn.

Exemple de code :

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Split the dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Create and train the model
model = LinearRegression()
model.fit(X_train, y_train)

# Make predictions
predictions = model.predict(X_test)

Copier après la connexion

6. Comment diviser les ensembles de données de formation et de test en Python ?

En Python, vous pouvez utiliser la fonction train_test_split de Scikit-learn pour diviser vos données en ensembles d'entraînement et de test.

Exemple de code :

from sklearn.model_selection import train_test_split

# Split the dataset: 60% training and 40% testing
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.4)

Copier après la connexion

7. Quels paramètres sont les plus importants pour les apprenants basés sur les arbres ?

Certains paramètres critiques pour les apprenants basés sur les arbres incluent :

max_degree : Profondeur maximale par arbre.
learning_rate : taille du pas à chaque itération.
n_estim- **n_estimators : Nombre d'arbres dans l'ensemble ou nombre de tours de boosting.
sous-échantillon : Fraction d'observations à échantillonner pour chaque arbre.

Exemple de code :

from sklearn.ensemble import RandomForestClassifier

# Setting parameters for Random Forest
model = RandomForestClassifier(max_depth=5, n_estimators=100, max_features='sqrt', random_state=42)
model.fit(X_train, y_train)

Copier après la connexion

8. Quelles sont les méthodes courantes de réglage des hyperparamètres dans Scikit-learn ?

Deux méthodes courantes pour le réglage des hyperparamètres sont :

Grid Search : définit une grille de valeurs d'hyperparamètres et recherche la combinaison optimale.
Recherche aléatoire : utilise une large gamme de valeurs d'hyperparamètres et parcourt de manière aléatoire les combinaisons.

Exemple de code :

from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

# Grid Search
param_grid = {'n_estimators': [50, 100, 200], 'max_depth': [5, 10, 15]}
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Random Search
param_dist = {'n_estimators': [50, 100, 200], 'max_depth': [5, 10, 15]}
random_search = RandomizedSearchCV(model, param_dist, n_iter=10, cv=5, random_state=42)
random_search.fit(X_train, y_train)

Copier après la connexion

9. Écrivez une fonction pour trouver la quantité médiane de précipitations pour les jours où il a plu.

Vous devez supprimer les jours sans pluie, puis trouver la médiane.

Exemple de code :

def median_rainfall(df_rain):
    # Remove days with no rain
    df_rain_filtered = df_rain[df_rain['rainfall'] > 0]
    # Find the median amount of rainfall
    median_rainfall = df_rain_filtered['rainfall'].median()
    return median_rainfall

Copier après la connexion

10. Écrivez une fonction pour imputer le prix médian de certains fromages californiens à la place des valeurs manquantes.

Vous pouvez utiliser des pandas pour calculer et remplir la valeur médiane.

Code Example:

def impute_median_price(df, column):
    median_price = df[column].median()
    df[column].fillna(median_price, inplace=True)
    return df

Copier après la connexion

11. Write a Function to Return a New List Where All None Values Are Replaced with the Most Recent Non-None Value in the List.

Code Example:

def fill_none(input_list):
    prev_value = None
    result = []
    for value in input_list:
        if value is None:
            result.append(prev_value)
        else:
            result.append(value)
            prev_value = value
    return result

Copier après la connexion

12. Write a Function Named grades_colors to Select Only the Rows Where the Student’s Favorite Color is Green or Red and Their Grade is Above 90.

Code Example:

def grades_colors(df_students):
    filtered_df = df_students[(df_students["grade"] > 90) & (df_students["favorite_color"].isin(["green", "red"]))]
    return filtered_df

Copier après la connexion

13. Calculate the t-value for the Mean of ‘var’ Against a Null Hypothesis That μ = μ_0.

Code Example:

import pandas as pd
from scipy import stats

def calculate_t_value(df, column, mu_0):
    sample_mean = df[column].mean()
    sample_std = df[column].std()
    n = len(df)

    t_value = (sample_mean - mu_0) / (sample_std / (n ** 0.5))
    return t_value

# Example usage
t_value = calculate_t_value(df, 'var', mu_0)
print(t_value)

Copier après la connexion

14. Build a K-Nearest Neighbors Classification Model from Scratch.

Code Example:

import numpy as np
import pandas as pd

def euclidean_distance(point1, point2):
    return np.sqrt(np.sum((point1 - point2) ** 2))

def kNN(k, data, new_point):
    distances = data.apply(lambda row: euclidean_distance(row[:-1], new_point), axis=1)
    sorted_indices = distances.sort_values().index
    top_k = data.iloc[sorted_indices[:k]]

    return top_k['label'].mode()[0]

# Example usage
data = pd.DataFrame({
    'feature1': [1, 2, 3, 4],
    'feature2': [2, 3, 4, 5],
    'label': [0, 0, 1, 1]
})

new_point = [2.5, 3.5]
k = 3

result = kNN(k, data, new_point)
print(result)

Copier après la connexion

15. Build a Random Forest Model from Scratch.

Note: This example uses simplified assumptions to meet the interview constraints.

Code Example:

import pandas as pd
import numpy as np

def create_tree(dataframe, new_point):
    unique_classes = dataframe['class'].unique()
    for col in dataframe.columns[:-1]:  # Exclude the 'class' column
        if new_point[col] == 1:
            sub_data = dataframe[dataframe[col] == 1]
            if len(sub_data) > 0:
                return sub_data['class'].mode()[0]
    return unique_classes[0]  # Default to the most frequent class

def random_forest(df, new_point, n_trees):
    results = []
    for _ in range
n_trees):
        tree_result = create_tree(df, new_point)
        results.append(tree_result)
    # Majority vote
    return max(set(results), key=results.count)

# Example usage
df = pd.DataFrame({
    'feature1': [0, 1, 1, 0],
    'feature2': [0, 0, 1, 1],
    'class': [0, 1, 1, 0]
})

new_point = {'feature1': 1, 'feature2': 0}
n_trees = 5

result = random_forest(df, new_point, n_trees)
print(result)

Copier après la connexion

16. Build a Logistic Regression Model from Scratch.

Code Example:

import pandas as pd
import numpy as np

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def logistic_regression(X, y, num_iterations, learning_rate):
    weights = np.zeros(X.shape[1])
    for i in range(num_iterations):
        z = np.dot(X, weights)
        predictions = sigmoid(z)
        errors = y - predictions
        gradient = np.dot(X.T, errors)

gradient = np.dot(X.T, errors)
        weights += learning_rate * gradient
    return weights

# Example usage
df = pd.DataFrame({
    'feature1': [0, 1, 1, 0],
    'feature2': [0, 0, 1, 1],
    'class': [0, 1, 1, 0]
})

X = df[['feature1', 'feature2']].values
y = df['class'].values
num_iterations = 1000
learning_rate = 0.01

weights = logistic_regression(X, y, num_iterations, learning_rate)
print(weights)

Copier après la connexion

17. Build a K-Means Algorithm from Scratch.

Code Example:

import numpy as np

def k_means(data_points, k, initial_centroids):
    centroids = initial_centroids
    while True:
        distances = np.linalg.norm(data_points[:, np.newaxis] - centroids, axis=2)
        clusters = np.argmin(distances, axis=1)
        new_centroids = np.array([data_points[clusters == i].mean(axis=0) for i in range(k)])        

        if np.all(centroids == new_centroids):
            break
        centroids = new_centroids
    return clusters

# Example usage
data_points = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
k = 2
initial_centroids = np.array([[1, 2], [10, 2]])

clusters = k_means(data_points, k, initial_centroids)
print(clusters)

Copier après la connexion

18. What is Machine Learning and How Does it Work?

Machine Learning is a field of artificial intelligence focused on building algorithms that enable computers to learn from data without explicit programming. It uses algorithms to analyze and identify patterns in data and make predictions based on those patterns.

Example Answer:

"Machine learning is a branch of artificial intelligence that involves creating algorithms capable of learning from and making predictions based on data. It works by training a model on a dataset and then using that model to make predictions on new data."

19. What are the Different Types of Machine Learning Algorithms?

There are three main types of machine learning algorithms:

Supervised Learning: Useslabeled data and makes predictions based on this information. Examples include linear regression and classification algorithms.
Unsupervised Learning: Processes unlabeled data and seeks to find patterns or relationships in it. Examples include clustering algorithms like K-means.
Reinforcement Learning: The algorithm learns from interacting with its environment, receiving rewards or punishments for certain actions. Examples include training AI agents in games.

Example Answer:

"There are three main types of machine learning algorithms: supervised learning, unsupervised learning, and reinforcement learning. Supervised learning uses labeled data to make predictions, unsupervised learning finds patterns in unlabeled data, and reinforcement learning learns from interactions with the environment to maximize rewards."

20. What is Cross-Validation and Why is it Important in Machine Learning?

Cross-validation is a technique to evaluate the performance of a machine learning model by dividing the dataset into two parts: a training set and a validation set. The training set trains the model, whereas the validation set evaluates it.

Importance:

Prevents overfitting by ensuring the model generalizes well to unseen data.
Provides a more accurate measure of model performance.

Example Answer:

"Cross-validation is a technique used to evaluate a machine learning model'sperformance by dividing the dataset into training and validation sets. It helps ensure the model generalizes well to new data, preventing overfitting and providing a more accurate measure of performance."

21. What is an Artificial Neural Network and How Does it Work?

Artificial Neural Networks (ANNs) are models inspired by the human brain's structure. They consist of layers of interconnected nodes (neurons) that process input data and generate output predictions.

Example Answer:

"An artificial neural network is a machine learning model inspired by the structure and function of the human brain. It comprises layers of interconnected neurons that process input data through weighted connections to make predictions."

22. What is a Decision Tree and How to Use it in Machine Learning?

Decision Trees are models for classification and regression tasks that split data into subsets based on the values of input variables to generate prediction rules.

Example Answer:

"A decision tree is a tree-like model used for classification and regression tasks. It works by recursively splitting data into subsets based on input variables, creating rules for making predictions."

23. What is the K-Nearest Neighbors (KNN) Algorithm and How Does it Work?

K-Nearest Neighbors (KNN) is a simple machine learning algorithm usedfor classification or regression tasks. It determines the k closest data points in the feature space to a given unseen data point and classifies it based on the majority class of its k nearest neighbors.

Example Answer:

"The K-Nearest Neighbors (KNN) algorithm is a machine learning technique used for classification or regression. It works by identifying the k closest data points to a given point in the feature space and classifying it based on the majority class among the k nearest neighbors."

24. What is the Support Vector Machine Algorithm and How Does it Work?

Support Vector Machines (SVM) are linear models used for binary classification and regression tasks. They find the most suitable boundary (hyperplane) that separates data into classes. Data points closest to the hyperplane, called support vectors, play a critical role in defining this boundary.

Example Answer:

"The Support Vector Machine (SVM) algorithm is a linear model used for binary classification and regression tasks. It identifies the best hyperplane that separates data into classes, relying heavily on the data points closest to the hyperplane, known as support vectors."

25. What is Regularization, and How Do You Use it in Machine Learning?

Regularization is a technique to prevent overfitting in machinelearning models by adding a penalty term to the loss function. This penalty discourages the model from learning overly complex relationships in the data.

Example Answer:

"Regularization is a technique to prevent overfitting in machine learning models by adding a penalty term to the loss function, which discourages the model from learning overly complex patterns. Common types of regularization include L1 (Lasso) and L2 (Ridge) regularization."

Code Example:

from sklearn.linear_model import Ridge

# Applying L2 Regularization (Ridge Regression)
ridge_model = Ridge(alpha=1.0)
ridge_model.fit(X_train, y_train)

Copier après la connexion

26. Can You Explain How Gradient Descent Works?

Gradient Descent is an optimization algorithm used to minimize a cost function in machine learning. It iteratively adjusts the parameters of the model in the direction of the negative gradient of the cost function until it reaches a minimum.

Example Answer:

"Gradient Descent is an optimization algorithm used to minimize a cost function in machine learning. It iteratively updates the model parameters in the direction of the negative gradient of the cost function, aiming to find the parameters that minimize the cost."

27. Can You Explain the Concept of Ensemble Learning

Ensemble Learning is a technique where multiple models (often called "weak learners") are combined to solve a prediction task. The combined model is generally more robust and performs better than individual models.

Example Answer:

"Ensemble learning is a machine learning technique where multiple models are combined to solve a prediction task. Common ensemble methods include bagging, boosting, and stacking. Combining the predictions of individual models can improve performance and reduce the risk of overfitting."

Example Code for Random Forest (an ensemble method):

from sklearn.ensemble import RandomForestClassifier

# Ensemble learning using Random Forest
model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
model.fit(X_train, y_train)
predictions = model.predict(X_test)

Copier après la connexion

Conclusion

Preparing for a Python machine learning interview involves understanding both theoretical concepts and practical implementations. This guide has covered several essential questions and answers that frequently come up in interviews. By familiarizing yourself with these topics and practicing the provided code examples, you'll be well-equipped to handle a wide range of questions in your next machine learning interview. Good luck!

Visit MyExamCloud and see the most recent Python Certification Practice Tests. Begin creating your Study Plan today.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

1 Il y a quelques mois By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1676

Tutoriel CakePHP

1429

Tutoriel Laravel

1333

Tutoriel PHP

1278

Tutoriel C#

1257

Afficher plus

Related knowledge

Python vs C: courbes d'apprentissage et facilité d'utilisation Apr 19, 2025 am 12:20 AM

Python est plus facile à apprendre et à utiliser, tandis que C est plus puissant mais complexe. 1. La syntaxe Python est concise et adaptée aux débutants. Le typage dynamique et la gestion automatique de la mémoire le rendent facile à utiliser, mais peuvent entraîner des erreurs d'exécution. 2.C fournit des fonctionnalités de contrôle de bas niveau et avancées, adaptées aux applications haute performance, mais a un seuil d'apprentissage élevé et nécessite une gestion manuelle de la mémoire et de la sécurité.

Apprendre Python: 2 heures d'étude quotidienne est-elle suffisante? Apr 18, 2025 am 12:22 AM

Est-ce suffisant pour apprendre Python pendant deux heures par jour? Cela dépend de vos objectifs et de vos méthodes d'apprentissage. 1) Élaborer un plan d'apprentissage clair, 2) Sélectionnez les ressources et méthodes d'apprentissage appropriées, 3) la pratique et l'examen et la consolidation de la pratique pratique et de l'examen et de la consolidation, et vous pouvez progressivement maîtriser les connaissances de base et les fonctions avancées de Python au cours de cette période.

Python vs. C: Explorer les performances et l'efficacité Apr 18, 2025 am 12:20 AM

Python est meilleur que C dans l'efficacité du développement, mais C est plus élevé dans les performances d'exécution. 1. La syntaxe concise de Python et les bibliothèques riches améliorent l'efficacité du développement. Les caractéristiques de type compilation et le contrôle du matériel de CC améliorent les performances d'exécution. Lorsque vous faites un choix, vous devez peser la vitesse de développement et l'efficacité de l'exécution en fonction des besoins du projet.

Python vs C: Comprendre les principales différences Apr 21, 2025 am 12:18 AM

Python et C ont chacun leurs propres avantages, et le choix doit être basé sur les exigences du projet. 1) Python convient au développement rapide et au traitement des données en raison de sa syntaxe concise et de son typage dynamique. 2) C convient à des performances élevées et à une programmation système en raison de son typage statique et de sa gestion de la mémoire manuelle.

Quelle partie fait partie de la bibliothèque standard Python: listes ou tableaux? Apr 27, 2025 am 12:03 AM

PythonlistSaReparmentofthestandardLibrary, tandis que les coloccules de colocède, tandis que les colocculations pour la base de la Parlementaire, des coloments de forage polyvalent, tandis que la fonctionnalité de la fonctionnalité nettement adressée.

Python: automatisation, script et gestion des tâches Apr 16, 2025 am 12:14 AM

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.

Python pour l'informatique scientifique: un look détaillé Apr 19, 2025 am 12:15 AM

Les applications de Python en informatique scientifique comprennent l'analyse des données, l'apprentissage automatique, la simulation numérique et la visualisation. 1.Numpy fournit des tableaux multidimensionnels et des fonctions mathématiques efficaces. 2. Scipy étend la fonctionnalité Numpy et fournit des outils d'optimisation et d'algèbre linéaire. 3. Pandas est utilisé pour le traitement et l'analyse des données. 4.Matplotlib est utilisé pour générer divers graphiques et résultats visuels.

Python pour le développement Web: applications clés Apr 18, 2025 am 12:20 AM

Les applications clés de Python dans le développement Web incluent l'utilisation des cadres Django et Flask, le développement de l'API, l'analyse et la visualisation des données, l'apprentissage automatique et l'IA et l'optimisation des performances. 1. Framework Django et Flask: Django convient au développement rapide d'applications complexes, et Flask convient aux projets petits ou hautement personnalisés. 2. Développement de l'API: Utilisez Flask ou DjangorestFramework pour construire RestulAPI. 3. Analyse et visualisation des données: utilisez Python pour traiter les données et les afficher via l'interface Web. 4. Apprentissage automatique et AI: Python est utilisé pour créer des applications Web intelligentes. 5. Optimisation des performances: optimisée par la programmation, la mise en cache et le code asynchrones

See all articles