Installation d'ubuntu14.04
pip install xgboost
Rapport d'erreur
sudo apt-get update
Le résultat est la même erreur
Solution :
sudo -H pip install --pre xgboost Successfully installed xgboost Cleaning up...
Succès !
Surapprentissage
Lorsque vous observez que la précision de l'entraînement est élevée mais que la précision de détection est faible, vous risquez de rencontrer un problème de surapprentissage.
xgboost est un modèle de boosting rapide et efficace.
Le classificateur Boosting est un modèle d'apprentissage intégré. L'idée de base est de combiner des centaines ou des milliers de modèles d'arbres avec une faible précision de classification en un modèle avec une grande précision. Ce modèle continuera à itérer, générant un nouvel arbre à chaque itération. De nombreuses méthodes ont été proposées pour générer un arbre raisonnable à chaque étape. Nous présentons ici brièvement la Gradient Boosting Machine proposée par Friedman. Il utilise l'idée de descente de gradient lors de la génération de chaque arbre, faisant un pas de plus vers la minimisation de la fonction objectif donnée sur la base de tous les arbres générés précédemment. Avec des paramètres raisonnables, nous devons souvent générer un certain nombre d’arbres pour obtenir une précision satisfaisante. Lorsque l'ensemble de données est volumineux et complexe, nous pouvons avoir besoin de milliers d'opérations itératives. Si la génération d'un modèle arborescent prend quelques secondes, alors l'opération fastidieuse de tant d'itérations devrait vous permettre de vous concentrer sur une réflexion tranquille...
Maintenant, nous espérons mieux résoudre ce problème grâce à l'outil xgboost. Le nom complet de xgboost est eXtreme Gradient Boosting. Comme son nom l'indique, il s'agit d'une implémentation C de Gradient Boosting Machine. L'auteur est Chen Tianqi, un maître qui étudie l'apprentissage automatique à l'Université de Washington. Au cours de ses recherches, il s'est senti limité par la vitesse de calcul et la précision des bibliothèques existantes, il a donc commencé à construire le projet xgboost il y a un an, et il a progressivement pris forme l'été dernier. La plus grande caractéristique de xgboost est qu'il peut utiliser automatiquement le multi-thread du CPU pour la parallélisation, et en même temps améliorer l'algorithme pour augmenter la précision . Ses débuts ont été le concours d'identification du signal Higgs de Kaggle. En raison de son efficacité exceptionnelle et de sa grande précision de prédiction, il a attiré l'attention des participants au forum du concours et a occupé une place dans la compétition acharnée de plus de 1 700 équipes. Alors que sa popularité au sein de la communauté Kaggle augmente, une équipe a récemment remporté la première place de la compétition grâce à xgboost.
Pour la commodité de tous, Chen Tianqi a encapsulé xgboost dans une bibliothèque Python. J'ai eu la chance de travailler avec lui pour créer une interface en langage R pour l'outil xgboost et de la soumettre au CRAN. Certains utilisateurs l'ont également encapsulé dans une bibliothèque Julia. Les fonctions des interfaces python et R ont été constamment mises à jour. Vous pouvez découvrir les fonctions générales ci-dessous, puis choisir le langage que vous connaissez le mieux pour apprendre. Notebook Ipython Utilisez la ligne de commande pour saisir directementipython notebook
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!