Arbres de décision aléatoires

30 min Niveau 8

Randomized Decision Tree algorithms

Comme nous savons qu'un arbre de décision aléatoire est généralement formé en divisant les données de manière récursive, mais comme il est enclin à être surajusté, il a été transformé en forêt aléatoire en formant de nombreux arbres sur divers sous-échantillons de données. Le module sklearn.ensemble contient les deux algorithmes suivants, basés sur des arbres de décision aléatoires.

The Random Forest algorithm

Pour chaque caractéristique considérée, il calcule la combinaison caractéristique/split localement optimale. Dans la forêt aléatoire, chaque arbre de décision de l'ensemble est construit à partir d'un échantillon tiré avec remplacement de l'ensemble d'apprentissage, puis obtient la prédiction de chacun d'eux et enfin sélectionne la meilleure solution au moyen d'un vote. Il peut être utilisé pour les tâches de classification et de régression.

Classification avec Random Forest

Pour créer un classificateur de forêt aléatoire, le module Scikit-learn fournit sklearn.ensemble.RandomForestClassifier. Lors de la création d'un classificateur de forêt aléatoire, les principaux paramètres utilisés par ce module sont "max_features" et "n_estimators".

Ici, 'max_features' est la taille des sous-ensembles aléatoires de caractéristiques à prendre en compte lors de la division d'un nœud. Si la valeur de ce paramètre est nulle, toutes les caractéristiques seront prises en compte plutôt qu'un sous-ensemble aléatoire. D'autre part, n_estimateurs est le nombre d'arbres dans la forêt. Plus le nombre d'arbres est élevé, meilleur sera le résultat. Mais le calcul sera également plus long.

logo discord

Besoin d'aide ?

Rejoignez notre communauté officielle et ne restez plus seul à bloquer sur un problème !

En savoir plus