Méthodes de regroupement

45 min Niveau 9

Introduction

Ici, nous allons étudier les méthodes de clustering dans Sklearn qui aideront à identifier toute similarité dans les échantillons de données.

Les méthodes de regroupement, l'une des méthodes de ML non supervisées les plus utiles, sont utilisées pour trouver des modèles de similarité et de relation entre les échantillons de données. Ensuite, elles regroupent ces échantillons en groupes ayant une similarité basée sur des caractéristiques. Le clustering détermine le regroupement intrinsèque entre les données non étiquetées actuelles, d'où son importance.

La bibliothèque Scikit-learn possède sklearn.cluster pour effectuer le clustering de données non étiquetées. Sous ce module, scikit-leran dispose des méthodes de clustering suivantes -

KMeans

Cet algorithme calcule les centroïdes et itère jusqu'à ce qu'il trouve le centroïde optimal. Il exige que le nombre de groupes soit spécifié, c'est pourquoi il suppose qu'il est déjà connu. La logique principale de cet algorithme est de regrouper les échantillons de séparation des données dans un nombre n de groupes de variances égales en minimisant le critère connu sous le nom d'inertie. Le nombre de groupes identifiés par l'algorithme est représenté par 'K'.

Scikit-learn dispose du module sklearn.cluster.KMeans pour effectuer le clustering K-Means. Lors du calcul des centres de clusters et de la valeur d'inertie, le paramètre nommé sample_weight permet au module sklearn.cluster.KMeans d'attribuer plus de poids à certains échantillons.

Se connecter pour voir la suite

Besoin d'aide ?

Rejoignez notre communauté officielle et ne restez plus seul à bloquer sur un problème !