Voisins les plus proches (K-Nearest Neighbors, KNN)
Introduction
Les méthodes d'apprentissage basées sur les voisins sont de deux types : supervisées et non supervisées. L'apprentissage supervisé basé sur les voisins peut être utilisé pour les problèmes prédictifs de classification et de régression, mais il est principalement utilisé pour les problèmes prédictifs de classification dans l'industrie.
Les méthodes d'apprentissage basées sur les voisins n'ont pas de phase de formation spécialisée et utilisent toutes les données pour la formation pendant la classification. Elles ne supposent rien non plus sur les données sous-jacentes. C'est la raison pour laquelle elles sont paresseuses et non paramétriques par nature.
Le principe de base des méthodes du plus proche voisin est -
- Trouver un nombre prédéfini d'échantillons d'entraînement proches en distance du nouveau point de données.
- Prédire l'étiquette à partir de ce nombre d'échantillons d'entraînement.
Ici, le nombre d'échantillons peut être une constante définie par l'utilisateur comme dans l'apprentissage du K-plus proche voisin ou varier en fonction de la densité locale du point comme dans l'apprentissage du voisin basé sur le rayon.
sklearn.neighbors Module
Scikit-learn dispose du module sklearn.neighbors qui fournit des fonctionnalités pour les méthodes d'apprentissage non supervisées et supervisées basées sur les voisins. En entrée, les classes de ce module peuvent gérer soit des tableaux NumPy, soit des matrices scipy.sparse.
Besoin d'aide ?
Rejoignez notre communauté officielle et ne restez plus seul à bloquer sur un problème !