Réduction de la dimensionnalité à l'aide de l'ACP
Introduction
La réduction de la dimensionnalité, une méthode d'apprentissage automatique non supervisée, est utilisée pour réduire le nombre de variables caractéristiques pour chaque échantillon de données en sélectionnant un ensemble de caractéristiques principales. L'analyse en composantes principales (ACP ou PCA) est l'un des algorithmes populaires de réduction de la dimensionnalité.
Exact PCA
L'analyse en composantes principales (ACP ou PCA) est utilisée pour la réduction linéaire de la dimensionnalité en utilisant la décomposition en valeurs singulières (SVD) des données pour les projeter dans un espace de dimension inférieure. Lors de la décomposition par ACP, les données d'entrée sont centrées mais pas mises à l'échelle pour chaque caractéristique avant d'appliquer la SVD.
La bibliothèque Scikit-learn ML fournit le module sklearn.decomposition.PCA qui est implémenté comme un objet transformateur qui apprend n composantes dans sa méthode fit(). Il peut également être utilisé sur de nouvelles données pour les projeter sur ces composantes.
Exemple
L'exemple ci-dessous utilisera le module sklearn.decomposition.PCA pour trouver les 5 meilleures composantes principales du jeu de données Pima Indians Diabetes.
from pandas import read_csv
from sklearn.decomposition import PCA
path = r'C:\Users\Leekha\Desktop\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names = names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
pca = PCA(n_components = 5)
fit = pca.fit(X)
print(("Explained Variance: %s") % (fit.explained_variance_ratio_))
print(fit.components_)
Besoin d'aide ?
Rejoignez notre communauté officielle et ne restez plus seul à bloquer sur un problème !