Processus de modélisation
1 h
Niveau 2
Chargement d'un ensemble de données
Une collection de données est appelée ensemble de données. Il est composé des deux éléments suivants :
- Caractéristiques - Les variables des données sont appelées caractéristiques. Elles sont également appelées prédicteurs, entrées ou attributs.
- Matrice des caractéristiques - C'est la collection des caractéristiques, s'il y en a plus d'une.
- Noms des caractéristiques - C'est la liste de tous les noms des caractéristiques.
- Réponse - C'est la variable de sortie qui dépend essentiellement des variables des caractéristiques. Elle est également connue sous le nom de cible, d'étiquette ou de sortie.
- Vecteur de réponse - Il est utilisé pour représenter la colonne de réponse. En général, nous n'avons qu'une seule colonne de réponse.
- Noms de cible - Ils représentent les valeurs possibles prises par un vecteur de réponse.
Scikit-learn dispose de quelques ensembles de données d'exemple comme l'iris et les chiffres pour la classification et les prix des maisons à Boston pour la régression.
Exemple
Voici un exemple de chargement d'un ensemble de données sur l'iris.
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names
target_names = iris.target_names
print("Feature names:", feature_names)
print("Target names:", target_names)
print("\nFirst 10 rows of X:\n", X[:10])
Sortie
Feature names: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Target names: ['setosa' 'versicolor' 'virginica']
First 10 rows of X:
[
[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]
[4.6 3.1 1.5 0.2]
[5. 3.6 1.4 0.2]
[5.4 3.9 1.7 0.4]
[4.6 3.4 1.4 0.3]
[5. 3.4 1.5 0.2]
[4.4 2.9 1.4 0.2]
[4.9 3.1 1.5 0.1]
]
Besoin d'aide ?
Rejoignez notre communauté officielle et ne restez plus seul à bloquer sur un problème !