Processus de modélisation

1 h Niveau 2

Chargement d'un ensemble de données

Une collection de données est appelée ensemble de données. Il est composé des deux éléments suivants :

  • Caractéristiques - Les variables des données sont appelées caractéristiques. Elles sont également appelées prédicteurs, entrées ou attributs.
    • Matrice des caractéristiques - C'est la collection des caractéristiques, s'il y en a plus d'une.
    • Noms des caractéristiques - C'est la liste de tous les noms des caractéristiques.
  • Réponse - C'est la variable de sortie qui dépend essentiellement des variables des caractéristiques. Elle est également connue sous le nom de cible, d'étiquette ou de sortie.
    • Vecteur de réponse - Il est utilisé pour représenter la colonne de réponse. En général, nous n'avons qu'une seule colonne de réponse.
    • Noms de cible - Ils représentent les valeurs possibles prises par un vecteur de réponse.

Scikit-learn dispose de quelques ensembles de données d'exemple comme l'iris et les chiffres pour la classification et les prix des maisons à Boston pour la régression.

Exemple

Voici un exemple de chargement d'un ensemble de données sur l'iris.

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names
target_names = iris.target_names
print("Feature names:", feature_names)
print("Target names:", target_names)
print("\nFirst 10 rows of X:\n", X[:10])
logo discord

Besoin d'aide ?

Rejoignez notre communauté officielle et ne restez plus seul à bloquer sur un problème !

En savoir plus