Expressions régulières

5 h Niveau 5

Une expression régulière est une séquence spéciale de caractères qui vous aide à faire correspondre ou à trouver d'autres chaînes ou ensembles de chaînes, en utilisant une syntaxe spécialisée contenue dans un motif. Les expressions régulières sont largement utilisées dans le monde UNIX.

Le module re fournit un support complet des expressions régulières de type Perl en Python. Le module re soulève l'exception re.error si une erreur se produit lors de la compilation ou de l'utilisation d'une expression régulière.

Nous allons couvrir deux fonctions importantes, qui seront utilisées pour manipuler les expressions régulières. Néanmoins, une petite chose d'abord : Il existe plusieurs caractères qui ont une signification particulière lorsqu'ils sont utilisés dans une expression régulière. Pour éviter toute confusion lors du traitement des expressions régulières, nous utiliserons les chaînes brutes comme r'expression'.

Modèles de base qui correspondent à des caractères uniques

  • a, X, 9, < : Les caractères ordinaires se correspondent exactement.
  • . (un point) : Correspond à n'importe quel caractère unique, à l'exception de la nouvelle ligne '\n'.
  • \w : Correspond à un caractère "mot" : une lettre, un chiffre ou une barre inférieure [a-zA-Z0-9_].
  • \W : Correspond à tout caractère autre qu'un mot.
  • \b : Limite entre le mot et le non-mot.
  • \s : Correspond à un seul caractère d'espace -- espace, nouvelle ligne, retour, tabulation.
  • \S : Correspond à tout caractère autre qu'un espace.
  • \t, \n, \r : Tabulation, nouvelle ligne, retour.
  • \d : Chiffre décimal [0-9].
  • ^ : Correspond au début de la chaîne.
  • $ : Correspond à la fin de la chaîne de caractères.
  • \N : Inhibe la "spécificité" d'un caractère.

Indicateurs de compilation

Les indicateurs de compilation vous permettent de modifier certains aspects du fonctionnement des expressions régulières. Les drapeaux sont disponibles dans le module re sous deux noms, un nom long tel que IGNORECASE et une forme courte à une lettre telle que I.

  • ASCII, A : Fait en sorte que plusieurs échappatoires comme \w, \b, \s et \d ne correspondent qu'aux caractères ASCII ayant la propriété respective.
  • DOTALL, S : Fait correspondre n'importe quel caractère, y compris les nouvelles lignes.
  • IGNORECASE, I : Effectuer des correspondances insensibles à la casse.
  • LOCALE, L : Effectuer une correspondance locale.
  • MULTILINE, M : Correspondance multi-lignes, affectant ^ et $.
  • VERBOSE, X (pour 'extended') : Active les REs verbeux, qui peuvent être organisés de manière plus propre et plus compréhensible.

La fonction match

logo discord

Besoin d'aide ?

Rejoignez notre communauté officielle et ne restez plus seul à bloquer sur un problème !

En savoir plus