Types d'objets

30 min Niveau 3

Introduction

Lorsque nous passons un document html ou une chaîne de caractères à un constructeur de beautifulsoup, beautifulsoup convertit essentiellement une page html complexe en différents objets python. Ci-dessous, nous allons discuter de quatre types d'objets principaux :

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comments

Tag Objects

Un tag HTML est utilisé pour définir différents types de contenu. Un objet tag dans BeautifulSoup correspond à un tag HTML ou XML dans la page ou le document actuel.

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<b class="boldest">Microlead</b>')
>>> tag = soup.html
>>> type(tag)
<class 'bs4.element.Tag'>

Les balises contiennent beaucoup d'attributs et de méthodes. Les deux caractéristiques importantes d'une balise sont son nom et ses attributs.

Name (tag.name)

Chaque balise contient un nom et est accessible par le suffixe '.name'. tag.name renvoie le type de balise dont il s'agit.

>>> tag.name
'html'

Cependant, si nous changeons le nom de la balise, cela se reflétera dans le balisage HTML généré par BeautifulSoup.

>>> tag.name = "Strong"
>>> tag
<Strong><body><b class="boldest">Microlead</b></body></Strong>
>>> tag.name
'Strong'
logo discord

Besoin d'aide ?

Rejoignez notre communauté officielle et ne restez plus seul à bloquer sur un problème !

En savoir plus