Types d'objets
Introduction
Lorsque nous passons un document html ou une chaîne de caractères à un constructeur de beautifulsoup, beautifulsoup convertit essentiellement une page html complexe en différents objets python. Ci-dessous, nous allons discuter de quatre types d'objets principaux :
- Tag
- NavigableString
- BeautifulSoup
- Comments
Tag Objects
Un tag HTML est utilisé pour définir différents types de contenu. Un objet tag dans BeautifulSoup correspond à un tag HTML ou XML dans la page ou le document actuel.
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<b class="boldest">Microlead</b>')
>>> tag = soup.html
>>> type(tag)
<class 'bs4.element.Tag'>
Les balises contiennent beaucoup d'attributs et de méthodes. Les deux caractéristiques importantes d'une balise sont son nom et ses attributs.
Name (tag.name)
Chaque balise contient un nom et est accessible par le suffixe '.name'. tag.name renvoie le type de balise dont il s'agit.
>>> tag.name
'html'
Cependant, si nous changeons le nom de la balise, cela se reflétera dans le balisage HTML généré par BeautifulSoup.
>>> tag.name = "Strong"
>>> tag
<Strong><body><b class="boldest">Microlead</b></body></Strong>
>>> tag.name
'Strong'
Besoin d'aide ?
Rejoignez notre communauté officielle et ne restez plus seul à bloquer sur un problème !