Souping the Page
10 min
Niveau 2
Introduction
Dans l'exemple de code précédent, nous analysons le document à travers le beau constructeur en utilisant une méthode string. Une autre façon est de passer le document par le biais d'un fichier ouvert.
from bs4 import BeautifulSoup
with open("example.html") as fp:
soup = BeautifulSoup(fp)
soup = BeautifulSoup("<html>data</html>")
Tout d'abord, le document est converti en Unicode, et les entités HTML sont converties en caractères Unicode :
import bs4
html = '''<b>microlead</b>, <i>&web scraping &data science;</i>'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)
Sortie :
<html><body><b>microlead</b>, <i>&web scraping &data science;</i></body></html>
BeautifulSoup analyse ensuite les données à l'aide d'un analyseur HTML ou vous lui demandez explicitement d'utiliser un analyseur XML.
Besoin d'aide ?
Rejoignez notre communauté officielle et ne restez plus seul à bloquer sur un problème !