Du HTML à une liste de mots (partie 1)

Autor: William J. Turkel, Adam Crymble
Jazyk: francouzština
Rok vydání: 2023
Předmět:
Zdroj: The Programming Historian en Français, Vol 5 (2023)
Druh dokumentu: article
ISSN: 2631-9462
DOI: 10.46430/phfr0026
Popis: Dans cette leçon en deux parties, nous allons utiliser les compétences acquises dans la leçon « Télécharger des pages web avec Python », et voir comment supprimer les balises HTML de la page de la transcription du procès-verbal de Benjamin Bowsey en 1780 dans le but de créer un texte propre et réutilisable. Nous réaliserons cette tâche en utilisant les opérateurs et méthodes de chaines de caractères propres à Python, ainsi que nos compétences relatives à la lecture attentive. Nous introduirons ensuite les concepts de boucles et d’instructions conditionnelles afin de répéter notre processus de traitement et de tester certaines conditions nous permettant de séparer le contenu des balises HTML. Pour finir, nous convertirons les données obtenues et enregistrées sous la forme d’un texte sans balises HTML en une liste de mots qui pourra par la suite être triée, indexée et investie lors d’analyses statistiques.
Databáze: Directory of Open Access Journals