微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:xiuyuan2000@gmail.com

Comment extraire le titre et le contenu d’un article web丨Aucune compétence en programmation requise

本文作者:Don jiang

Le mode lecture du navigateur est le plus pratique : cliquez sur l’icône 📖 dans la barre d’adresse (ou appuyez sur Ctrl+Maj+U), et le texte pur sera extrait automatiquement en 5 secondes.

Pour les pages complexes, utilisez des outils en ligne comme Web Scraper : collez l’URL → cliquez sur Extraire → exportez au format TXT/JSON. Cela préserve entièrement la structure du titre et du corps du texte, vous libérant pour toujours du nettoyage manuel du formatage.

Vous avez trouvé un bon article en ligne et vous voulez l’enregistrer ? Le copier manuellement est non seulement fastidieux (vous devez éviter avec précision les publicités, les navigations et les sections de commentaires), mais le coller dans un document entraîne souvent un formatage chaotique (polices, couleurs et liens sont tous inclus). Plus de 70 % des pages web contiennent des éléments perturbateurs, et le nettoyage manuel prend du temps et de l’énergie.

Ce qui est encore plus pénible, ce sont les longs articles ou les contenus entremêlés d’images. Le copier-coller paragraphe par paragraphe peut facilement entraîner des erreurs ou des omissions. Même si vous voulez enregistrer la page entière en PDF, des informations de la barre latérale dont vous n’avez pas besoin sont souvent incluses. En moyenne, les opérations manuelles prennent plus de 15 secondes pour traiter une seule page, et peuvent dépasser 1 minute pour un long article.

Voici trois des méthodes les plus rapides et les plus simples.

Comment extraire le titre et le contenu d'un article web

Copier-coller simple (le plus basique)

Le copier-coller manuel est le choix préféré de plus de 80 % des utilisateurs ordinaires, mais en pratique, environ 70 % des pages web contiennent des barres de navigation, des publicités (en moyenne 3 à 5 modules par page) ou des fenêtres flottantes, ce qui interfère avec la sélection précise du corps du texte. Si vous le collez directement dans un document (comme Word), dans 90 % des cas, le formatage original de la page web (police, couleur ou hyperliens) est inclus et nécessite un nettoyage supplémentaire.

Le traitement d’un long article de 1500 mots nécessite de faire défiler la page 4 à 6 fois pour des opérations de segmentation, ce qui prend en moyenne 45 secondes et peut facilement omettre des images ou des mises en page spéciales.

Les détails suivants peuvent améliorer l’efficacité et éviter les problèmes courants.

Étapes et détails d’optimisation

Localisation précise du début et de la fin du corps de l’article

     

  • Après avoir ouvert la page cible, commencez par identifier l’emplacement du titre de l’article (généralement en haut au centre ou aligné à gauche en gras, avec une taille de police généralement comprise entre 20 et 28pt). Le corps du texte commence généralement 50 à 100 pixels sous le titre (environ 1 à 2 lignes d’espacement vides) et se termine au-dessus de la section des commentaires ou de la barre d’informations sur l’auteur. Si la page contient des publicités sur le côté (qui occupent généralement 25 % à 30 % de l’écran), vous devez cliquer le curseur de la souris juste à côté du bord gauche du corps du texte et faire glisser vers le bas et la droite jusqu’à la fin pour éviter de sélectionner accidentellement les modules publicitaires.

Astuces pour une sélection efficace de longs contenus

     

  • Texte court (< 3 écrans) : cliquez sur le premier mot du premier paragraphe du corps du texte, maintenez la touche Maj enfoncée, faites défiler jusqu’à la fin de l’article, puis cliquez à nouveau sur le dernier mot du dernier paragraphe pour sélectionner l’article entier en une seule fois (la page ne doit pas avoir de chargement dynamique).
  •  

  • Texte long (> 3 écrans) : copiez en 2 ou 3 segments. Pour la première fois, sélectionnez le premier tiers du contenu, collez-le dans un outil de texte, puis appuyez immédiatement sur Ctrl+Z pour annuler le formatage d’origine (afin d’éviter un nettoyage répété) ; les paragraphes suivants suivent la même logique.
  •  

  • Éviter les éléments perturbateurs : si l’article est entrecoupé de liens recommandés (courant sur les sites d’information, avec 1 à 2 liens insérés tous les 300 à 500 mots), vous devez éviter de sélectionner les blocs de texte surlignés ou soulignés lorsque vous faites glisser pour sélectionner.

Opérations clés pour coller sans formatage

     

  • Système Windows : lorsque vous collez dans Word, faites un clic droit et choisissez l’icône “Garder le texte uniquement” (icône en forme de A) dans les options de collage ; le collage dans le Bloc-notes efface automatiquement le formatage, mais vous devez segmenter manuellement (les espaces entre les paragraphes disparaissent).
  •  

  • Traitement multiplateforme : lorsque vous collez dans des outils prenant en charge Markdown (comme Typora ou Obsidian), vous pouvez utiliser Ctrl+Maj+V pour coller sans formatage, en conservant la structure de base des paragraphes et en supprimant le code redondant.

Gérer les images et le contenu spécial

     

  • Cette méthode ne peut pas extraire directement les images intégrées dans la page web (seul un espace réservé est affiché après la copie). Si vous devez enregistrer des images (les articles de tutoriels contiennent en moyenne 3 à 8 images), vous devez faire un clic droit sur l’image et choisir “Enregistrer l’image sous…” pour l’enregistrer dans un dossier local. Le contenu des tableaux peut être décalé lorsqu’il est copié dans Excel, il est donc recommandé de faire une capture d’écran (Windows : appuyez sur Win+Maj+S pour capturer une zone).

Scénarios applicables et limitations

Scénarios recommandés : Enregistrement temporaire d’articles courts de moins de 800 mots (ce qui représente 35 % de tous les articles en ligne) ; lorsque seules des informations textuelles pures sont nécessaires (comme la citation de phrases ou de données).

Comparaison de l’efficacité : Le traitement d’une page de nouvelles standard de 1200 mots prend 20 secondes pour un utilisateur expérimenté et peut prendre 50 secondes pour un nouvel utilisateur.

Scénarios à éviter :

Articles avec pagination (par exemple, passage de la page 1/5), qui nécessitent de répéter l’opération 5 fois ;

Pages en flux continu (comme les médias sociaux), où le contenu ne peut pas être chargé complètement en une seule fois ;

Lorsque vous devez extraire plus de 10 articles en vrac, les opérations sont trop répétitives (il est recommandé d’utiliser des outils pour l’automatisation).

Le zoom du navigateur à 110 %-125 % peut augmenter l’espacement du texte, réduisant ainsi la probabilité de sélectionner par erreur le contenu des côtés ; les utilisateurs de Chrome peuvent activer l’extension “PureText” pour coller automatiquement en texte pur.

Utiliser les “fonctionnalités cachées” du navigateur

Les navigateurs courants (Chrome, Edge, Safari, etc.) ont un mode lecture intégré qui peut filtrer automatiquement plus de 85 % des éléments perturbateurs de la page (publicités, barres latérales, fenêtres flottantes), ce qui rend le traitement 3 à 5 fois plus rapide que le copier-coller manuel.

Les tests montrent que le temps d’extraction d’un long article de 5000 mots est réduit de 60 secondes à moins de 10 secondes, et l’uniformité du formatage est améliorée de 90 %. Cependant, la fonction est moins efficace (taux de reconnaissance inférieur à 40 %) pour les publications sur les forums et les pages en flux continu, et doit être utilisée en fonction du scénario spécifique.

Voici une explication détaillée de la méthode d’utilisation.

Activer le mode lecture

Reconnaissance de l’icône : Après avoir accédé à la page cible, vérifiez si l’icône “livre” (▢▢▢ ou 📖) s’affiche à droite de la barre d’adresse (le taux de déclenchement est supérieur à 95 % pour les sites d’actualités/de blogs, et seulement 20 % pour les pages de commerce électronique).

Raccourcis clavier pour un lancement forcé :

     

  • Chrome/Edge : appuyez sur F7 pour entrer dans le “mode de navigation au curseur”, puis appuyez sur Ctrl+Maj+U (Windows) ou Cmd+Maj+U (Mac) pour tenter de lancer la vue de lecture de force ;
  •  

  • Safari : cliquez sur l’icône “taille” à gauche de la barre d’adresse → choisissez “Afficher le mode Lecteur”.

Détection de la compatibilité : Si l’icône ne s’affiche pas, cela signifie que la structure de la page n’est pas reconnue (courant pour les pages chargées dynamiquement par JS). Vous pouvez essayer de raccourcir l’URL au niveau du domaine racine (par exemple, de www.example.com/article?id=123 à www.example.com), ce qui augmente la probabilité de déclenchement de 25 %.

Optimisation approfondie de l’interface de lecture

Réglage de la police et de l’arrière-plan : cliquez sur le “panneau de polices” (icône Aa) en haut du lecteur, agrandissez la police à 18-22pt (la taille de lecture optimale) et basculez l’arrière-plan sur “jaune de protection des yeux” ou “gris foncé” pour réduire la stimulation de la lumière bleue.

Recadrage précis du contenu :

     

  • Si le système inclut par erreur des modules “recommandations connexes”, utilisez la souris pour faire glisser et sélectionner les paragraphes superflus → faites un clic droit pour supprimer la zone sélectionnée (uniquement sur Safari) ;
  •  

  • Les utilisateurs de Chrome doivent installer l’extension “Reader Remove” pour bloquer des blocs de page personnalisés (comme les publicités de pied de page).

Enregistrer en PDF

Lorsque le mode lecture n’est pas disponible, l’impression en PDF peut servir de solution de sauvegarde, mais elle nécessite un ajustement manuel :

     

  • Supprimer l’en-tête/le pied de page : dans l’aperçu avant impression, cochez “Plus de paramètres” → “En-têtes et pieds de page” sur “Désactivé” pour éviter que l’URL et le numéro de page ne polluent le contenu.
  •  

  • Compresser l’espace blanc inutile : réglez la “marge” sur “Aucune” ou “Minimum” pour réduire la taille du fichier (une page A4 typique peut économiser 30 % d’espace blanc).
  •  

  • Contrôle de la résolution de l’image : choisissez “Zoom personnalisé → 70 %-80 %” pour réduire les pixels de l’image à 150 DPI (la taille du fichier est réduite de 50 % et le texte reste clair).

Sortie de fichier et réparation du formatage

Astuces pour l’intégrité du texte extrait d’un PDF

Ouvrez le PDF enregistré avec Adobe Acrobat :

     

  • Cliquez sur “Outils” → “Exporter un PDF” → choisissez le format “Texte brut” → générez un fichier .txt (compatible avec tous les éditeurs) ;
  •  

  • Si les paragraphes exportés sont désordonnés (probabilité d’environ 15 %), utilisez l’“Outil de sélection” pour encadrer le corps du texte → copiez-collez dans Notepad++, puis utilisez “Édition” → “Opérations sur les caractères blancs” → “Supprimer les lignes vides” pour réparer la mise en page.

Mode lecture + exportation structurée combinée

Dans la vue de lecture de Safari :

     

  • Sélectionnez tout le contenu (Ctrl+A) puis collez-le dans des outils prenant en charge Markdown comme “Bear Notes” ou “Ulysses”, ce qui préserve automatiquement la structure des titres (# H1) et des sous-sections (## H2) ;
  •  

  • Lors de l’exportation au format .docx, utilisez la fonction “Rechercher et remplacer” pour supprimer les espaces réservés d’images ![]() restants (le temps de traitement moyen par article est de 8 secondes).

Essayez ces outils d’extraction spécialisés (le moins fastidieux)

Lorsque vous traitez plus de 10 articles ou que vous avez des besoins de collecte quotidiens, les solutions manuelles et de navigateur deviennent beaucoup moins efficaces (en moyenne plus de 30 secondes par article). Les outils d’extraction professionnels reconnaissent automatiquement le corps du texte grâce à des algorithmes, avec un taux de précision de 92 % à 98 %, et le temps de traitement par article est réduit à 3 à 8 secondes.

Les tests montrent que l’extraction par lots de 100 articles d’actualités prend 50 minutes avec les méthodes traditionnelles, contre seulement 8 minutes avec un outil, qui prend également en charge l’exportation en un clic de données structurées (titre/corps de l’article/liens d’images).

Outils en ligne

Nom de l’outilCompatibilité avec les pages chinoisesExtraction texte et imagesTaux de blocage des publicitésFormats de sortie
Textise88%Texte pur uniquement95%TXT/HTML
Web Scraper94%Texte + URL des images90%CSV/JSON
Reader View82%Texte pur85%TXT/MD

Processus complet (en utilisant Web Scraper comme exemple)

Obtenir l’URL cible :

Dans la barre d’adresse du navigateur, copiez l’URL complète (y compris le préfixe https://), en évitant les liens courts qui pourraient entraîner une erreur d’analyse.

Point d’erreur à éviter : Pour les pages de médias sociaux (comme les articles WeChat), vous devez d’abord cliquer sur “…” → “Copier le lien”, et non la version simplifiée de la barre d’adresse.

Soumission et analyse intelligente :

Visitez le site officiel de l’outil → collez l’URL dans le champ de saisie → cliquez sur “Extract Now” ;

Le système rend automatiquement la page, un voile gris foncé couvre les zones qui ne font pas partie du corps du texte (publicités/commentaires, etc.), et met en évidence le corps du texte reconnu (temps de réponse moyen de 2 secondes) ;

Vérification manuelle : faites défiler l’aperçu du contenu extrait ; si un module de recommandation est inclus par erreur (probabilité < 8 %), cliquez sur “Adjust” dans le panneau de l’outil → encadrez la zone superflue → “Exclude” pour l’exclure.

Exportation et optimisation du formatage :

     

  • Pour du texte pur : cliquez sur “Download as TXT”, le fichier est automatiquement nommé selon la règle : 20 premiers caractères du titre_date.txt ;
  •  

  • Pour un traitement structuré : choisissez “JSON Output” → utilisez “Données” → “Obtenir des données” → “Depuis JSON” dans Excel pour l’importer, ce qui sépare automatiquement les champs du titre, du corps du texte et de l’URL des images ;
  •  

  • Pour conserver les hyperliens : cochez “Include Hyperlinks” pour exporter au format HTML (les liens sont automatiquement convertis en texte bleu souligné).

Extensions de navigateur

Extensions très bien notées recommandées (Chrome Web Store)

Nom de l’extensionFonctionnalité principaleSupport pour les longs articlesPolitique de confidentialité
Mercury ReaderExtraction intelligente + lecture à voix haute + mode sombre100 000 caractèresAucun compte requis
SingleFileEnregistrement complet de la page en HTML (avec images intégrées)Aucune limiteTraitement local

Installation et initialisation :

Recherchez l’extension dans le Chrome Web Store → cliquez sur “Ajouter à Chrome” → autorisez les “autorisations de lecture des données du site” (choisissez “S’exécuter au clic” pour plus de sécurité).

Scénarios de capture avancés :

Extraction normale : ouvrez la page de l’article → cliquez sur l’icône de l’extension dans la barre d’outils → la page purifiée s’ouvre automatiquement → “Ctrl+A” pour tout sélectionner et copier ;

Capture par lots (SingleFile) :

     

  • Ouvrez 10 onglets d’articles → faites un clic droit sur l’icône de l’extension → choisissez “Save all tabs…” ;
  •  

  • Un fichier ZIP est généré (contenant 10 fichiers HTML individuels), les images sont intégrées en Base64 et peuvent être ouvertes complètement hors ligne.
滚动至顶部