Nettoyer le contenu HTML pour une génération augmentée par récupération avec Readability.js-js tutoriel-php.cn

Table des matières

Extraire des données non structurées à partir de pages Web

Exploiter la fonctionnalité Reader View

Scraping de données avec Node.js et Readability.js

Intégrer la lisibilité avec LangChain.js

Amélioration de la précision du Web Scraping avec Readability.js

Maison

interface Web

js tutoriel

Nettoyer le contenu HTML pour une génération augmentée par récupération avec Readability.js

Barbara Streisand

Jan 22, 2025 am 10:33 AM

Le Web scraping est une méthode courante de collecte de contenu pour votre application de génération augmentée par récupération (RAG). Cependant, l'analyse du contenu d'une page Web peut s'avérer difficile.

La bibliothèque open source Readability.js de Mozilla offre une solution pratique pour extraire uniquement les parties essentielles d'une page Web. Explorons son intégration dans un pipeline d'ingestion de données pour une application RAG.

Extraire des données non structurées à partir de pages Web

Les pages Web sont de riches sources de données non structurées, idéales pour les applications RAG. Cependant, les pages Web contiennent souvent des informations non pertinentes telles que des en-têtes, des barres latérales et des pieds de page. Bien qu'utile pour la navigation, ce contenu supplémentaire nuit au sujet principal de la page.

Pour des données RAG optimales, le contenu non pertinent doit être supprimé. Bien que des outils tels que Cheerio puissent analyser le HTML en fonction de la structure connue d'un site, cette approche est inefficace pour supprimer diverses mises en page de sites Web. Une méthode robuste est nécessaire pour extraire uniquement le contenu pertinent.

Exploiter la fonctionnalité Reader View

La plupart des navigateurs incluent une vue lecteur qui supprime tout sauf le titre et le contenu de l'article. L'image suivante illustre la différence entre la navigation standard et le mode lecteur appliqué à un article de blog DataStax :

Clean up HTML Content for Retrieval-Augmented Generation with Readability.js

Mozilla fournit Readability.js, la bibliothèque derrière le mode lecteur de Firefox, en tant que module open source autonome. Cela nous permet d'intégrer Readability.js dans un pipeline de données pour supprimer le contenu non pertinent et améliorer les résultats du scraping.

Scraping de données avec Node.js et Readability.js

Illustrons le contenu d'un article de scraping d'un article de blog précédent sur la création d'intégrations vectorielles dans Node.js. Le code JavaScript suivant récupère le HTML de la page :

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());
console.log(html);

Copier après la connexion

Cela inclut tout le code HTML, y compris la navigation, les pieds de page et d'autres éléments courants sur les sites Web.

Vous pouvez également utiliser Cheerio pour sélectionner des éléments spécifiques :

npm install cheerio

Copier après la connexion

import * as cheerio from "cheerio";

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());

const $ = cheerio.load(html);

console.log($("h1").text(), "\n");
console.log($("section#blog-content > div:first-child").text());

Copier après la connexion

Cela donne le titre et le texte de l'article. Cependant, cette approche repose sur la connaissance de la structure HTML, ce qui n'est pas toujours réalisable.

Une meilleure approche consiste à installer Readability.js et jsdom :

npm install @mozilla/readability jsdom

Copier après la connexion

Readability.js fonctionne dans un environnement de navigateur, ce qui nécessite que jsdom simule cela dans Node.js. Nous pouvons convertir le HTML chargé en document et utiliser Readability.js pour analyser le contenu :

import { Readability } from "@mozilla/readability";
import { JSDOM } from "jsdom";

const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js";
const html = await fetch(url).then((res) => res.text());

const doc = new JSDOM(html, { url });
const reader = new Readability(doc.window.document);
const article = reader.parse();

console.log(article);

Copier après la connexion

L'objet article contient divers éléments analysés :

Clean up HTML Content for Retrieval-Augmented Generation with Readability.js

Cela inclut le titre, l'auteur, l'extrait, l'heure de publication et à la fois le HTML (content) et le texte brut (textContent). textContent est prêt pour le regroupement, l'intégration et le stockage, tandis que content conserve les liens et les images pour un traitement ultérieur.

La fonction isProbablyReaderable permet de déterminer si le document est adapté à Readability.js :

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());
console.log(html);

Copier après la connexion

Les pages inappropriées doivent être signalées pour examen.

Intégrer la lisibilité avec LangChain.js

Readability.js s'intègre parfaitement à LangChain.js. L'exemple suivant utilise LangChain.js pour charger une page, extraire du contenu avec MozillaReadabilityTransformer, diviser le texte avec RecursiveCharacterTextSplitter, créer des intégrations avec OpenAI et stocker des données dans Astra DB.

Dépendances obligatoires :

npm install cheerio

Copier après la connexion

Vous aurez besoin des informations d'identification Astra DB ( ASTRA_DB_APPLICATION_TOKEN, ASTRA_DB_API_ENDPOINT) et d'une clé API OpenAI (OPENAI_API_KEY) comme variables d'environnement.

Importer les modules nécessaires :

import * as cheerio from "cheerio";

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());

const $ = cheerio.load(html);

console.log($("h1").text(), "\n");
console.log($("section#blog-content > div:first-child").text());

Copier après la connexion

Initialiser les composants :

npm install @mozilla/readability jsdom

Copier après la connexion

Charger, transformer, diviser, intégrer et stocker des documents :

import { Readability } from "@mozilla/readability";
import { JSDOM } from "jsdom";

const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js";
const html = await fetch(url).then((res) => res.text());

const doc = new JSDOM(html, { url });
const reader = new Readability(doc.window.document);
const article = reader.parse();

console.log(article);

Copier après la connexion

Amélioration de la précision du Web Scraping avec Readability.js

Readability.js, une bibliothèque robuste qui alimente le mode lecteur de Firefox, extrait efficacement les données pertinentes des pages Web, améliorant ainsi la qualité des données RAG. Il peut être utilisé directement ou via le MozillaReadabilityTransformer de LangChain.js.

Ce n'est que la première étape de votre pipeline d'ingestion. Le regroupement, l'intégration et le stockage Astra DB sont les étapes suivantes de la création de votre application RAG.

Utilisez-vous d'autres méthodes pour nettoyer le contenu Web dans vos applications RAG ? Partagez vos techniques !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Système de fusion, expliqué

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1667

Tutoriel CakePHP

1426

Tutoriel Laravel

1328

Tutoriel PHP

1273

Tutoriel C#

1255

Afficher plus

Related knowledge

Moteurs JavaScript: comparaison des implémentations Apr 13, 2025 am 12:05 AM

Différents moteurs JavaScript ont des effets différents lors de l'analyse et de l'exécution du code JavaScript, car les principes d'implémentation et les stratégies d'optimisation de chaque moteur diffèrent. 1. Analyse lexicale: convertir le code source en unité lexicale. 2. Analyse de la grammaire: générer un arbre de syntaxe abstrait. 3. Optimisation et compilation: générer du code machine via le compilateur JIT. 4. Exécuter: Exécutez le code machine. Le moteur V8 optimise grâce à une compilation instantanée et à une classe cachée, SpiderMonkey utilise un système d'inférence de type, résultant en différentes performances de performances sur le même code.

Python vs JavaScript: la courbe d'apprentissage et la facilité d'utilisation Apr 16, 2025 am 12:12 AM

Python convient plus aux débutants, avec une courbe d'apprentissage en douceur et une syntaxe concise; JavaScript convient au développement frontal, avec une courbe d'apprentissage abrupte et une syntaxe flexible. 1. La syntaxe Python est intuitive et adaptée à la science des données et au développement back-end. 2. JavaScript est flexible et largement utilisé dans la programmation frontale et côté serveur.

De C / C à JavaScript: comment tout cela fonctionne Apr 14, 2025 am 12:05 AM

Le passage de C / C à JavaScript nécessite de s'adapter à la frappe dynamique, à la collecte des ordures et à la programmation asynchrone. 1) C / C est un langage dactylographié statiquement qui nécessite une gestion manuelle de la mémoire, tandis que JavaScript est dynamiquement typé et que la collecte des déchets est automatiquement traitée. 2) C / C doit être compilé en code machine, tandis que JavaScript est une langue interprétée. 3) JavaScript introduit des concepts tels que les fermetures, les chaînes de prototypes et la promesse, ce qui améliore la flexibilité et les capacités de programmation asynchrones.

Javascript et le web: fonctionnalité de base et cas d'utilisation Apr 18, 2025 am 12:19 AM

Les principales utilisations de JavaScript dans le développement Web incluent l'interaction client, la vérification du formulaire et la communication asynchrone. 1) Mise à jour du contenu dynamique et interaction utilisateur via les opérations DOM; 2) La vérification du client est effectuée avant que l'utilisateur ne soumette les données pour améliorer l'expérience utilisateur; 3) La communication de rafraîchissement avec le serveur est réalisée via la technologie AJAX.

JavaScript en action: Exemples et projets du monde réel Apr 19, 2025 am 12:13 AM

L'application de JavaScript dans le monde réel comprend un développement frontal et back-end. 1) Afficher les applications frontales en créant une application de liste TODO, impliquant les opérations DOM et le traitement des événements. 2) Construisez RestulAPI via Node.js et Express pour démontrer les applications back-end.

Comprendre le moteur JavaScript: détails de l'implémentation Apr 17, 2025 am 12:05 AM

Comprendre le fonctionnement du moteur JavaScript en interne est important pour les développeurs car il aide à écrire du code plus efficace et à comprendre les goulots d'étranglement des performances et les stratégies d'optimisation. 1) Le flux de travail du moteur comprend trois étapes: analyse, compilation et exécution; 2) Pendant le processus d'exécution, le moteur effectuera une optimisation dynamique, comme le cache en ligne et les classes cachées; 3) Les meilleures pratiques comprennent l'évitement des variables globales, l'optimisation des boucles, l'utilisation de const et de locations et d'éviter une utilisation excessive des fermetures.

Python vs JavaScript: communauté, bibliothèques et ressources Apr 15, 2025 am 12:16 AM

Python et JavaScript ont leurs propres avantages et inconvénients en termes de communauté, de bibliothèques et de ressources. 1) La communauté Python est amicale et adaptée aux débutants, mais les ressources de développement frontal ne sont pas aussi riches que JavaScript. 2) Python est puissant dans les bibliothèques de science des données et d'apprentissage automatique, tandis que JavaScript est meilleur dans les bibliothèques et les cadres de développement frontaux. 3) Les deux ont des ressources d'apprentissage riches, mais Python convient pour commencer par des documents officiels, tandis que JavaScript est meilleur avec MDNWEBDOCS. Le choix doit être basé sur les besoins du projet et les intérêts personnels.

Python vs JavaScript: environnements et outils de développement Apr 26, 2025 am 12:09 AM

Les choix de Python et JavaScript dans les environnements de développement sont importants. 1) L'environnement de développement de Python comprend Pycharm, Jupyternotebook et Anaconda, qui conviennent à la science des données et au prototypage rapide. 2) L'environnement de développement de JavaScript comprend Node.js, VScode et WebPack, qui conviennent au développement frontal et back-end. Le choix des bons outils en fonction des besoins du projet peut améliorer l'efficacité du développement et le taux de réussite du projet.

See all articles