So entfernen Sie HTML-Tags mithilfe regulärer Ausdrücke-Front-End-Fragen und Antworten-php.cn

So entfernen Sie HTML-Tags mithilfe regulärer Ausdrücke

PHPz

Freigeben： 2023-04-24 15:15:24

Original

2923 Leute haben es durchsucht

HTML ist eine wesentliche Technologie beim Webseitendesign und der Schlüssel zur Inhaltsanzeige auf Webseiten. Aber manchmal müssen wir den reinen Textinhalt extrahieren. In diesem Fall müssen wir die HTML-Tags entfernen. In diesem Artikel erfahren Sie, wie Sie reguläre Ausdrücke zum Entfernen von HTML-Tags verwenden.

HTML-Tags werden in spitze Klammern eingeschlossen. In HTML-Tags gibt es viele Attribute, mit denen die Eigenschaften von Elementen definiert werden, z. B. Klasse und ID. Wenn Sie reguläre Ausdrücke zum Entfernen von HTML-Tags verwenden, müssen Sie darauf achten, nicht nur die Tags, sondern auch die Attribute in den Tags zu entfernen.

Der spezifische reguläre Ausdruck lautet wie folgt:

/<[^>]+>/g

Nach dem Login kopieren

Dabei repräsentiert / den Anfang und das Ende des regulären Ausdrucks und das Kleiner-als-Zeichen den Anfang und das Ende des HTML-Tags; ^{stellt jedes Zeichen dar, das nicht übereinstimmt. + bedeutet, dass das übereinstimmende Zeichen ein oder mehrere Male wiederholt werden kann. /g bedeutet Volltextsuche anstelle einer Suche. Zum Beispiel, um alle Tags im folgenden HTML-Code zu entfernen:}

<!DOCTYPE html>
<html>
  <head>
    <title>HTML标签测试</title>
  </head>
  <body>
    <h1>我们来测试一下HTML标签去除吧！</h1>
    <p>这是一个段落。</p>
  </body>
</html>

Nach dem Login kopieren

Sie können den folgenden Code in JavaScript verwenden:

var html = 'HTML标签测试我们来测试一下HTML标签去除吧！
这是一个段落。';

var pureText = html.replace(/<[^>]+>/g, '');
console.log(pureText);

Nach dem Login kopieren

Der obige Code gibt den Nur-Text-Inhalt aus, nachdem die HTML-Tags entfernt wurden:

HTML标签测试我们来测试一下HTML标签去除吧！这是一个段落。

Nach dem Login kopieren

In diesem Auf diese Weise haben wir erfolgreich HTML-Tags entfernt. Bei der tatsächlichen Verwendung müssen Sie außerdem auf die folgenden Punkte achten:

Reguläre Ausdrücke gelten nur für den Klartextinhalt von HTML-Tags und nicht für JavaScript-Code und CSS-Stile in Tags.

Wenn es sich bei dem in HTML-Tags enthaltenen Inhalt um Zeichenentitäten wie < und > handelt, müssen diese Entitäten in regulären Ausdrücken ersetzt werden, da die Tags sonst nicht korrekt entfernt werden.
Darüber hinaus können Sie auch spezielle HTML-Parsing-Bibliotheken verwenden, um HTML-Tags zu extrahieren, wie z. B. Cheerio. Unabhängig davon, welche Methode verwendet wird, müssen wir jedoch wachsam bleiben, um sicherzustellen, dass der extrahierte Textinhalt korrekt ist und den Erwartungen entspricht.

↩

Das obige ist der detaillierte Inhalt vonSo entfernen Sie HTML-Tags mithilfe regulärer Ausdrücke. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!