Heim > Backend-Entwicklung > PHP-Tutorial > Reguläre PHP-Ausdrücke: So extrahieren Sie den gesamten Textinhalt in HTML

Reguläre PHP-Ausdrücke: So extrahieren Sie den gesamten Textinhalt in HTML

WBOY
Freigeben: 2023-06-22 22:18:01
Original
2476 Leute haben es durchsucht
<p>In der Webentwicklung ist es oft notwendig, Textinhalte aus HTML zu extrahieren. Zu diesem Zeitpunkt können wir die regulären Ausdrücke von PHP verwenden, um diese Funktion zu erreichen. Reguläre Ausdrücke sind eine Sprache zum Abgleichen von Zeichenfolgen und können zum Parsen von HTML-Markup, zum Filtern von Text, zum Validieren von Formularen und mehr verwendet werden. </p> <p> Im Folgenden stellen wir vor, wie Sie reguläre PHP-Ausdrücke verwenden, um den gesamten Textinhalt in HTML zu extrahieren. </p> <ol><li>HTML-Dateiinhalte abrufen</li></ol> <p>Zuerst müssen wir die Dateilesefunktion <code>file_get_contents()</code> von PHP verwenden, um den Inhalt der HTML-Datei zu lesen. Zum Beispiel haben wir eine HTML-Datei namens <code>example.html</code>, die mit dem folgenden Code gelesen werden kann: <code>file_get_contents()</code> 读取 HTML 文件的内容。例如,我们有一个名为 <code>example.html</code> 的 HTML 文件,可以用以下代码读取:</p><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>$html = file_get_contents("example.html");</pre><div class="contentsignin">Nach dem Login kopieren</div></div><ol start="2"><li>编写正则表达式</li></ol><p>接着,我们需要编写正则表达式,来匹配 HTML 中的文本内容。在 HTML 中,文本内容位于标记之间,我们可以通过匹配标记的方式来提取其中的文本内容。</p><p>以下是一个简单的正则表达式示例,可以匹配所有的 HTML 标记:</p><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>$pattern = '/<[^>]*>/';</pre><div class="contentsignin">Nach dem Login kopieren</div></div><p>这个正则表达式的含义是:匹配以 <code><</code> 开头、以 <code>></code> 结尾的字符序列,中间不包含任何 <code>></code> 字符。</p><p>我们可以使用 <code>preg_replace()</code> 函数将所有的 HTML 标记替换成空字符串,从而提取出 HTML 中的文本内容:</p><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>$text = preg_replace($pattern, '', $html);</pre><div class="contentsignin">Nach dem Login kopieren</div></div><ol start="3"><li>过滤特殊字符</li></ol><p>在提取出 HTML 中的文本内容后,我们还需要过滤掉其中的一些特殊字符,例如换行符、制表符等等。这个时候,我们可以使用 PHP 的 <code>strip_tags()</code> 函数去掉 HTML 中所有的标记,并使用 <code>trim()</code><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>$text = strip_tags($text); $text = trim($text);</pre><div class="contentsignin">Nach dem Login kopieren</div></div><ol start="2"></p>Einen regulären Ausdruck schreiben<p></p><p>Als nächstes müssen wir Schreiben Sie reguläre Ausdrücke, um Textinhalten in HTML zu entsprechen. In HTML befindet sich Textinhalt zwischen Tags, und wir können den Textinhalt durch Zuordnen von Tags extrahieren. </p><p>Das Folgende ist ein einfaches Beispiel für einen regulären Ausdruck, der mit allen HTML-Tags übereinstimmen kann: </p><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>$html = file_get_contents("example.html"); $pattern = '/<[^>]*>/'; $text = preg_replace($pattern, '', $html); $text = strip_tags($text); $text = trim($text); echo $text;</pre><div class="contentsignin">Nach dem Login kopieren</div></div><p>Die Bedeutung dieses regulären Ausdrucks ist: Übereinstimmung beginnend mit <code><</code> und endend mit <code>> endet, ohne dazwischen liegende <code>></code>-Zeichen. </code></p>🎜Wir können die Funktion <code>preg_replace()</code> verwenden, um alle HTML-Tags durch leere Zeichenfolgen zu ersetzen, um den Textinhalt in HTML zu extrahieren: 🎜rrreee<ol start="3">🎜Sonderzeichen filtern 🎜🎜🎜 Nachdem wir den Textinhalt in HTML extrahiert haben, müssen wir auch einige Sonderzeichen wie Zeilenumbrüche, Tabulatoren usw. herausfiltern. Zu diesem Zeitpunkt können wir die PHP-Funktion <code>strip_tags()</code> verwenden, um alle Tags in HTML zu entfernen, und die Funktion <code>trim()</code> verwenden, um Leerzeichen an beiden Enden der Zeichenfolge zu entfernen . 🎜rrreee🎜Endlich können wir den gesamten Textinhalt in HTML abrufen. 🎜🎜Der vollständige Code lautet wie folgt: 🎜rrreee🎜Zusammenfassung🎜🎜Die Verwendung regulärer PHP-Ausdrücke zum Extrahieren von Textinhalten in HTML ist eine häufige Operation. Durch die Einführung der oben genannten Schritte können wir diese Funktion einfach implementieren. Es ist jedoch zu beachten, dass reguläre Ausdrücke nur ein grundlegendes Matching-Tool sind. Für komplexe HTML-Fragmente sind möglicherweise komplexere Matching-Methoden erforderlich, um Textinhalte zu extrahieren. 🎜</ol>

Das obige ist der detaillierte Inhalt vonReguläre PHP-Ausdrücke: So extrahieren Sie den gesamten Textinhalt in HTML. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage