PHP:preg_replace_callback匹配中文的问题
代码:
<code>$html = preg_replace_callback("/(?<chinese>[\x{4e00}-\x{9fa5}]+)/u",array("self","wyc_chinese"),$html); ... 省略 ... public function wyc_chinese($matches) { return $matches['chinese'].'(Chinese)'; } </chinese></code>
问题:
$html为要提取的网页数据
如果$html是utf8编码的,则以上代码能正常执行(即能正常提取中文),但如果是其他编码的,则没法正常执行(无法匹配到汉字)
使用iconv转换$html的编码格式,也无法正常提取中文。
回复内容:
代码:
<code>$html = preg_replace_callback("/(?<chinese>[\x{4e00}-\x{9fa5}]+)/u",array("self","wyc_chinese"),$html); ... 省略 ... public function wyc_chinese($matches) { return $matches['chinese'].'(Chinese)'; } </chinese></code>
问题:
$html为要提取的网页数据
如果$html是utf8编码的,则以上代码能正常执行(即能正常提取中文),但如果是其他编码的,则没法正常执行(无法匹配到汉字)
使用iconv转换$html的编码格式,也无法正常提取中文。
以<meta charset="utf-8">
来识别编码是错误的.有些网页没有写meta,对于现代浏览器也会正常显示的(IE6有问题,IE7,IE8没测~)
应该根据HTTP响应头Content-Type: text/html; charset=UTF-8
来判断.如果没有返回charset
,就根据内容来自行判断了..
为了方便,最好将html转换为UTF-8
来进行正则匹配.
<?php //编辑器的编码格式为UTF-8(无BOM) $remote_url = 'http://segmentfault.com/q/1010000000450422'; $context = stream_context_create([ 'http' => [ 'method' => 'GET', ], ]); $html = file_get_contents($remote_url, false, $context); $html_encoding = mb_detect_encoding($html, ['UTF-8', 'CP936', 'ASCII']); //转换为UTF-8 $target_encoding = 'UTF-8'; $html = $target_encoding === $html_encoding ? $html : mb_convert_encoding($html, $target_encoding, $html_encoding); //匹配 $count = preg_match_all('#[\x{4e00}-\x{9fa5}]+#u', $html, $matches); var_dump($matches);
你这问题的核心是网页编码转换成UTF-8
你说源编码是"根据meta标签的charset字段来判断的"
我也是这样子做的, 不过我成功.
你没给出详尽代码,我不知道是你的代码哪里出错了,还是纯粹是我的人品比你好.
<code>require_once(__DIR__.'/wp-config.php'); $resp = wp_remote_get('http://51nb.com/'); $html = $resp['body']; preg_match('@charset=([-a-z0-9_]+)@i',$html,$charset); $html = iconv(strtoupper($charset[1]), "UTF-8", $html); preg_match_all("@\p{Han}+@u",$html,$m); echo '<meta charset="UTF-8" />'; print_r($m); exit; </code>
使用以上代码的iconv
不使用以上代码的iconv

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

PHP 8.4 帶來了多項新功能、安全性改進和效能改進,同時棄用和刪除了大量功能。 本指南介紹如何在 Ubuntu、Debian 或其衍生版本上安裝 PHP 8.4 或升級到 PHP 8.4

CakePHP 是 PHP 的開源框架。它旨在使應用程式的開發、部署和維護變得更加容易。 CakePHP 基於類似 MVC 的架構,功能強大且易於掌握。模型、視圖和控制器 gu

Visual Studio Code,也稱為 VS Code,是一個免費的原始碼編輯器 - 或整合開發環境 (IDE) - 可用於所有主要作業系統。 VS Code 擁有大量針對多種程式語言的擴展,可以輕鬆編寫

CakePHP 是一個開源MVC 框架。它使應用程式的開發、部署和維護變得更加容易。 CakePHP 有許多函式庫可以減少大多數常見任務的過載。

本教程演示瞭如何使用PHP有效地處理XML文檔。 XML(可擴展的標記語言)是一種用於人類可讀性和機器解析的多功能文本標記語言。它通常用於數據存儲
