基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)

首页

后端开发

php教程

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)_php技巧

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 17, 2016 am 08:50 AM

正则编码转换

1、使用curl实现站外采集

具体请参考我上一篇笔记：http://www.jb51.net/article/46432.htm

2、编码转换
首先通过查看源代码找到采集的网站使用的编码，通过mb_convert_encoding函数进行转码；

具体使用方法：

复制代码代码如下:

//源字符是$str 

//以下已知原编码为GBK，转换为utf-8 
mb_convert_encoding($str, "UTF-8", "GBK"); 

//以下未知原编码，通过auto自动检测后，转换编码为utf-8 
mb_convert_encoding($str, "UTF-8", "auto");

3、为更好地避开换行符和空格等不定因素的阻碍，有必要先清除采集到的源码中的换行符、空格符和制表符

复制代码代码如下:

//方法一，使用str_replace进行替换 
$contents = str_replace("\r\n", '', $contents); //清除换行符 
$contents = str_replace("\n", '', $contents); //清除换行符 
$contents = str_replace("\t", '', $contents); //清除制表符 
$contents = str_replace(" ", '', $contents); //清除空格符 

//方法二，使用正则表达式进行替换 
$contents = preg_replace("/([\r\n|\n|\t| ]+)/",'',$contents);

4、通过正则表达式匹配找出需要获得的代码段，使用preg_match_all实现该匹配

复制代码代码如下:

函数解释： 
int preg_match_all ( string pattern, string subject, array matches [, int flags] ) 
pattern即正规表达式 
subject即要进行查找的原文 
matches是用于储存输出结果的数组 
flags是储存的模式，包括： 
    PREG_PATTERN_ORDER;  //整个数组是二维数组，$arr1[0]是包括边界所构成匹配字符串的数组，$arr1[1]除去边界所构成的匹配字符串的数组 
    PREG_SET_ORDER;  //整个数组是二维数组，$arr2[0][0]是第一个包括边界所构成的匹配的字符串，$arr2[0][1]是第一个除去边界所构成的匹配的字符串，之后的数组以此类推 
    PREG_OFFSET_CAPTURE;  //整个数组是三维数组，$arr3[0][0][0]是第一个包括边界所构成的匹配的字符串，$arr3[0][0][1]是到达第一个匹配字符串的边界的偏移量（边界不算在内），之后以此类推，$arr2[1][0][0]是第一个包括边界所构成的匹配的字符串，$arr3[1][0][1]是到达第一个匹配字符串的边界的偏移量（边界算在内）; 

//实际应用 
preg_match_all('/(.*?)/',$contents, $out, PREG_SET_ORDER); 
$out将获取到所有匹配的元素 
$out[0][0]将是包括在内的全段字符 
$out[0][1]将是仅包括(.*?)括号内所匹配到的字符段 

//如此类推，第n个匹配到的字段可以用以下方法取得 
$out[n-1][1] 

//若正则表达式中存大多个括号，则取得句中第m个匹配点的方法是 
$out[n-1][m]

5、取得要找到字符后，若要去掉html标签，使用PHP自带的函数strip_tags即可方便地实现

复制代码代码如下:

//例 
$result=strip_tags($out[0][1]);

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7622

CakePHP 教程

1389

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

138

显示更多

Related knowledge

如何在电脑上输入下划线 Feb 19, 2024 pm 08:36 PM

电脑下划线怎么打在电脑输入文字时，我们经常需要使用下划线来突出某些内容或进行标记。然而，对于一些不太熟悉电脑输入法的人来说，打出下划线可能会有些困惑。本文就将向大家介绍如何在电脑上打出下划线。在不同的电脑操作系统和软件中，输入下划线的方式可能会稍有不同。下面将分别介绍Windows操作系统和Mac操作系统上的常用方法。首先，我们先来看一下在Windows操作

如何用php正则替换以什么开头的字符串 Mar 24, 2023 pm 02:57 PM

PHP正则表达式是一种针对文本处理和转换的有力工具。它可以通过解析文本内容，并按照特定的模式进行替换或截取，达到有效管理文本信息的目的。其中，正则表达式的一个常见应用是替换以特定字符开头的字符串，对此，我们进行如下的讲解

如何用 Golang 正则匹配多个单词或字符串？ May 31, 2024 am 10:32 AM

php 如何用正则去除中文 Mar 03, 2023 am 10:12 AM

php用正则去除中文的方法：1、创建一个php示例文件；2、定义一个含有中文和英文的字符串；3、通过“preg_replace('/([\x80-\xff]*)/i','',$a);”正则方法去除查询结果中的中文字符即可。

php怎么利用正则匹配去掉html标签 Mar 21, 2023 pm 05:17 PM

在本文中，我们将学习如何使用PHP正则表达式删除HTML标签，并从HTML字符串中提取纯文本内容。为了演示如何去掉HTML标记，让我们首先定义一个包含HTML标签的字符串。

探究golang编码转换的实现机制 Feb 19, 2024 pm 03:21 PM

Golang作为一种强大的编程语言，具有较高的性能和并发能力，同时也提供了丰富的标准库支持，其中包括了对编码转换的支持。本文将深入探讨Golang中编码转换的实现原理，并结合具体的代码示例进行分析。什么是编码转换？编码转换指的是将一个字符序列从一种编码转换为另一种编码的过程。在实际的开发中，我们经常需要处理不同编码之间的转换，比如将UTF-8编码的字符串转换

简单学习dedecms编码转换功能的方法 Mar 14, 2024 pm 02:09 PM

学习dedecms编码转换功能并不复杂，通过简单的代码示例，可以帮助您快速掌握这一技能。在dedecms中，编码转换功能通常用于处理中文乱码、特殊字符等问题，确保系统的正常运行和数据的准确性。下面将详细介绍如何使用dedecms的编码转换功能，让您轻松应对各种编码相关的需求。1.UTF-8转GBK在dedecms中，如果需要将UTF-8编码的字符串转换为G

MySql的Ascii和UTF-8编码：如何压缩和转换MySQL的字符编码 Jun 16, 2023 pm 12:07 PM

在MySQL数据库中，字符编码是非常重要的一个概念。字符编码指的是将字符映射成二进制数据的方式。MySQL中支持的字符编码种类有多种，最常用的是Ascii编码和UTF-8编码。这两种字符编码在MySQL中起到了非常重要的作用，因为MySQL中的数据是以字符形式存储的，而字符编码的选择可能会影响到数据库的性能和空间。Ascii编码是一种基于拉丁字母的编码方式，

See all articles

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)_php技巧

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题