Rumah pembangunan bahagian belakang tutorial php 基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)_PHP教程

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)_PHP教程

Jul 13, 2016 am 10:39 AM
match biasa transcoding

1、使用curl实现站外采集

具体请参考我上一篇笔记:http://www.jb51.net/article/46432.htm

2、编码转换
首先通过查看源代码找到采集的网站使用的编码,通过mb_convert_encoding函数进行转码;

具体使用方法:

复制代码 代码如下:

//源字符是$str

//以下已知原编码为GBK,转换为utf-8
mb_convert_encoding($str, "UTF-8", "GBK");

//以下未知原编码,通过auto自动检测后,转换编码为utf-8
mb_convert_encoding($str, "UTF-8", "auto");

3、为更好地避开换行符和空格等不定因素的阻碍,有必要先清除采集到的源码中的换行符、空格符和制表符

复制代码 代码如下:

//方法一,使用str_replace进行替换
$contents = str_replace("\r\n", '', $contents); //清除换行符
$contents = str_replace("\n", '', $contents); //清除换行符
$contents = str_replace("\t", '', $contents); //清除制表符
$contents = str_replace(" ", '', $contents); //清除空格符

//方法二,使用正则表达式进行替换
$contents = preg_replace("/([\r\n|\n|\t| ]+)/",'',$contents);

4、通过正则表达式匹配找出需要获得的代码段,使用preg_match_all实现该匹配

复制代码 代码如下:

函数解释:
int preg_match_all ( string pattern, string subject, array matches [, int flags] )
pattern即正规表达式
subject即要进行查找的原文
matches是用于储存输出结果的数组
flags是储存的模式,包括:
    PREG_PATTERN_ORDER;  //整个数组是二维数组,$arr1[0]是包括边界所构成匹配字符串的数组,$arr1[1]除去边界所构成的匹配字符串的数组
    PREG_SET_ORDER;  //整个数组是二维数组,$arr2[0][0]是第一个包括边界所构成的匹配的字符串,$arr2[0][1]是第一个除去边界所构成的匹配的字符串,之后的数组以此类推
    PREG_OFFSET_CAPTURE;  //整个数组是三维数组,$arr3[0][0][0]是第一个包括边界所构成的匹配的字符串,$arr3[0][0][1]是到达第一个匹配字符串的边界的偏移量(边界不算在内),之后以此类推,$arr2[1][0][0]是第一个包括边界所构成的匹配的字符串,$arr3[1][0][1]是到达第一个匹配字符串的边界的偏移量(边界算在内);

//实际应用
preg_match_all('/(.*?)/',$contents, $out, PREG_SET_ORDER);
$out将获取到所有匹配的元素
$out[0][0]将是包括在内的全段字符
$out[0][1]将是仅包括(.*?)括号内所匹配到的字符段

//如此类推,第n个匹配到的字段可以用以下方法取得
$out[n-1][1]

//若正则表达式中存大多个括号,则取得句中第m个匹配点的方法是
$out[n-1][m]

5、取得要找到字符后,若要去掉html标签,使用PHP自带的函数strip_tags即可方便地实现

复制代码 代码如下:

//例
$result=strip_tags($out[0][1]);

www.bkjia.comtruehttp://www.bkjia.com/PHPjc/728086.htmlTechArticle1、使用curl实现站外采集 具体请参考我上一篇笔记:http://www.jb51.net/article/46432.htm 2、编码转换 首先通过查看源代码找到采集的网站使用的编...
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

Repo: Cara menghidupkan semula rakan sepasukan
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara menaip garis bawah pada komputer Cara menaip garis bawah pada komputer Feb 19, 2024 pm 08:36 PM

Cara menggaris pada komputer Apabila memasukkan teks pada komputer, kita selalunya perlu menggunakan garis bawah untuk menyerlahkan kandungan tertentu atau menandakannya. Walau bagaimanapun, bagi sesetengah orang yang tidak begitu biasa dengan kaedah input komputer, menaip garis bawah boleh menjadi agak mengelirukan. Artikel ini akan memperkenalkan anda kepada cara menggariskan pada komputer anda. Dalam sistem pengendalian komputer dan perisian yang berbeza, cara untuk memasukkan garis bawah mungkin sedikit berbeza. Berikut akan memperkenalkan kaedah biasa pada sistem pengendalian Windows dan sistem pengendalian Mac masing-masing. Mula-mula, mari kita lihat operasi dalam Windows

Bagaimana untuk menggantikan rentetan bermula dengan apa dengan ungkapan biasa php Bagaimana untuk menggantikan rentetan bermula dengan apa dengan ungkapan biasa php Mar 24, 2023 pm 02:57 PM

Ungkapan biasa PHP ialah alat yang berkuasa untuk pemprosesan dan penukaran teks. Ia boleh mengurus maklumat teks dengan berkesan dengan menghuraikan kandungan teks dan menggantikan atau memintasnya mengikut corak tertentu. Antaranya, aplikasi biasa ungkapan biasa adalah untuk menggantikan rentetan bermula dengan aksara tertentu Kami akan menerangkannya seperti berikut

Bagaimana untuk memadankan berbilang perkataan atau rentetan menggunakan ungkapan biasa Golang? Bagaimana untuk memadankan berbilang perkataan atau rentetan menggunakan ungkapan biasa Golang? May 31, 2024 am 10:32 AM

Ungkapan biasa Golang menggunakan aksara paip | untuk memadankan berbilang perkataan atau rentetan, memisahkan setiap pilihan sebagai ungkapan OR logik. Contohnya: padanan "musang" atau "anjing": musang|padanan anjing "cepat", "coklat" atau "malas": (cepat|coklat|malas) sepadan dengan "Pergi", "Python" atau "Java": Pergi| Python |Java memadankan perkataan atau kod zip 4 digit: ([a-zA

Cara menggunakan ungkapan biasa untuk mengalih keluar aksara Cina dalam php Cara menggunakan ungkapan biasa untuk mengalih keluar aksara Cina dalam php Mar 03, 2023 am 10:12 AM

Cara mengalih keluar bahasa Cina menggunakan peraturan biasa dalam PHP: 1. Buat fail contoh PHP 2. Tentukan rentetan yang mengandungi bahasa Cina dan Inggeris 3. Gunakan "preg_replace('/([\x80-\xff]*)/i'; '',$a);" Kaedah biasa boleh mengalih keluar aksara Cina daripada hasil pertanyaan.

Bagaimana untuk menggunakan pemadanan biasa untuk mengalih keluar tag html dalam php Bagaimana untuk menggunakan pemadanan biasa untuk mengalih keluar tag html dalam php Mar 21, 2023 pm 05:17 PM

Dalam artikel ini, kita akan belajar cara mengalih keluar teg HTML dan mengekstrak kandungan teks biasa daripada rentetan HTML menggunakan ungkapan biasa PHP. Untuk menunjukkan cara mengalih keluar teg HTML, mari kita tentukan rentetan yang mengandungi teg HTML dahulu.

Terokai mekanisme pelaksanaan penukaran pengekodan golang Terokai mekanisme pelaksanaan penukaran pengekodan golang Feb 19, 2024 pm 03:21 PM

Sebagai bahasa pengaturcaraan yang berkuasa, Golang mempunyai prestasi tinggi dan keupayaan serentak, dan juga menyediakan sokongan perpustakaan standard yang kaya, termasuk sokongan untuk penukaran pengekodan. Artikel ini akan meneroka secara mendalam prinsip pelaksanaan penukaran pengekodan di Golang dan menganalisisnya dengan contoh kod khusus. Apakah transcoding? Penukaran pengekodan merujuk kepada proses menukar jujukan aksara daripada satu pengekodan kepada pengekodan yang lain. Dalam pembangunan sebenar, kita selalunya perlu mengendalikan penukaran antara pengekodan yang berbeza, seperti menukar rentetan yang dikodkan UTF-8.

Cara mudah untuk mempelajari fungsi penukaran pengekodan dedecms Cara mudah untuk mempelajari fungsi penukaran pengekodan dedecms Mar 14, 2024 pm 02:09 PM

Mempelajari fungsi penukaran pengekodan dedecms tidak rumit Contoh kod mudah boleh membantu anda menguasai kemahiran ini dengan cepat. Dalam dedecms, fungsi penukaran pengekodan biasanya digunakan untuk menangani masalah seperti aksara Cina yang kacau dan aksara khas untuk memastikan operasi normal sistem dan ketepatan data. Berikut akan memperkenalkan secara terperinci cara menggunakan fungsi penukaran pengekodan dedecms, membolehkan anda mengatasi pelbagai keperluan berkaitan pengekodan dengan mudah. 1.UTF-8 kepada GBK Dalam dedecms, jika anda perlu menukar rentetan dikodkan UTF-8 kepada G

Bagaimana untuk menangani masalah penukaran pengekodan dalam pembangunan C++ Bagaimana untuk menangani masalah penukaran pengekodan dalam pembangunan C++ Aug 22, 2023 am 11:07 AM

Cara menangani isu penukaran pengekodan dalam pembangunan C++ Semasa proses pembangunan C++, kami sering menghadapi masalah yang memerlukan penukaran antara pengekodan yang berbeza. Oleh kerana terdapat perbezaan antara format pengekodan yang berbeza, anda perlu memberi perhatian kepada beberapa butiran semasa melakukan penukaran pengekodan. Artikel ini akan memperkenalkan cara menangani isu penukaran pengekodan dalam pembangunan C++. 1. Fahami format pengekodan yang berbeza Sebelum menangani isu penukaran pengekodan, anda perlu terlebih dahulu memahami format pengekodan yang berbeza. Format pengekodan biasa termasuk ASCII, UTF-8, GBK, dsb. ASCII ialah format pengekodan terawal

See all articles