基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)_PHP教程
1、使用curl实现站外采集
具体请参考我上一篇笔记:http://www.jb51.net/article/46432.htm
2、编码转换
首先通过查看源代码找到采集的网站使用的编码,通过mb_convert_encoding函数进行转码;
具体使用方法:
//源字符是$str
//以下已知原编码为GBK,转换为utf-8
mb_convert_encoding($str, "UTF-8", "GBK");
//以下未知原编码,通过auto自动检测后,转换编码为utf-8
mb_convert_encoding($str, "UTF-8", "auto");
3、为更好地避开换行符和空格等不定因素的阻碍,有必要先清除采集到的源码中的换行符、空格符和制表符
//方法一,使用str_replace进行替换
$contents = str_replace("\r\n", '', $contents); //清除换行符
$contents = str_replace("\n", '', $contents); //清除换行符
$contents = str_replace("\t", '', $contents); //清除制表符
$contents = str_replace(" ", '', $contents); //清除空格符
//方法二,使用正则表达式进行替换
$contents = preg_replace("/([\r\n|\n|\t| ]+)/",'',$contents);
4、通过正则表达式匹配找出需要获得的代码段,使用preg_match_all实现该匹配
函数解释:
int preg_match_all ( string pattern, string subject, array matches [, int flags] )
pattern即正规表达式
subject即要进行查找的原文
matches是用于储存输出结果的数组
flags是储存的模式,包括:
PREG_PATTERN_ORDER; //整个数组是二维数组,$arr1[0]是包括边界所构成匹配字符串的数组,$arr1[1]除去边界所构成的匹配字符串的数组
PREG_SET_ORDER; //整个数组是二维数组,$arr2[0][0]是第一个包括边界所构成的匹配的字符串,$arr2[0][1]是第一个除去边界所构成的匹配的字符串,之后的数组以此类推
PREG_OFFSET_CAPTURE; //整个数组是三维数组,$arr3[0][0][0]是第一个包括边界所构成的匹配的字符串,$arr3[0][0][1]是到达第一个匹配字符串的边界的偏移量(边界不算在内),之后以此类推,$arr2[1][0][0]是第一个包括边界所构成的匹配的字符串,$arr3[1][0][1]是到达第一个匹配字符串的边界的偏移量(边界算在内);
//实际应用
preg_match_all('/
$out将获取到所有匹配的元素
$out[0][0]将是包括
$out[0][1]将是仅包括(.*?)括号内所匹配到的字符段
//如此类推,第n个匹配到的字段可以用以下方法取得
$out[n-1][1]
//若正则表达式中存大多个括号,则取得句中第m个匹配点的方法是
$out[n-1][m]
5、取得要找到字符后,若要去掉html标签,使用PHP自带的函数strip_tags即可方便地实现
//例
$result=strip_tags($out[0][1]);

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Cara menggaris pada komputer Apabila memasukkan teks pada komputer, kita selalunya perlu menggunakan garis bawah untuk menyerlahkan kandungan tertentu atau menandakannya. Walau bagaimanapun, bagi sesetengah orang yang tidak begitu biasa dengan kaedah input komputer, menaip garis bawah boleh menjadi agak mengelirukan. Artikel ini akan memperkenalkan anda kepada cara menggariskan pada komputer anda. Dalam sistem pengendalian komputer dan perisian yang berbeza, cara untuk memasukkan garis bawah mungkin sedikit berbeza. Berikut akan memperkenalkan kaedah biasa pada sistem pengendalian Windows dan sistem pengendalian Mac masing-masing. Mula-mula, mari kita lihat operasi dalam Windows

Ungkapan biasa PHP ialah alat yang berkuasa untuk pemprosesan dan penukaran teks. Ia boleh mengurus maklumat teks dengan berkesan dengan menghuraikan kandungan teks dan menggantikan atau memintasnya mengikut corak tertentu. Antaranya, aplikasi biasa ungkapan biasa adalah untuk menggantikan rentetan bermula dengan aksara tertentu Kami akan menerangkannya seperti berikut

Ungkapan biasa Golang menggunakan aksara paip | untuk memadankan berbilang perkataan atau rentetan, memisahkan setiap pilihan sebagai ungkapan OR logik. Contohnya: padanan "musang" atau "anjing": musang|padanan anjing "cepat", "coklat" atau "malas": (cepat|coklat|malas) sepadan dengan "Pergi", "Python" atau "Java": Pergi| Python |Java memadankan perkataan atau kod zip 4 digit: ([a-zA

Cara mengalih keluar bahasa Cina menggunakan peraturan biasa dalam PHP: 1. Buat fail contoh PHP 2. Tentukan rentetan yang mengandungi bahasa Cina dan Inggeris 3. Gunakan "preg_replace('/([\x80-\xff]*)/i'; '',$a);" Kaedah biasa boleh mengalih keluar aksara Cina daripada hasil pertanyaan.

Dalam artikel ini, kita akan belajar cara mengalih keluar teg HTML dan mengekstrak kandungan teks biasa daripada rentetan HTML menggunakan ungkapan biasa PHP. Untuk menunjukkan cara mengalih keluar teg HTML, mari kita tentukan rentetan yang mengandungi teg HTML dahulu.

Sebagai bahasa pengaturcaraan yang berkuasa, Golang mempunyai prestasi tinggi dan keupayaan serentak, dan juga menyediakan sokongan perpustakaan standard yang kaya, termasuk sokongan untuk penukaran pengekodan. Artikel ini akan meneroka secara mendalam prinsip pelaksanaan penukaran pengekodan di Golang dan menganalisisnya dengan contoh kod khusus. Apakah transcoding? Penukaran pengekodan merujuk kepada proses menukar jujukan aksara daripada satu pengekodan kepada pengekodan yang lain. Dalam pembangunan sebenar, kita selalunya perlu mengendalikan penukaran antara pengekodan yang berbeza, seperti menukar rentetan yang dikodkan UTF-8.

Mempelajari fungsi penukaran pengekodan dedecms tidak rumit Contoh kod mudah boleh membantu anda menguasai kemahiran ini dengan cepat. Dalam dedecms, fungsi penukaran pengekodan biasanya digunakan untuk menangani masalah seperti aksara Cina yang kacau dan aksara khas untuk memastikan operasi normal sistem dan ketepatan data. Berikut akan memperkenalkan secara terperinci cara menggunakan fungsi penukaran pengekodan dedecms, membolehkan anda mengatasi pelbagai keperluan berkaitan pengekodan dengan mudah. 1.UTF-8 kepada GBK Dalam dedecms, jika anda perlu menukar rentetan dikodkan UTF-8 kepada G

Cara menangani isu penukaran pengekodan dalam pembangunan C++ Semasa proses pembangunan C++, kami sering menghadapi masalah yang memerlukan penukaran antara pengekodan yang berbeza. Oleh kerana terdapat perbezaan antara format pengekodan yang berbeza, anda perlu memberi perhatian kepada beberapa butiran semasa melakukan penukaran pengekodan. Artikel ini akan memperkenalkan cara menangani isu penukaran pengekodan dalam pembangunan C++. 1. Fahami format pengekodan yang berbeza Sebelum menangani isu penukaran pengekodan, anda perlu terlebih dahulu memahami format pengekodan yang berbeza. Format pengekodan biasa termasuk ASCII, UTF-8, GBK, dsb. ASCII ialah format pengekodan terawal
