Rumah pembangunan bahagian belakang tutorial php PHP抽取网页标题并剔除不相关的seo关键字_PHP教程

PHP抽取网页标题并剔除不相关的seo关键字_PHP教程

Jul 13, 2016 pm 05:44 PM
php seo Kata kunci wujud tempat kejadian kami ekstrak tajuk daripada laman web

场景描述:

  过往我们在抽取网页标题的时候,都会直接抽取 之间的内容. 但实际情况是这样,例如javaeye 的一篇文章 http://www.iteye.com/news/21643 ,  的内容为 "10年软件开发教会我最重要的10件事 - 非技术 - ITeye资讯", 但实际引用中我们期望的标题应该为 "10年软件开发教会我最重要的10件事". 所以标题后面堆砌了很多不相关的关键字(应该是为了  seo 吧). 所以我们希望过滤掉这些关键字. 有下面的方法可以参考:


1. 查找 h1 等标签.(分析sina news 一些网站之后, 觉得不可行,会有很多干扰)

2. 从全文去标题后,将 之间的内容切割(按 _ | -)为 a1,a2,a3,a4,然后从最长的词组a3开始从全文查找. 如果查找成功,那么开始向左边迭代查询 a2,a1,直到查询失败为止 。左侧失败后,再继续向右迭代,同理. (这里我采用的是这种方法)


Php代码 
/** 
 * @author pqcc  
 * @date: 2011-06-18 
 * Description: 给定一个网页内容,提取网页的标题. 提取的标题不包括 seo 关键字. 
 * e.g: 一篇新闻标题的从直接抽取结果为 "大学英语四六级本周六开考 909万人参考_新浪教育_新浪网",  <br> *       但我们希望的结果是:"大学英语四六级本周六开考 909万人参考".  <br> * 适用范围:  文章最终页标题的提取, 不包括专题页等.  <br> */  <br>  <br>class TitlePurify{   <br>  <br>    private $matches_preg = [-_s|—];   <br>  <br>    function getTitle($contents){/*{{{*/  <br>        $preg = "/<title>]*>([w| ||W]*?)/i";  
        preg_match($preg, $contents, $matches);  
        if(count($matches)            return "标题抽取失败";  
        }  
        $title = $matches[1];  
        return $this->trimTitle($title, $contents);  
    }/*}}}*/ 
 
    function trimMeta($contents){/*{{{*/ 
        // 首先去除 内容, <meta> 内容.   <br>        $preg       = "/<title>]*>([w| ||W]*?)/i";  
        $contents   = preg_replace($preg, , $contents);  
        $preg       = "/]*>/i";  
        $contents   = preg_replace($preg, , $contents);  
        return $contents;  
    }/*}}}*/ 
 
 
    // 获取长度最长的 item 所处的index.  
    function getMaxIndex($titles){/*{{{*/ 
        $maxItemIndex   = 0;  
        $maxLength      = 0;  
        $loop           = 0;  
        foreach($titles as $item){  
            if(strlen($item)>$maxLength){  
                $maxLength      = strlen($item);  
                $maxItemIndex   = $loop;  
            }          
            $loop++;  
        }  
        return $maxItemIndex;  
    }/*}}}*/ 
 
    function trim($title, $titles, $contents, $maxItemIndex){/*{{{*/ 
        //@todo : 此处可优化contents  
        // 如果查找成功. result = tempTitle.   
        $tempTitle  = $titles[$maxItemIndex];  
        $result     = $tempTitle;  
        $count      = count($titles);  
        // while 从当前index 向左进行迭代(直到到达第一个或者匹配失败才中止).  
        $leftIndex  = $maxItemIndex-1;  
        while(true && $leftIndex>=0){  
            // tempTitle+左一个.  
            preg_match("/({$this->matches_preg}+{$tempTitle})/i", $title, $matches);  
            if(count($matches)>1){  
                // temp 用于匹配失败后,进行回滚.  
                $temp       = $titles[$leftIndex] . $matches[1];  
                $tempTitle  = $titles[$leftIndex] . $matches[1];  
                // 继续拿着 tempTitle 去匹配.  
                preg_match("/$tempTitle/i", $contents, $matches);  
                // 如果查找失败....  
                if(count($matches)                    $tempTitle = $temp;  
                    break;  
                }else{  
                    $result = $tempTitle;  
                }  
            }else{ // 正常情况下, 不会出现该情况.  
                break;  
            }  
            $leftIndex--;&

www.bkjia.comtruehttp://www.bkjia.com/PHPjc/478770.htmlTechArticle场景描述: 过往我们在抽取网页标题的时候,都会直接抽取 之间的内容. 但实际情况是这样,例如javaeye 的一篇文章 http://www.iteye.com/news/2164...
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Dec 24, 2024 pm 04:42 PM

PHP 8.4 membawa beberapa ciri baharu, peningkatan keselamatan dan peningkatan prestasi dengan jumlah penamatan dan penyingkiran ciri yang sihat. Panduan ini menerangkan cara memasang PHP 8.4 atau naik taraf kepada PHP 8.4 pada Ubuntu, Debian, atau terbitan mereka

Tarikh dan Masa CakePHP Tarikh dan Masa CakePHP Sep 10, 2024 pm 05:27 PM

Untuk bekerja dengan tarikh dan masa dalam cakephp4, kami akan menggunakan kelas FrozenTime yang tersedia.

CakePHP Bekerja dengan Pangkalan Data CakePHP Bekerja dengan Pangkalan Data Sep 10, 2024 pm 05:25 PM

Bekerja dengan pangkalan data dalam CakePHP adalah sangat mudah. Kami akan memahami operasi CRUD (Buat, Baca, Kemas Kini, Padam) dalam bab ini.

Muat naik Fail CakePHP Muat naik Fail CakePHP Sep 10, 2024 pm 05:27 PM

Untuk mengusahakan muat naik fail, kami akan menggunakan pembantu borang. Di sini, adalah contoh untuk muat naik fail.

Penghalaan CakePHP Penghalaan CakePHP Sep 10, 2024 pm 05:25 PM

Dalam bab ini, kita akan mempelajari topik berikut yang berkaitan dengan penghalaan ?

Bincangkan CakePHP Bincangkan CakePHP Sep 10, 2024 pm 05:28 PM

CakePHP ialah rangka kerja sumber terbuka untuk PHP. Ia bertujuan untuk menjadikan pembangunan, penggunaan dan penyelenggaraan aplikasi lebih mudah. CakePHP adalah berdasarkan seni bina seperti MVC yang berkuasa dan mudah difahami. Model, Pandangan dan Pengawal gu

Pengesah Mencipta CakePHP Pengesah Mencipta CakePHP Sep 10, 2024 pm 05:26 PM

Pengesah boleh dibuat dengan menambah dua baris berikut dalam pengawal.

Pembalakan CakePHP Pembalakan CakePHP Sep 10, 2024 pm 05:26 PM

Log masuk CakePHP adalah tugas yang sangat mudah. Anda hanya perlu menggunakan satu fungsi. Anda boleh log ralat, pengecualian, aktiviti pengguna, tindakan yang diambil oleh pengguna, untuk sebarang proses latar belakang seperti cronjob. Mengelog data dalam CakePHP adalah mudah. Fungsi log() disediakan

See all articles