PHP 抽取网页题目并剔除不相关的seo关键字
PHP 抽取网页标题并剔除不相关的seo关键字
场景描述:
过往我们在抽取网页标题的时候,都会直接抽取 之间的内容. 但实际情况是这样,例如javaeye 的一篇文章 http://www.iteye.com/news/21643 , 的内容为 "10年软件开发教会我最重要的10件事 - 非技术 - ITeye资讯", 但实际引用中我们期望的标题应该为 "10年软件开发教会我最重要的10件事". 所以标题后面堆砌了很多不相关的关键字(应该是为了 seo 吧). 所以我们希望过滤掉这些关键字. 有下面的方法可以参考:
1. 查找 h1 等标签.(分析sina news 一些网站之后, 觉得不可行,会有很多干扰)
2. 从全文去标题后,将 之间的内容切割(按 _ | -)为 a1,a2,a3,a4,然后从最长的词组a3开始从全文查找. 如果查找成功,那么开始向左边迭代查询 a2,a1,直到查询失败为止 。左侧失败后,再继续向右迭代,同理. (这里我采用的是这种方法)
<?php /** * @author pqcc <[email protected]> * @date: 2011-06-18 * Description: 给定一个网页内容,提取网页的标题. 提取的标题不包括 seo 关键字. * e.g: 一篇新闻标题的从<title>直接抽取结果为 "大学英语四六级本周六开考 909万人参考_新浪教育_新浪网", * 但我们希望的结果是:"大学英语四六级本周六开考 909万人参考". * 适用范围: 文章最终页标题的提取, 不包括专题页等. */class TitlePurify{ private $matches_preg = '[-_\s|—]'; function getTitle($contents){/*{{{*/ $preg = "/<title>]*>([\w|\t|\r|\W]*?)/i"; preg_match($preg, $contents, $matches); if(count($matches)trimTitle($title, $contents); }/*}}}*/ function trimMeta($contents){/*{{{*/ // 首先去除 <title> 内容, <meta> 内容. $preg = "/<title>]*>([\w|\t|\r|\W]*?)/i"; $contents = preg_replace($preg, '', $contents); $preg = "/<meta>]*>/i"; $contents = preg_replace($preg, '', $contents); return $contents; }/*}}}*/ // 获取长度最长的 item?所处的index. function getMaxIndex($titles){/*{{{*/ $maxItemIndex = 0; $maxLength = 0; $loop = 0; foreach($titles as $item){ if(strlen($item)>$maxLength){ $maxLength = strlen($item); $maxItemIndex = $loop; } $loop++; } return $maxItemIndex; }/*}}}*/ function trim($title, $titles, $contents, $maxItemIndex){/*{{{*/ [email protected] : 此处可优化contents // 如果查找成功. result = tempTitle. $tempTitle = $titles[$maxItemIndex]; $result = $tempTitle; $count = count($titles); // while 从当前index 向左进行迭代(直到到达第一个或者匹配失败才中止). $leftIndex = $maxItemIndex-1; while(true && $leftIndex>=0){ // tempTitle+左一个. preg_match("/({$this->matches_preg}+{$tempTitle})/i", $title, $matches); if(count($matches)>1){ // temp 用于匹配失败后,进行回滚. $temp = $titles[$leftIndex] . $matches[1]; $tempTitle = $titles[$leftIndex] . $matches[1]; // 继续拿着 tempTitle 去匹配. preg_match("/$tempTitle/i", $contents, $matches); // 如果查找失败.... if(count($matches)matches_preg}+)/i", $title, $matches); if(count($matches)>1){ // temp 用于匹配失败后,进行回滚. $temp = $matches[1] . $titles[$rightIndex]; $tempTitle = $matches[1] . $titles[$rightIndex]; // 继续拿着 tempTitle 去匹配. preg_match("/$tempTitle/i", $contents, $matches); // 如果查找失败.... if(count($matches)trimMeta($contents); // 配置切割标题的规则. $titles = preg_split("/$this->matches_preg/i", $title); $count = count($titles); //var_dump($titles);exit; // 将当前最长的 item 从全文查找. $maxItemIndex = $this->getMaxIndex($titles); $tempTitle = $titles[$maxItemIndex]; preg_match("/$tempTitle/i", $contents, $matches); // 如果查找失败.... if(count($matches)trim($title, $titles, $contents, $maxItemIndex); }/*}}}*/}// ------------- test code ------------------------------function convertEncoding($contents){ preg_match("/charset=([\w|\-]+);?/i", $contents, $match); $charset = isset($match[1])? $match[1] : 'UTF-8'; $contents = mb_convert_encoding($contents, 'UTF-8', $charset); return $contents;}$url = 'http://china.nba.com/news/4/2011/0617/61383331/10451.html';$contents = file_get_contents($url);$contents = convertEncoding($contents);$startTime = microtime();$purify = new TitlePurify();$title = $purify->getTitle($contents);$endTime = microtime();echo "标题: $title ";echo "cost: " . ($endTime-$startTime);?></title> </title> </title> </title>

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









PHPクライアントURL(CURL)拡張機能は、開発者にとって強力なツールであり、リモートサーバーやREST APIとのシームレスな対話を可能にします。尊敬されるマルチプロトコルファイル転送ライブラリであるLibcurlを活用することにより、PHP Curlは効率的なexecuを促進します

顧客の最も差し迫った問題にリアルタイムでインスタントソリューションを提供したいですか? ライブチャットを使用すると、顧客とのリアルタイムな会話を行い、すぐに問題を解決できます。それはあなたがあなたのカスタムにより速いサービスを提供することを可能にします

記事では、PHP 5.3で導入されたPHPの後期静的結合(LSB)について説明し、より柔軟な継承を求める静的メソッドコールのランタイム解像度を可能にします。 LSBの実用的なアプリケーションと潜在的なパフォーマ

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

記事では、入力検証、認証、定期的な更新など、脆弱性から保護するためのフレームワークの重要なセキュリティ機能について説明します。

この記事では、フレームワークにカスタム機能を追加し、アーキテクチャの理解、拡張ポイントの識別、統合とデバッグのベストプラクティスに焦点を当てています。

PHP開発でPHPのCurlライブラリを使用してJSONデータを送信すると、外部APIと対話する必要があることがよくあります。一般的な方法の1つは、Curlライブラリを使用して投稿を送信することです。
