html标签闭合检测与修复,说的有点大 , 并没有考虑的很完整,没有使用正则表达式, 适用于html文件中只有开始标签没有结束标签, 是有结束标签没有开始标签的情况。标签闭合的位置需要根据需求调整
- $str = '
-
-
- content
-
-
-
-
-
-
- content full
-
- this is content
- this is content
- This is cont
-
- This is content
これはコンテンツです';
$str_len = strlen($str);
//レコード開始タグ
$pre_data = array();
/ /開始タグの位置を記録します
$pre_pos = array();
$last_data = array();
$error_data = array();
$error_pos = array();
$i = 0;
// マーク付きas < start$start_flag = false;while( $i < $str_len ) { if($str[$i]=="<" && $str[$i+1]!= ' /' && $str[$i+1]!='!') { $i++; $_tmp_str = ''; // < start としてマーク $start_flag = true; // 空白としてマーク $space_flag = false; while($str[$i]!=">" && $str[$i]!="'" && $str[$i]!='"' && $str[ $ i] !='/' && $i<$str_len){ if($str[$i]==' ') { $space_flag = true; } if(!$space_flag) { $ _tmp_str .= $str[$i]; } $i++; } $pre_data[] = $_tmp_str; $pre_pos[] = $i; } else if ($str[$i ] =="<" && $str[$i+1]=='/') { $i += 2; $_tmp_str = ''; while($str[$i]!= > ;" && $i<$str_len){ $_tmp_str .= $str[$i]; $i++; } $last_data[] = $_tmp_str; // 開始タグの前の値を表示 if(count($pre_data)>0) { $last_pre_node = getLastNode($pre_data, 1); if($last_pre_node == $_tmp_str) { //ペアリング時に、対応する位置の値を削除 array_pop ($pre_data); array_pop($pre_pos); array_pop($last_data); } else { //一致しない、2 つの状況があります //ケース 1: 終了タグのみ、開始タグなし //ケース 2: 開始タグのみ、終了タグなし array_pop($last_data); $error_data[] = $_tmp_str; $error_pos[] = $i; } } else { array_pop($ last_data ); $error_data[] = $_tmp_str; $error_pos[] = $i; } }else if ($str[$i]=="<" && $str[$i+1 ] =="!") { $i++; while($i<$str_len) { if($str[$i]=="-" && $str[$i+1]== " -" && $str[$i+2]==">") {
$i++;
Break;
} else {
$i++;
}
}
$i++;
} else if($str[$i]=='/' && $str[$i+1]=='>') {
//自動単一終了タグをスキップします
if($start_flag) {
array_pop ( $pre_data);
array_pop($pre_pos);
$i+=2;
}
}else if($str[$i]=="/" && $str[$i+1]== * "){
$i++;
while($i<$str_len) { if($str[$i]=="*" && $str[$i+1]=="/") { $i++; Break; } else { $i++; } $i++; } }else if($str[$i]=="'"){ $ i++ ; while($str[$i]!="'" && $i<$str_len) { $i++; } $i++; } else if($str[$i]== ' "'){ $i++; while($str[$i]!='"' && $i<$str_len ) { $i++; } $i++; } else { $ i++; }}//開始タグの位置を決定するfunctionconfirm_pre_pos($str, $pre_pos){ $str_len = strlen($str); $j=$pre_pos; while( $j < $str_len) { if($str[$j] == '"') { $j++; while ($j<$str_len) { if($str[$j]== '" ') { $j++; Break; } $j++; } } else if($str[$j] == "'") { $j++; while ($j< $str_len ) { if($str[$j]=="'") { $j++; ブレーク; } $j++; } } else if($str[$j]==">") {
$j++;
while ($j if($str[$j]=="<") { //元のコンテンツの位置に戻ります $j--; Break; } $j++; } Break; } else { $j++; } } return $j; }//開始タグの位置を決定するfunctionconfirm_err_pos($str, $err_pos){ $j=$err_pos; $j--; while($j > 0) { if ($str[$j] == '"') { $j--; while ($j<$str_len) { if($str[$j]=='"') { $j - -;break; } $j--; } } else if($str[$j] == "'") { $j--; while ($j<$str_len ) { if($str[$j]=="'") { $j--; Break; } $j--; } } else if($str[$j] = =">") {
$j++;
Break;
}
else {
$j--;
}
}
return $j;
}
//最後の番号を取得配列の数値の値
function getLastNode(array $arr, $num){
$len = count($arr);
if($len > $num) {
return $arr[$len-$num];
} else {
return $arr[0];
}
}
//データを整理し、主に過去を遡ってさらにチェックを行います
function sort_data(&$pre_data, &$pre_pos, &$error_data, &$error_pos ) {
$rem_key_array = array();
$rem_i_array = array();
//削除する必要がある値を取得
foreach($error_data as $key=>$value){
$count = count($ pre_data);
for($i=($count-1) ; $i>=0; $i--) {
if($pre_data[$i] == $value && !in_array( $i, $ rem_i_array)) {
$rem_key_array[] = $key;
$rem_i_array[] = $i;
Break;
}
}
}
//開始タグの対応する値を削除
foreach( $rem_key_array as $_item ) {
unset($error_pos[$_item]);
unset($error_data[$_item]);
}
//終了タグの対応する値を削除
foreach($rem_i_array as $ _item) {
unset($ pre_data[$_item]);
unset($pre_pos[$_item]);
}
}
//データを整理してタグを閉じる
functionmodify_data($str, $pre_data) , $pre_pos, $error_data, $error_pos ){
$move_log = array();
//閉じたラベルのデータのみ
foreach ($error_data as $key => $value) {
# code...
$_tmp_move_count = 0;
foreach ( $move_log as $pos_key => $move_value) {
# code...
if($error_pos[$key]>=$pos_key) {
$_tmp_move_count += $move_value ;
}
}
$data = insert_data($str, $value, $error_pos[$key]+$_tmp_move_count, false);
$str = $data['str'];
$move_log[$ data['pos']] = $ data['move_count'];
}
//開始タグを持つデータのみ
foreach ($pre_data as $key => $value) {
# code...
$_tmp_move_count = 0;
foreach ( $move_log as $pos_key => $move_value) {
# code...
if($pre_pos[$key]>=$pos_key) {
$_tmp_move_count += $move_value;
}
}
$data = insert_data($str, $value, $pre_pos[$key]+$_tmp_move_count, true);
$str = $data['str'];
$move_log[$data ['pos']] = $ data['move_count'];
}
return $str;
}
//データを挿入、$type はデータの挿入方法を表します
function insert_data($str , $insert_data, $pos, $type ) {
$len = strlen($str);
//開始タグの種類
if($type==true) {
$move_count = strlen($insert_data)+ 3;
$pos =confirm_pre_pos ($str, $pos);
$pre_str = substr($str, 0, $pos);
$end_str = substr($str, $pos);
$ mid_str = "" . $insert_data . ">";
//終了タグの種類
} else {
$pos =confirm_err_pos($str, $pos);
$move_count = strlen($ insert_data) + 2;
$ pre_str = substr($str, $pos);
$mid_str = "<" . ;"; } $str = $pre_str.$mid_str.$end_str; return array('str'=>$str, 'pos'=>$pos, 'move_count'=>$move_count);
}
sort_data($pre_data, $pre_pos, $error_data, $error_pos);
$new_str =modify_data($str, $pre_data, $pre_pos, $error_data, $error_pos);
echo $new_str;
/ / print_r($pre_data);
// print_r($pre_pos);
// print_r($error_data);
// print_r($error_pos);
// echo strlen($str);
// foreach($ pre_pos as $value){
// $value =confirm_pre_pos($str, $value);
// for($i=$value-5; $i// echo $str[$i];
// }
// echo "n";
// }
// foreach($error_pos as $value){
// for($i=$value-5; $i<=$value; $i++) {
// echo $str[$i];
// }
// echo "n";
// }
?>
复制代
|