混合编码的文本段落重排-php手册-php.cn

Heim

php教程

php手册

混合编码的文本段落重排

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 07:34 PM

http 文本段落编码 neu anordnen

http://www.sgcha.cn/cha.php 在文本处理中，尤其是大段的文本处理，由于html语言的规则以及文本编码的不同，使得文字容易出现乱码。同时由于换行的不同，使得文本要经常进行段落重排。段落重排的标识主要是根据特定的标点符号来进行。具体参考代码中的注释

http://www.sgcha.cn/cha.php
在文本处理中，尤其是大段的文本处理，由于html语言的规则以及文本编码的不同，使得文字容易出现乱码。同时由于换行的不同，使得文本要经常进行段落重排。
段落重排的标识主要是根据特定的标点符号来进行。具体参考代码中的注释

$strtest = '这个是第一个
句子，
的第一部分。
的反对法 的飞洒？
\u3434,
';
$strtest =cut_str_by_mb ($strtest );

echo "<pre class="brush:php;toolbar:false">";
echo $strtest;
/*********************************************************************
输入一个字串
此处的关键是段落的标点，是一个utf-8的编码  
返回排版后的字串。

*********************************************************************/
function cut_str_by_mb ($str,$arr_tag=NULL){
    if($arr_tag==NULL){
		$arr_tag=array(
					'\u2026',
					'\u201d',
				  	'\u302',
					'\uff1f',
				  	':',
					'\uff1a',
				  );
	}
	$str=set_char_set($str);//不管先检查字符格式，转化成utf-8的再说
	$str=unescape($str);//把里面16进制编码的转化成utf-8的格式
	$tmp_array=preg_split("/((\r(?!\n))|((?<!\r)\n)|(\r\n))/", $str);//根据换行符拆分成数组
	$tmp_val='';
	foreach($tmp_array as  $v){
		if(!empty($tmp_val)){
			$v=trim($v);//去掉字符的首尾空格
		}
		$tmp_val=$tmp_val.$v;//链接后面的值，组成新的字串
		$len=mb_strlen( $tmp_val, 'utf-8') ;
		$endtag=mb_substr($tmp_val,$len-1,1,'utf-8');
		$u_tag=unicode_encode($endtag);
		if (in_array($u_tag, $arr_tag)) {
			$return_arr[]=$tmp_val;
			$tmp_val='';
		}
	} 
	$return_str=implode("\r\n",$return_arr);
    return $return_str;
}

/****************************************************************
	检查编码，统一用utf-8
**********************************************************************/
	function set_char_set($data){
	  if( !empty($data) ){
		$fileType = mb_detect_encoding($data , array('UTF-8','GBK','LATIN1','BIG5')) ;
		if( $fileType != 'UTF-8'){
		  $data = mb_convert_encoding($data ,'utf-8' , $fileType);
		}
	  }
	  return $data;
	}
/****************************************************************
	把其中的&# 以及joson格式转化成中文
**********************************************************************/
function unescape($str) {
    $str = rawurldecode($str);
    preg_match_all("/(?:%u.{4})|&#x.{4};|&#\d+;|.+/U",$str,$r);
    $ar = $r[0];
//    print_r($ar);
    foreach($ar as $k=>$v) {
        if(substr($v,0,2) == "%u"){
            $ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,-4)));
  }
        elseif(substr($v,0,3) == "&#x"){
            $ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,3,-1)));
  }
        elseif(substr($v,0,2) == "&#") {
             
            $ar[$k] = iconv("UCS-2BE","UTF-8",pack("n",substr($v,2,-1)));
        }
    }
    return join("",$ar);
}	

/****************************************************************
	把utf-8编码的字符返回 unicode的字串
**********************************************************************/
function unicode_encode($name){
    $name = iconv('UTF-8', 'UCS-2', $name);
    $len = strlen($name);
    $str = '';
    for ($i = 0; $i < $len - 1; $i = $i + 2){
        $c = $name[$i];
        $c2 = $name[$i + 1];
        if (ord($c) > 0){    
			// 两个字节的文字
            $str .= '\u'.base_convert(ord($c), 10, 16).base_convert(ord($c2), 10, 16);
        }else{
            $str .= $c2;
        }
    }
    return $str;
}

Nach dem Login kopieren

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

1 Monate vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

3 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7627

CakePHP-Tutorial

1389

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

140

Related knowledge

So suchen Sie auf allen Registerkarten in Chrome und Edge nach Text Feb 19, 2024 am 11:30 AM

Dieses Tutorial zeigt Ihnen, wie Sie bestimmte Texte oder Phrasen auf allen geöffneten Tabs in Chrome oder Edge unter Windows finden. Gibt es eine Möglichkeit, eine Textsuche auf allen geöffneten Tabs in Chrome durchzuführen? Ja, Sie können eine kostenlose externe Weberweiterung in Chrome verwenden, um Textsuchen auf allen geöffneten Tabs durchzuführen, ohne die Tabs manuell wechseln zu müssen. Einige Erweiterungen wie TabSearch und Strg-FPlus können Ihnen dabei helfen, dies einfach zu erreichen. Wie durchsucht man Text auf allen Registerkarten in Google Chrome? Strg-FPlus ist eine kostenlose Erweiterung, die es Benutzern erleichtert, auf allen Registerkarten ihres Browserfensters nach einem bestimmten Wort, einer bestimmten Phrase oder einem bestimmten Text zu suchen. Diese Erweiterung

Verstehen Sie gängige Anwendungsszenarien der Webseitenumleitung und verstehen Sie den HTTP-301-Statuscode Feb 18, 2024 pm 08:41 PM

Verstehen Sie die Bedeutung des HTTP 301-Statuscodes: Häufige Anwendungsszenarien der Webseitenumleitung. Mit der rasanten Entwicklung des Internets werden die Anforderungen der Menschen an die Webseiteninteraktion immer höher. Im Bereich Webdesign ist die Webseitenumleitung eine gängige und wichtige Technologie, die über den HTTP-301-Statuscode implementiert wird. In diesem Artikel werden die Bedeutung des HTTP 301-Statuscodes und häufige Anwendungsszenarien bei der Webseitenumleitung untersucht. Der HTTP-Statuscode 301 bezieht sich auf eine permanente Weiterleitung (PermanentRedirect). Wenn der Server die des Clients empfängt

So lassen Sie in einem HTML-Absatz zwei Leerzeichen leer Mar 27, 2024 pm 04:39 PM

So platzieren Sie zwei Leerzeichen in einem HTML-Absatz: 1. Verwenden Sie das text-indent-Attribut von CSS. 2. Verwenden Sie das padding-left-Attribut von CSS. 3. Verwenden Sie geschützte Leerzeichen oder Leerzeichen in voller Breite. pre“-Tag oder Leerzeichenattribute.

Knowledge Graph: der ideale Partner für große Modelle Jan 29, 2024 am 09:21 AM

Große Sprachmodelle (LLMs) sind in der Lage, flüssige und kohärente Texte zu generieren, was neue Perspektiven für Bereiche wie Konversation mit künstlicher Intelligenz und kreatives Schreiben eröffnet. Allerdings weist LLM auch einige wesentliche Einschränkungen auf. Erstens beschränkt sich ihr Wissen auf Muster, die aus Trainingsdaten erkannt werden, und es mangelt ihnen an einem echten Verständnis der Welt. Zweitens sind die Denkfähigkeiten begrenzt und können keine logischen Schlussfolgerungen ziehen oder Fakten aus mehreren Datenquellen zusammenführen. Bei komplexeren und offeneren Fragen können die Antworten von LLM absurd oder widersprüchlich werden, was als „Illusionen“ bekannt ist. Obwohl LLM in einigen Aspekten sehr nützlich ist, weist es dennoch gewisse Einschränkungen bei der Bearbeitung komplexer Probleme und realer Situationen auf. Um diese Lücken zu schließen, sind in den letzten Jahren Retrieval-Augmented-Generation-Systeme (RAG) entstanden

HTTP 200 OK: Verstehen Sie die Bedeutung und den Zweck einer erfolgreichen Antwort Dec 26, 2023 am 10:25 AM

HTTP-Statuscode 200: Erkunden Sie die Bedeutung und den Zweck erfolgreicher Antworten. HTTP-Statuscodes sind numerische Codes, die den Status einer Serverantwort angeben. Darunter zeigt der Statuscode 200 an, dass die Anfrage vom Server erfolgreich verarbeitet wurde. In diesem Artikel wird die spezifische Bedeutung und Verwendung des HTTP-Statuscodes 200 untersucht. Lassen Sie uns zunächst die Klassifizierung von HTTP-Statuscodes verstehen. Statuscodes sind in fünf Kategorien unterteilt, nämlich 1xx, 2xx, 3xx, 4xx und 5xx. Unter diesen zeigt 2xx eine erfolgreiche Antwort an. Und 200 ist der häufigste Statuscode in 2xx

http-Anfrage 415-Fehlerlösung Nov 14, 2023 am 10:49 AM

Lösung: 1. Überprüfen Sie den Inhaltstyp im Anforderungsheader. 3. Verwenden Sie das entsprechende Codierungsformat. 5. Überprüfen Sie die serverseitige Unterstützung.

Erfahren Sie, wie Sie Win11-Textdokumente öffnen Jan 02, 2024 pm 03:54 PM

Textdokumente sind sehr wichtige Dateien im System. Sie ermöglichen uns nicht nur die Anzeige vieler Textinhalte, sondern bieten auch Programmierfunktionen. Nach der Aktualisierung des Win11-Systems stellten viele Freunde jedoch fest, dass Textdokumente nicht geöffnet werden konnten. Schauen wir uns das jetzt direkt an. Wo öffnet man ein Textdokument in Win11? 1. Drücken Sie zunächst „win+r“ auf der Tastatur, um Ausführen aufzurufen. 2. Geben Sie dann „notepad“ ein, um direkt ein neues Textdokument zu erstellen. 3. Wenn wir ein bestehendes Textdokument öffnen möchten, können wir auch auf die Datei in der oberen linken Ecke klicken und dann auf „Öffnen“ klicken.

Wie implementiert man HTTP-Streaming mit C++? May 31, 2024 am 11:06 AM

Wie implementiert man HTTP-Streaming in C++? Erstellen Sie einen SSL-Stream-Socket mit Boost.Asio und der asiohttps-Clientbibliothek. Stellen Sie eine Verbindung zum Server her und senden Sie eine HTTP-Anfrage. Empfangen Sie HTTP-Antwortheader und drucken Sie sie aus. Empfängt den HTTP-Antworttext und gibt ihn aus.

See all articles