Was ist Huffman-Kodierung? Wie implementiert man Huffman-Kodierung und -Dekodierung in PHP?-PHP-Tutorial-php.cn

Heim

Backend-Entwicklung

PHP-Tutorial

Was ist Huffman-Kodierung? Wie implementiert man Huffman-Kodierung und -Dekodierung in PHP?

不言

Jul 26, 2018 pm 03:37 PM

Was ist Huffman-Codierung? Huffman-Codierung ist ein Datenkomprimierungsalgorithmus. Der Kern unserer häufig verwendeten Zip-Komprimierung ist die Huffman-Kodierung, und in HTTP/ wird die Huffman-Kodierung zum Komprimieren von HTTP-Headern verwendet. In diesem Artikel werde ich Ihnen die Implementierungsmethode der Huffman-Kodierung und -Dekodierung in PHP vorstellen.

1. Huffman-Kodierung

Wortzählung

Der erste Schritt der Huffman-Kodierung besteht darin, die Anzahl der Vorkommen jedes Zeichens im Dokument zu zählen. PHP Die integrierte Funktion count_chars() kann Folgendes tun:

$input = file_get_contents(&#39;input.txt&#39;);
$stat = count_chars($input, 1);

Nach dem Login kopieren

Konstruieren Sie einen Huffman-Baum

Als nächstes erstellen Sie einen Huffman-Baum basierend auf den statistischen Ergebnissen. Die Konstruktionsmethode wird im Detail beschrieben Wikipedia. Hier ist eine einfache, in PHP geschriebene Version:

$huffmanTree = [];foreach ($stat as $char => $count) {
    $huffmanTree[] = [        
    &#39;k&#39; => chr($char),        
    &#39;v&#39; => $count,        
    &#39;left&#39; => null,        
    &#39;right&#39; => null,
    ];
}// 构造树的层级关系，思想见wiki：https://zh.wikipedia.org/wiki/%E9%9C%8D%E5%A4%AB%E6%9B%BC%E7%BC%96%E7%A0%81$size = count($huffmanTree);for ($i = 0; $i !== $size - 1; $i++) {
    uasort($huffmanTree, function ($a, $b) {        
    if ($a[&#39;v&#39;] === $b[&#39;v&#39;])
     {            
     return 0;
        }        
        return $a[&#39;v&#39;] < $b[&#39;v&#39;] ? -1 : 1;
    });
    $a = array_shift($huffmanTree);
    $b = array_shift($huffmanTree);
    $huffmanTree[] = [        
    &#39;v&#39; => $a[&#39;v&#39;] + $b[&#39;v&#39;],        
    &#39;left&#39; => $b,        
    &#39;right&#39; => $a,
    ];
}
$root = current($huffmanTree);

Nach dem Login kopieren

Nach der Berechnung zeigt $root auf den Wurzelknoten des Huffman-Baums

Generieren Sie ein Codierungswörterbuch basierend auf dem Huffman-Baum

Ja. Mit dem Huffman-Baum können Sie ein Wörterbuch zum Kodieren generieren:

function buildDict($elem, $code = &#39;&#39;, &$dict) {    
if (isset($elem[&#39;k&#39;]))
 {
        $dict[$elem[&#39;k&#39;]] = $code;
    } else {
        buildDict($elem[&#39;left&#39;], $code.&#39;0&#39;, $dict);
        buildDict($elem[&#39;right&#39;], $code.&#39;1&#39;, $dict);
    }
}
$dict = [];
buildDict($root, &#39;&#39;, $dict);

Nach dem Login kopieren

Datei schreiben

Verwenden Sie das Wörterbuch, um den Dateiinhalt zu kodieren und in die Datei zu schreiben. Beim Schreiben der Huffman-Codierung in eine Datei sind mehrere Dinge zu beachten:

Nachdem das Codierungswörterbuch und der Codierungsinhalt zusammen in die Datei geschrieben wurden, ist es unmöglich, ihre Grenzen zu unterscheiden, daher müssen sie geschrieben werden der Anfang der Datei. Anzahl der belegten Bytes

Die von PHP bereitgestellte Funktion fwrite() kann jeweils 8 Bit (ein Byte) oder ein ganzzahliges Vielfaches von 8 Bit schreiben. Bei der Huffman-Codierung kann ein Zeichen jedoch nur durch 1 Bit dargestellt werden, und PHP unterstützt nicht den Vorgang, bei dem nur 1 Bit in die Datei geschrieben wird. Daher müssen wir die Codierung selbst zusammenfügen und die Datei erst schreiben, nachdem alle 8 Bit erhalten wurden.

Was ist Huffman-Kodierung? Wie implementiert man Huffman-Kodierung und -Dekodierung in PHP?

Alle 8-Bit-Daten schreiben

Ähnlich wie beim zweiten Element muss die endgültige Dateigröße ein ganzzahliges Vielfaches von 8-Bit sein. Wenn also die Größe der gesamten Kodierung 8001 Bit beträgt, müssen am Ende 7 Nullen hinzugefügt werden

$dictString = serialize($dict);// 写入字典和编码各自占用的字节数
$header = pack(&#39;VV&#39;, strlen($dictString), strlen($input));
fwrite($outFile, $header);// 写入字典本身
fwrite($outFile, $dictString);// 写入编码的内容$buffer = &#39;&#39;;
$i = 0;while (isset($input[$i])) {
    $buffer .= $dict[$input[$i]];    
    while (isset($buffer[7])) {
        $char = bindec(substr($buffer, 0, 8));
        fwrite($outFile, chr($char));
        $buffer = substr($buffer, 8);
    }
    $i++;
}// 末尾的内容如果没有凑齐 8-bit，需要自行补齐
if (!empty($buffer))
 {
    $char = bindec(str_pad($buffer, 8, &#39;0&#39;));
    fwrite($outFile, chr($char));
}
fclose($outFile);

Nach dem Login kopieren

2. Dekodierung der Huffman-Kodierung

Dekodierung der Huffman-Kodierung Relativ einfach: Lesen Sie zuerst das Codierungswörterbuch und dekodieren Sie dann die Originalzeichen gemäß dem Wörterbuch.

Während des Dekodierungsprozesses gibt es ein Problem, das beachtet werden muss: Da wir während des Kodierungsprozesses mehrere 0-Bits am Ende der Datei hinzugefügt haben, sollten diese 0-Bits zufällig die Kodierung sein ein bestimmtes Zeichen im Wörterbuch. Dies führt zu einer falschen Dekodierung.

Wenn also während des Dekodierungsvorgangs die Anzahl der dekodierten Zeichen die Dokumentlänge erreicht, wird die Dekodierung gestoppt.

<?php
$content = file_get_contents(&#39;a.out&#39;);// 读出字典长度和编码内容长度
$header = unpack(&#39;VdictLen/VcontentLen&#39;, $content);
$dict = unserialize(substr($content, 8, $header[&#39;dictLen&#39;]));
$dict = array_flip($dict);
$bin = substr($content, 8 + $header[&#39;dictLen&#39;]);
$output = &#39;&#39;;
$key = &#39;&#39;;
$decodedLen = 0;
$i = 0;
while (isset($bin[$i]) && $decodedLen !== $header[&#39;contentLen&#39;]) {
    $bits = decbin(ord($bin[$i]));
    $bits = str_pad($bits, 8, &#39;0&#39;, STR_PAD_LEFT);    
    for ($j = 0; $j !== 8; $j++) {        // 每拼接上 1-bit，就去与字典比对是否能解码出字符
        $key .= $bits[$j];        
        if (isset($dict[$key]))
         {
            $output .= $dict[$key];
            $key = &#39;&#39;;
            $decodedLen++;            
            if ($decodedLen === $header[&#39;contentLen&#39;])
             {             
                break;
            }
        }
    }
    $i++;
}echo $output;

Nach dem Login kopieren

3. Test

Wir haben den HTML-Code der Huffman-Coding-Wiki-Seite lokal gespeichert und den Huffman-Coding-Test durchgeführt:

Codierung Vorher: 418.504 Bytes

Nach der Codierung: 280.127 Bytes

Der Speicherplatz wird um 33 % gespart. Wenn der Originaltext viele wiederholte Inhalte enthält, kann der durch die Huffman-Codierung eingesparte Speicherplatz erreicht werden mehr als 50 %.

Zusätzlich zum Textinhalt versuchen wir, eine Binärdatei wie das f.lux-Installationsprogramm zu kodieren. Die Testergebnisse sind wie folgt:

Vorher Kodierung: 770.384 Bytes

Kodierung nach: 773.076 Bytes

nimmt nach der Kodierung mehr Platz ein. Einerseits führen wir beim Speichern des Wörterbuchs keine zusätzliche Verarbeitung durch, was viel in Anspruch nimmt des Raumes. Andererseits ist in Binärdateien die Wahrscheinlichkeit, dass jedes Zeichen auftritt, relativ gleichmäßig und die Vorteile der Huffman-Codierung können nicht genutzt werden.

Verwandte Empfehlungen:

PHP kodiert und dekodiert URL-Parameter

Das obige ist der detaillierte Inhalt vonWas ist Huffman-Kodierung? Wie implementiert man Huffman-Kodierung und -Dekodierung in PHP?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7478

CakePHP-Tutorial

1377

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Curl in PHP: So verwenden Sie die PHP -Curl -Erweiterung in REST -APIs Mar 14, 2025 am 11:42 AM

Die PHP Client -URL -Erweiterung (CURL) ist ein leistungsstarkes Tool für Entwickler, das eine nahtlose Interaktion mit Remote -Servern und REST -APIs ermöglicht. Durch die Nutzung von Libcurl, einer angesehenen Bibliothek mit Multi-Protokoll-Dateien, erleichtert PHP Curl effiziente Execu

Alipay PHP SDK -Übertragungsfehler: Wie kann das Problem von 'Class Signdata nicht deklarieren' gelöst werden? Apr 01, 2025 am 07:21 AM

Alipay PHP ...

12 Beste PHP -Chat -Skripte auf Codecanyon Mar 13, 2025 pm 12:08 PM

Möchten Sie den dringlichsten Problemen Ihrer Kunden in Echtzeit und Sofortlösungen anbieten? Mit Live-Chat können Sie Echtzeitgespräche mit Kunden führen und ihre Probleme sofort lösen. Sie ermöglichen es Ihnen, Ihrem Brauch einen schnelleren Service zu bieten

Erklären Sie das Konzept der späten statischen Bindung in PHP. Mar 21, 2025 pm 01:33 PM

In Artikel wird die in PHP 5.3 eingeführte LSB -Bindung (LSB) erörtert, die die Laufzeitauflösung der statischen Methode ermöglicht, um eine flexiblere Vererbung zu erfordern. Die praktischen Anwendungen und potenziellen Perfo von LSB

Erklären Sie JSON Web Tokens (JWT) und ihren Anwendungsfall in PHP -APIs. Apr 05, 2025 am 12:04 AM

JWT ist ein offener Standard, der auf JSON basiert und zur sicheren Übertragung von Informationen zwischen Parteien verwendet wird, hauptsächlich für die Identitätsauthentifizierung und den Informationsaustausch. 1. JWT besteht aus drei Teilen: Header, Nutzlast und Signatur. 2. Das Arbeitsprinzip von JWT enthält drei Schritte: Generierung von JWT, Überprüfung von JWT und Parsingnayload. 3. Bei Verwendung von JWT zur Authentifizierung in PHP kann JWT generiert und überprüft werden, und die Funktionen und Berechtigungsinformationen der Benutzer können in die erweiterte Verwendung aufgenommen werden. 4. Häufige Fehler sind Signaturüberprüfungsfehler, Token -Ablauf und übergroße Nutzlast. Zu Debugging -Fähigkeiten gehört die Verwendung von Debugging -Tools und Protokollierung. 5. Leistungsoptimierung und Best Practices umfassen die Verwendung geeigneter Signaturalgorithmen, das Einstellen von Gültigkeitsperioden angemessen.

Rahmensicherheitsmerkmale: Schutz vor Schwachstellen. Mar 28, 2025 pm 05:11 PM

In Artikel werden wichtige Sicherheitsfunktionen in Frameworks erörtert, um vor Schwachstellen zu schützen, einschließlich Eingabevalidierung, Authentifizierung und regelmäßigen Aktualisierungen.

Anpassung/Erweiterung von Frameworks: So fügen Sie benutzerdefinierte Funktionen hinzu. Mar 28, 2025 pm 05:12 PM

In dem Artikel werden Frameworks hinzugefügt, das sich auf das Verständnis der Architektur, das Identifizieren von Erweiterungspunkten und Best Practices für die Integration und Debuggierung hinzufügen.

Wie sende ich eine Postanforderung mit JSON -Daten mithilfe der Curl -Bibliothek von PHP? Apr 01, 2025 pm 03:12 PM

Senden von JSON -Daten mithilfe der Curl -Bibliothek von PHP in der PHP -Entwicklung müssen häufig mit externen APIs interagieren. Eine der gängigen Möglichkeiten besteht darin, die Curl Library zu verwenden, um Post � ...

See all articles