stl - Questions c/c++ sur les opérations binaires (en passant, à la recherche de bonnes bibliothèques et méthodes)

Question

Je travaille actuellement sur un projet impliquant la compression de contenu, qui nécessite que les données soient traitées dans un format binaire (comme la compression LZ77, le codage Huffman, etc.), qui implique de nombreuses fonctions et fonctions. Mais quand je l'ai fait moi-même, j'ai découvert que même si le C++ fournit une gamme relativement complète d'opérations binaires, il est principalement basique...

巴扎黑 · Answer

Si vous souhaitez une plage de représentation de caractères plus large, vous pouvez utiliser wchar_t.
Si vous voulez un type pouvant utiliser n'importe quel bit comme début d'octet pour les données en mémoire, c'est définitivement impossible à réaliser.

Mais vous pouvez

`nl=((arr[0]&c0)>>6);
nh=((arr[1] &0x0f) << 2);
n=nh|nl;`
Combinons les 2 bits forts de l'octet précédent et les 4 bits faibles de l'octet suivant en un nombre binaire à 6 chiffres

给我你的怀抱 · Answer

Vous utilisez déjà le binaire, considérez-vous toujours les caractères ?
Le binaire ne devrait prendre en compte que les octets, n'est-ce pas ?
L'algorithme de compression ne prend souvent pas en compte les caractères, car le fichier d'entrée peut être ASCII, UTF-8, UTF-16 (LE/BE) ou GBK, etc. Mais en dernière analyse, le point commun des langues est qu'il existe certaines lois en matière de statistiques.
Par exemple, e apparaît fréquemment en anglais, ou des mots comme is apparaissent fréquemment, ou des affixes tels que se et tor apparaissent fréquemment.
Le principe fondamental de la compression est d'utiliser le moins de bits possible pour représenter les éléments qui apparaissent fréquemment et réduire la redondance. De manière générale, cela n'a rien à voir avec les caractères.

Vous devriez en savoir plus sur les algorithmes de compression. LZ77/LZ78/Huffman sont tous des algorithmes de compression généraux. Ils ne se limitent pas au texte et sont basés sur des bits.

De retour au C++, C++ exige que la taille de quelque chose puisse être connue au moment de la compilation (la mémoire allouée à la pile est déterminée par le compilateur), mais le texte d'entrée n'est connu qu'au moment de l'exécution, donc en théorie, il n'y a pas de bonne méthode. Les jeux de caractères et l’encodage de texte constituent un gouffre profond, et il n’est pas recommandé de s’y lancer.

Si vous souhaitez effectuer des opérations en unités de bits, encapsulez vous-même une bibliothèque, ou certaines bibliothèques telles que boost peuvent être utilisées. Après tout, le minimum dans le processeur est d'un octet, mais il ne peut en exploiter que tous les bits.