stl - c/c++ バイナリ演算に関する質問 (ちなみに、良いライブラリとメソッドを探しています)

Question

現在、コンテンツ圧縮に関するプロジェクトに取り組んでいます。これには、データをバイナリ形式で処理する必要があり（LZ77圧縮、ハフマンコーディングなど）、多くの機能が含まれます。しかし、自分でやってみると、C++ は比較的包括的なバイナリ演算を提供しているものの、主に基本的なものであることがわかりました。

巴扎黑 · Answer

より広い文字表現範囲が必要な場合は、wchar_t を使用できます。
メモリ内のデータのバイトの先頭として任意のビットを使用できる型が必要な場合、それを実現することは間違いなく不可能です。

しかし、できます

`nl=((arr[0]&c0)>>6);
nh=((arr[1] &0x0f) 前のバイトの上位2ビットと次のバイトの下位4ビットを組み合わせて6桁の2進数にしてみましょう

给我你的怀抱 · Answer

すでにバイナリを使用していますが、文字についても考慮しますか?
バイナリはバイトのみを考慮すべきですよね?
入力ファイルが ASCII、UTF-8、UTF-16 (LE/BE)、または GBK などである可能性があるため、圧縮アルゴリズムでは文字が考慮されないことがよくあります。しかし、結局のところ、言語の共通点は、統計には一定の法則があるということです。
例えば、英語ではeが頻繁に現れたり、isのような単語が頻繁に現れたり、seやtorなどの接辞が頻繁に現れたりします。
圧縮の基本原則は、頻繁に出現するものをできるだけ少ないビットで表現し、冗長性を減らすことです。そのため、通常は文字とは関係ありません。

LZ77/LZ78/Huffman はすべて、テキストに限定されない一般的な圧縮アルゴリズムです。

C++ の話に戻りますが、C++ では、何かのサイズがコンパイル時に分かる必要があります (スタックに割り当てられるメモリはコンパイラによって決定されます)。しかし、入力テキストは実行時にのみ分かるため、理論的には良い方法はありません。文字セットとテキストエンコーディングは深い落とし穴なので、いきなりそこに飛び込むことはお勧めできません。

ビット単位で演算を行いたい場合は、自分でライブラリをカプセル化するか、boostなどのライブラリが利用可能です。結局のところ、CPU の最小値は 1 バイトですが、その中のすべてのビットしか操作できません。