C#を使用してビットストリームベースのデータを処理する
0x00 原因
最近、コンピュータが処理するデータはバイト(8bit)単位で行われることが多く、BinaryReaderを使用して読み込んだデータも同様です。たとえ bool 型の読み取りもバイトである場合でも。ただし、C# 基本クラス ライブラリで提供されるいくつかのメソッドを使用すると、ビットベースのデータを読み取ることもできます。作業を終えた後、ビットベースのデータは非常に興味深いと感じたので、一般的に使用される ASCII 文字の 7 ビットと 6 ビットのエンコードを使用してみました。最後に、ブログとして新しいことを書きますが、一方では記録でもあり、他方では、同じようなニーズを持つ園芸家にとって役立つことを願っています。
0x01 ビットストリームデータの読み取り
バイト b = 35 があり、最初の 4 ビットと最後の 4 ビットをそれぞれ 2 つの数値に読み取る必要があるとします。基本クラス ライブラリには既製のメソッドはありませんが、バイナリ文字列を使用することで 2 つの手順で実行できます。
1. まず b をバイナリ文字列 00100011 として表現します
2. その前後の 4 ビットを数値に変換します。 コアのメソッドは次のとおりです:
Convert.ToInt32("0010");
このようにして、ビットベースのデータ読み取りが実現されます。
最初のステップ
1 でバイトをバイナリ文字列に変換する方法はたくさんあります。最も単純な Convert.ToString(b,2) です。 8 ビットが足りない場合は、上位ビットに 0 を追加します。
2. それぞれ 1、2、4、8...128 のバイトに対して AND 演算を実行し、ビットを下位から上位に取り出すこともできます。
3. バイトと 32 で AND 演算を実行し、バイトを左にシフトして、再度 128 で AND 演算を実行することもできます。
最初のメソッドは大量の文字列オブジェクトを生成します。2 番目と 3 番目のメソッドには大きな違いが見つかりませんでした。純粋に私の感覚に基づいて 3 つを選択しました。コードは次のとおりです。
public static char[] ByteToBinString(byte b) { var result = new char[8]; for (int i = 0; i < 8; i++) { var temp = b & 128; result[i] = temp == 0 ? '0' : '1'; b = (byte)(b << 1); } return result; }
byte[] をバイナリ文字列に変換するには、
Public string BitReader(byte[] data) { BinString = new StringBuilder(data.Length * 8); for (int i = 0; i < data.Length; { BinString.Append(ByteToBinString(data[i])); } return BinString.ToString(); }
このようにして、byte[] データを取得したら、バイナリ文字列に変換して保存できます。オフセットのビット位置とビット長に従ってバイナリ文字列から読み取られ、bool、Int16、Int32 などに変換されます。この考えに基づいて、StringBuilder を使用してバイナリ文字列を格納し、バイナリ文字列からデータを読み取る Read メソッドを提供する BitReader クラスを作成できます。データ フローをより適切に処理するために、現在のオフセットを記録するために位置が追加され、特定の読み取りメソッドがデータの読み取りに使用されると、それに応じて位置も移動します。例えばReadInt16でデータを読み込むと、BitReaderはPositionの現在位置から16ビットを読み取ってInt16に変換して返し、同時にPositionを16ビット後ろに戻します。見分け方は、データを読み込む際に開始オフセット位置を指定する必要がある場合、現在のPositionから直接読み込む場合はPositionが移動しないという点で、BitReaderクラスのコードの一部が以下のようになります。 BitReader を使用して、4bit = {35,12} に従って byte[] からバッファします。 データの読み取りは次のようになります。
public class BitReader { public readonly StringBuilder BinString; public int Position { get; set; } public BitReader(byte[] data) { BinString = new StringBuilder(data.Length * 8); for (int i = 0; i < data.Length; i++) { BinString.Append(ByteToBinString(data[i])); } Position = 0; } public byte ReadByte(int offset) { var bin = BinString.ToString(offset, 8); return Convert.ToByte(bin, 2); } public byte ReadByte() { var result = ReadByte(Position); Position += 8; return result; } public int ReadInt(int offset, int bitLength) { var bin = BinString.ToString(offset, bitLength); return Convert.ToInt32(bin, 2); } public int ReadInt(int bitLength) { var result = ReadInt(Position, bitLength); Position += bitLength; return result; } public static char[] ByteToBinString(byte b) { var result = new char[8]; for (int i = 0; i < 8; i++) { var temp = b & 128; result[i] = temp == 0 ? '0' : '1'; b = (byte)(b << 1); } return result; } }
0x02 ビット ストリーム データの書き込み
ビット ストリームへのデータの書き込みは、BitWriter を使用します。バイナリ String を保存するために StringBuilder が格納されているクラスを実装して、データを書き込むときにデータを渡し、このデータの保存に必要なビット数を指定する必要があります。書き込み完了後、StringBuilderに保存したバイナリ文字列を8bitに準拠したbyte[]に変換して返すことができます。 BitWriter のコア部分は次のとおりです:
var reader = new BitReader(buff); //二进制字符串为0010001100001100 var num1 = reader.ReadInt(4); //从当前Position读取4bit为int,Position移动4bit,结果为2,当前Position=4 var num2 = reader.ReadInt(5,6); //从偏移为5bit的位置读取6bit为int,Position不移动,结果为48,当前Position=4 var b = reader.ReadBool(); //从当前Position读取1bit为bool,Position移动1bit,结果为False,当前Position=5
これは簡単な例です:
public class BitWriter { public readonly StringBuilder BinString; public BitWriter() { BinString = new StringBuilder(); } public BitWriter(int bitLength) { var add = 8 - bitLength % 8; BinString = new StringBuilder(bitLength + add); } public void WriteByte(byte b, int bitLength=8) { var bin = Convert.ToString(b, 2); AppendBinString(bin, bitLength); } public void WriteInt(int i, int bitLength) { var bin = Convert.ToString(i, 2); AppendBinString(bin, bitLength); } public void WriteChar7(char c) { var b = Convert.ToByte(c); var bin = Convert.ToString(b, 2); AppendBinString(bin, 7); } public byte[] GetBytes() { Check8(); var len = BinString.Length / 8; var result = new byte[len]; for (int i = 0; i < len; i++) { var bits = BinString.ToString(i * 8, 8); result[i] = Convert.ToByte(bits, 2); } return result; } public string GetBinString() { Check8(); return BinString.ToString(); } private void AppendBinString(string bin, int bitLength) { if (bin.Length > bitLength) throw new Exception("len is too short"); var add = bitLength - bin.Length; for (int i = 0; i < add; i++) { BinString.Append('0'); } BinString.Append(bin); } private void Check8() { var add = 8 - BinString.Length % 8; for (int i = 0; i < add; i++) { BinString.Append("0"); } } }
0x03 7 ビット文字エンコーディング
一般的に使用される ASCII 文字は 8 ビットを使用してエンコードされますが、実際に一般的に使用される文字は 7 ビットのみです。最上位ビットは 0 なので、英語の記事の場合は、情報を失うことなく 7 ビットを使用して再エンコードできます。エンコード処理は、記事の文字を順番に取り出し、BitWriterを使って7bitで書き込み、最後に新たにエンコードされたbyte[]を取得します。正しく読み取れるように、8ビットデータを2と読み取ったときがデータの先頭、次の16ビットデータがその後の文字数であると規定しています。コードは次のとおりです。
var writer = new BitWriter(); writer.Write(12,5); //把12用5bit写入,此时二进制字符串为:01100 writer.Write(8,16); //把8用16bit写入,此时二进制字符串为:011000000000000001000 var result = writer.GetBytes(); //8bit对齐为011000000000000001000000 //返回结果为[96,0,64]
データを読み取るときは、最初に開始識別子を検索し、次に文字数を読み取り、文字数に応じて順番に文字を読み取ります。 コードは次のとおりです。
データヘッダーの存在により、エンコード時に数文字だけエンコードするとデータが長くなります不过随着字符越多,编码后节省的越多。
0x04 6比特字符编码
从节省数据量的角度,如果允许损失部分信息,例如损失掉字母大小写,是可以进一步减少编码所需比特数的。26个字母+10个数字+符号,可以用6bit(64)进行编码。不过使用这种编码方式就不能用ASCII的映射方式了,我们可以自定义映射,例如0-10映射为十个数字等等,也可以使用自定义的字典,也就是传说中的密码本。经常看国产谍战片的应该都知道密码本吧,密码本就是一个字典,把字符进行重新映射获取明文,算是简单的单码替代,加密强度很小,在获取足量数据样本后基于统计很容易就能破解。下面我们就尝试基于自定义字典用6bit重新编码。
编码过程:
仍然像7bit编码那样写入消息头,然后依次取出文本中的字符,从字典中找到对应的数字,把数字按照6bit长度写入到BitWriter
public byte[] Encode(string text) { text = text.ToUpper(); var len = text.Length * 6 + 24; var writer = new BitWriter(len); writer.WriteByte(2); writer.WriteInt(text.Length, 16); for (int i = 0; i < text.Length; i++) { var index = GetChar6Index(text[i]); writer.WriteInt(index, 6); } return writer.GetBytes(); } private int GetChar6Index(char c) { for (int i = 0; i < 64; i++) { if (Dict.Custom[i] == c) return i; } return 10; //return * }
解码过程:
解码也很简单,找到消息头,依次按照6bit读取数据,并从字典中找到对应的字符:
public string Decode(byte[] data) { var reader = new BitReader(data); while(reader.Remain > 8) { var start = reader.ReadByte(); if (start == 2) break; } var len = reader.ReadInt(16); var result = new StringBuilder(len); for (int i = 0; i < len; i++) { var index = reader.ReadInt(6); var ch = Dict.Custom[index]; result.Append(ch); } return result.ToString(); }
同样一段文本用6bit自定义字典编码后数据长度更短了,不过损失了大小写和换行等格式。
如果从加密的角度考虑,可以设置N个自定义字典(假设10个),在消息头中用M bit(例如4bit)表示所用的字典。这样在每次编码时随机选择一个字典编码,解码时根据4bit数据选择相应字典解码,并且定时更换字典可以增大破解难度。感兴趣的园友可以自行尝试。
0x05 写在最后
以上是我处理比特流数据的一点心得,仅仅是我自己能想到的一种方法,满足了我的需求。如果有更效率的更合理的方法,希望赐教。另外编码和解码的两个例子是出于有趣写着玩的,在实际中估计也用不到。毕竟现在带宽这么富裕,数据加密也有N种可靠的多的方式。
示例代码:https://github.com/durow/TestArea/tree/master/BitStream