Parfois, vous devez utiliser python pour traiter des données binaires, par exemple lors de l'accès à des fichiers et à des opérations de socket. À ce stade, vous pouvez utiliser le module struct de python pour le compléter. Vous pouvez utiliser struct pour traiter les structures en langage C. 🎜>
Les trois fonctions les plus importantes du module struct sont pack(), unpack(), calcsize()pack(fmt, v1, v2, ...) comme indiqué Un format donné (fmt), encapsuler les données dans une chaîne (en fait un flux d'octets similaire à une structure c) unpack(fmt, string) Analyser les octets selon le format donné (fmt) Chaîne de flux , renvoie le tuple analysécalcsize(fmt) Calcule le nombre d'octets de mémoire occupé par le format donné (fmt) Les formats pris en charge dans la structure sont les suivants Tableau : Format C Type Python Nombre d'octets x pad octet sans valeur 1c chaîne de caractères de longueur 1 1b caractère signé entier 1 B entier de caractère non signé 1? _Bool bool 1h entier court 2H entier court non signé 2i int entier 4I non signé int ou long 4l long entier 4L non signé long long 4q long long long 8Q non signé long long long 8f float float 4d double float 8s char[] string 1p char [] string 1P void * longNote 1. q et Q ne sont intéressants que lorsque la machine supporte les opérations 64 bits Note 2. Chaque format peut être précédé de Un nombre, représentant le nombre Note 3. Le format s représente une chaîne d'une certaine longueur, 4s représente une chaîne de longueur 4, mais p représente une chaîne pascal Note 4. P est utilisé pour convertir un pointeur, sa longueur est liée à la longueur du mot machine Note 5. Le dernier peut être utilisé pour représenter le type de pointeur, occupant 4 octets afin d'être la même que la structure en c Lors de l'échange de données par corps, vous devez également considérer que certains compilateurs C ou C++ utilisent l'alignement des octets, qui est généralement un système 32 bits avec 4 octets comme unité. Par conséquent, la structure est convertie selon. l'ordre des octets de la machine locale. Vous pouvez utiliser l'ordre des octets dans le format. Un caractère pour modifier l'alignement. La définition est la suivante : Ordre des octets des caractères Taille et alignement@ natif. Compose 4 octets = standard natif Selon le mot original Nombre de sections< standard petit-boutiste basé sur le nombre d'octets d'origine> standard endian basé sur le nombre d'octets d'origine! réseau (= big-endian) standard Selon le nombre d'octets d'origine est utilisé en première position de fmt, tout comme '@5s6sif'Exemple 1 : La structure est la suivante :struct Header { unsigned short id; char[4] tag; unsigned int version; unsigned int count; }
import struct id, tag, version, count = struct.unpack("!H4s2I", s)
ss = struct.pack("!H4s2I", id, tag, version, count);
import struct a=12.34 #将a变为二进制 bytes=struct.pack('i',a)
<🎜 ! >
S'il est composé de plusieurs données, cela peut ressembler à ceci :a,=struct.unpack('i',bytes)
a='hello' b='world!' c=2 d=45.123 bytes=struct.pack('5s6sif',a,b,c,d)
Ensuite, quand nous en avons besoin, nous pouvons le lire, bytes=binfile.read()
puis le décoder en une variable python via struct.unpack() :
'5s6sif' est appelé fmt, qui est une chaîne formatée, composée de chiffres et de caractères, 5s représente une chaîne de 5 caractères, 2i représente 2 entiers, etc. Voici les caractères disponibles. et types , ctype signifie qu'il peut correspondre aux types en python un à un.a,b,c,d=struct.unpack('5s6sif',bytes)
Remarque : Problèmes rencontrés lors du traitement des fichiers binaires
Lorsque nous traitons des fichiers binaires, nous devons utiliser la méthode suivante :
Ensuite binfile=open( Qu'est-ce que la différence entre les résultats du chemin de fichier, 'r') ?binfile=open(filepath,'rb') #读二进制文件 binfile=open(filepath,'wb') #写二进制文件
Il y a deux différences :
Premièrement, si vous rencontrez « 0x1A » lors de l'utilisation de « r », cela sera considéré comme la fin du fichier, qui est EOF. L'utilisation de « rb » ne pose pas ce problème. Autrement dit, si vous écrivez en binaire et lisez en texte, seule une partie du fichier sera lue si « 0X1A » est présent. Lorsque vous utilisez « rb », il lira jusqu'à la fin du fichier.
Deuxièmement, pour la chaîne x='abcndef', nous pouvons utiliser len(x) pour que sa longueur soit 7. Nous appelons n le caractère de nouvelle ligne, qui est en fait '0X0A'. Lorsque nous écrivons en « w », qui est le mode texte, « 0X0A » sera automatiquement transformé en deux caractères « 0X0D », « 0X0A » sur la plate-forme Windows, c'est-à-dire que la longueur du fichier devient en réalité 8. Lors de la lecture en mode texte 'r', il est automatiquement converti en caractère de nouvelle ligne d'origine. Si vous passez en mode binaire 'wb' pour écrire, un caractère restera inchangé et il sera lu tel quel lors de la lecture. Donc si vous écrivez en mode texte et lisez en mode binaire, vous devez considérer cet octet supplémentaire. « 0X0D » est également appelé caractère de retour chariot. Cela ne changera pas sous Linux. Parce que Linux utilise uniquement « 0X0A » pour représenter les sauts de ligne.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!