Maison > développement back-end > Tutoriel Python > Explication détaillée de la méthode Python d'utilisation de struct pour traiter les données binaires

Explication détaillée de la méthode Python d'utilisation de struct pour traiter les données binaires

巴扎黑
Libérer: 2017-09-13 10:05:34
original
2014 Les gens l'ont consulté

Cet article présente principalement des informations pertinentes sur les exemples détaillés de Python utilisant struct pour traiter le binaire. J'espère que grâce à cet article, vous pourrez maîtriser cette partie du contenu. Les amis dans le besoin pourront se référer à

Python utilise struct pour traiter Explication détaillée des exemples binaires

Parfois, vous devez utiliser python pour traiter des données binaires, par exemple, lors de l'accès à des fichiers et à des opérations de socket. À ce stade, vous pouvez utiliser la structure de python. module pour le compléter. Vous pouvez utiliser struct pour le traiter. Structure en langage C


  • Les trois fonctions les plus importantes du module struct sont pack(), unpack(). , calcsize()

  • pack(fmt, v1, v2, ...) Emballez les données dans une chaîne (en fait un flux d'octets similaire à une structure c) selon le format donné ( fmt)

  • unpack(fmt, string) Analyse la chaîne de flux d'octets selon le format donné (fmt) et renvoie le tuple analysé

  • calcsize(fmt) Calcul Combien d'octets de mémoire un format donné (fmt) occupe


Les formats pris en charge dans struct sont les suivants :


Format Type C Python Octets

x octet de remplissage aucune valeur 1 c char chaîne de longueur 1 1 b caractère signé entier 1 B non signé char entier 1 ? _Bool bool td> 1 h court entier 2 H court non signé entier 2 i intentier 4 I int non signé td> entier ou long 4 l long entier 4 L long non signé long 4 q long long long 8 Q non signé long longlong 8 f float flotteur 4 d double flotteur 8 s char[] chaîne 1 p char[] chaîne 1 P void * long
Format C Type Python 字节数
x pad byte no value 1
c char string of length 1 1
b signed char integer 1
B unsigned char integer 1
? _Bool bool 1
h short integer 2
H unsigned short integer 2
i int integer 4
I unsigned int integer or long 4
l long integer 4
L unsigned long long 4
q long long long 8
Q unsigned long long long 8
f float float 4
d double float 8
s char[] string 1
p char[] string 1
P void * long
Note 1. q et Q sont uniquement dans C'est intéressant lorsque la machine supporte le fonctionnement 64 bits

Note 2. Il peut y avoir un nombre avant chaque format, indiquant le numéro
Note 3. Le format s représente une chaîne d'une certaine longueur , et 4s représente une chaîne de longueur 4, mais p représente une chaîne pascale
Note 4. P est utilisé pour convertir un pointeur, sa longueur est liée à la longueur du mot machine
Note 5. Le dernier peut être utilisé pour représenter le type de pointeur, occupant 4 octets

Afin d'échanger des données avec des structures en c, il faut également considérer que certains compilateurs c ou c++ utilisent l'alignement d'octets, généralement des systèmes 32 bits basé sur 4 octets, la structure est donc basée sur la conversion de l'ordre des octets de la machine native. Vous pouvez utiliser le premier caractère du format pour modifier l'alignement :


Caractère< tr> tr>réseau (= big-endian) tr>
Ordre des octets Taille et alignement
@ natif natif Compose 4 octets
= natif standard Appuyez sur le mot original Nombre de sections
<petit-boutistestandard    Selon l'original nombre d'octets
> big-endian standard    Selon le nombre d'octets d'origine
!standard Basé sur le nombre d'octets d'origine
Character Byte order Size and alignment
@ native native            凑够4个字节
= native standard        按原字节数
<little-endianstandard 按原字节数
> big-endian standard       按原字节数
! network (= big-endian)

standard       按原字节数

La méthode d'utilisation est de le mettre en première position de fmt, comme '@5s6sif'

Exemple 1 :

Par exemple, une structure


struct Header
{
  unsigned short id;
  char[4] tag;
  unsigned int version;
  unsigned int count;
}
Copier après la connexion

a reçu les données de structure ci-dessus via socket.recv, qui sont stockées dans la chaîne s. out. Vous pouvez utiliser la fonction unpack().


import struct id, tag, version, count = struct.unpack("!H4s2I", s)
Copier après la connexion

Dans la chaîne de format ci-dessus, ! nos données Il est reçu du réseau. Lorsqu'il est transmis sur le réseau, il est dans l'ordre des octets du réseau. Le H suivant représente un identifiant court non signé, 4s représente une chaîne longue de 4 octets et 2I représente deux types de données int non signés.

Il suffit de passer un décompression, et maintenant nos informations ont été enregistrées dans l'identifiant, la balise, la version, le nombre

De même, les données locales peuvent également être facilement stockées. Ensuite, emballez-les au format struct. .


ss = struct.pack("!H4s2I", id, tag, version, count);
Copier après la connexion

La fonction pack convertit l'identifiant, la balise, la version, le compte en structure En-tête, ss selon le format spécifié. Maintenant c'est une chaîne (en fait un flux d'octets similaire à une structure c). Cette chaîne peut être envoyée via socket.send(ss

Exemple 2 :


.

import struct
a=12.34
#将a变为二进制
bytes=struct.pack(&#39;i&#39;,a)
Copier après la connexion

À l'heure actuelle, bytes est une chaîne de caractères, et la chaîne est la même que le contenu de stockage binaire d'un en octets.

Effectuez ensuite l'opération inverse

octets de données binaires existants (en fait une chaîne), et reconvertissez-les en type de données python :


a,=struct.unpack(&#39;i&#39;,bytes)
Copier après la connexion

Notez que unpack renvoie un tuple

, donc s'il n'y a qu'une seule variable :


bytes=struct.pack(&#39;i&#39;,a)
Copier après la connexion

Ensuite, vous devez le faire lors du décodage


a,=struct.unpack(&#39;i&#39;,bytes) 或者 (a,)=struct.unpack('i',bytes)
Copier après la connexion

Si vous utilisez directement a=struct.unpack('i',bytes ), alors a=(12.34,) est un tuple au lieu du nombre à virgule flottante d'origine.

S'il est composé de plusieurs données, cela peut ressembler à ceci :


a=&#39;hello&#39;
b=&#39;world!&#39;
c=2
d=45.123
bytes=struct.pack(&#39;5s6sif&#39;,a,b,c,d)
Copier après la connexion

Les octets à cet instant sont des données en binaire Nous pouvons écrire directement dans un fichier tel que binfile.write(bytes)

puis le lire quand nous en avons besoin, bytes=binfile.read()

puis passez struct.unpack() est décodé en une variable python


a,b,c,d=struct.unpack(&#39;5s6sif&#39;,bytes)
Copier après la connexion

'5s6sif' Ceci s'appelle fmt, qui est une chaîne de format , composé de nombres et de caractères, 5s Représente une chaîne de 5 caractères, 2i, représente 2 entiers, etc. Voici les caractères et types disponibles, ctype indique qu'il peut correspondre aux types en Python un à un.

Remarque : problèmes rencontrés lors du traitement des fichiers binaires

Lorsque nous traitons des fichiers binaires, nous devons utiliser les méthodes suivantes


binfile=open(filepath,&#39;rb&#39;)  读二进制文件

binfile=open(filepath,&#39;wb&#39;)  写二进制文件
Copier après la connexion

Alors, quelle est la différence avec le résultat de binfile=open(filepath,'r') ?

Il y a deux différences :

Premièrement, si vous rencontrez '0x1A' lors de l'utilisation de 'r', il sera considéré comme la fin du fichier, qui est EOF. L'utilisation de « rb » ne pose pas ce problème. Autrement dit, si vous écrivez en binaire et lisez en texte, seule une partie du fichier sera lue si « 0X1A » est présent. Lorsque vous utilisez « rb », il lira jusqu'à la fin du fichier.

Deuxièmement, pour la chaîne x='abcndef', nous pouvons utiliser len(x) pour que sa longueur soit 7. Nous appelons n le caractère de nouvelle ligne, qui est en fait '0X0A'. Lorsque nous écrivons en « w », qui est le mode texte, « 0X0A » sera automatiquement transformé en deux caractères « 0X0D », « 0X0A » sur la plate-forme Windows, c'est-à-dire que la longueur du fichier devient en réalité 8. Lors de la lecture en mode texte 'r', il est automatiquement converti en caractère de nouvelle ligne d'origine. Si vous passez en mode binaire 'wb' pour écrire, un caractère restera inchangé et il sera lu tel quel lors de la lecture. Donc si vous écrivez en mode texte et lisez en mode binaire, vous devez considérer cet octet supplémentaire. « 0X0D » est également appelé caractère de retour chariot. Cela ne changera pas sous Linux. Parce que Linux utilise uniquement « 0X0A » pour représenter les sauts de ligne.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal