Table des matières
YAML
Performances
Kimchi
JSON
Sécurité
Autres formats
Tampon de protocole
Pack de messages
CBOR
Comment choisir ?
Enregistrer automatiquement l'état local des programmes Python
Profil
APIWeb
Communication à grande échelle haute capacité/faible latence
Conclusion
Maison développement back-end Tutoriel Python Sérialisation et désérialisation d'objets Python : partie 2

Sérialisation et désérialisation d'objets Python : partie 2

Sep 03, 2023 pm 08:33 PM

Python 对象序列化和反序列化:第 2 部分

Ceci est la deuxième partie d'un tutoriel sur la sérialisation et la désérialisation des objets Python. Dans la première partie, vous avez appris les bases, puis vous avez approfondi les détails de Pickle et JSON.

Dans cette partie, vous explorerez YAML (assurez-vous d'avoir l'exemple d'exécution de la première partie), discuterez des considérations en matière de performances et de sécurité, découvrirez d'autres formats de sérialisation et enfin apprendrez à choisir le bon. p>

YAML

YAML est mon format préféré. Il s'agit d'un format de sérialisation de données convivial. Contrairement à Pickle et JSON, il ne fait pas partie de la bibliothèque standard Python, vous devez donc l'installer :

pip 安装 yaml

Le module

yaml n'a que load()dump()函数。默认情况下,它们使用像 loads()dumps() de telles chaînes, mais peut prendre un deuxième argument, qui est un flux ouvert qui peut ensuite être vidé/chargé vers/depuis un fichier.

import yaml



print yaml.dump(simple)



boolean: true

int_list: [1, 2, 3]

none: null

number: 3.44

text: string
Copier après la connexion

Veuillez noter à quel point YAML est lisible par rapport à Pickle ou même à JSON. Vient maintenant la partie intéressante de YAML : il comprend les objets Python ! Pas besoin d'encodeurs et de décodeurs personnalisés. Voici une sérialisation/désérialisation complexe à l'aide de YAML :

> serialized = yaml.dump(complex)

> print serialized



a: !!python/object:__main__.A

  simple:

    boolean: true

    int_list: [1, 2, 3]

    none: null

    number: 3.44

    text: string

when: 2016-03-07 00:00:00



> deserialized = yaml.load(serialized)

> deserialized == complex

True
Copier après la connexion

Comme vous pouvez le voir, YAML a sa propre notation pour étiqueter les objets Python. Le résultat est toujours très facile à lire. Les objets Datetime ne nécessitent aucun balisage spécial car YAML prend intrinsèquement en charge les objets datetime.

Performances

Avant de commencer à réfléchir à la performance, vous devez vous demander si la performance est un problème. Si vous sérialisez/désérialisez de petites quantités de données relativement rarement (par exemple en lisant un fichier de configuration au début de votre programme), les performances ne sont pas vraiment un problème et vous pouvez passer à autre chose.

Cependant, en supposant que vous profilez votre système et que vous constatez que la sérialisation et/ou la désérialisation entraîne des problèmes de performances, les problèmes suivants doivent être résolus.

Les performances ont deux aspects : quelle est la vitesse de sérialisation/désérialisation et quelle est la taille de la représentation sérialisée ?

Pour tester les performances de différents formats de sérialisation, je vais créer une structure de données plus grande et la sérialiser/désérialiser à l'aide de Pickle, YAML et JSON. big_data La liste contient 5 000 objets complexes.

big_data = [dict(a=simple, when=datetime.now().replace(microsecond=0)) for i in range(5000)]
Copier après la connexion

Kimchi

J'utiliserai IPython ici car il possède des fonctions magiques %timeit pratiques pour mesurer le temps d'exécution.

import cPickle as pickle



In [190]: %timeit serialized = pickle.dumps(big_data)

10 loops, best of 3: 51 ms per loop



In [191]: %timeit deserialized = pickle.loads(serialized)

10 loops, best of 3: 24.2 ms per loop



In [192]: deserialized == big_data

Out[192]: True



In [193]: len(serialized)

Out[193]: 747328
Copier après la connexion

Le pickle par défaut prend 83,1 millisecondes pour être sérialisé et 29,2 millisecondes pour être désérialisé, avec une taille sérialisée de 747 328 octets.

Essayons d’utiliser le protocole le plus élevé.

In [195]: %timeit serialized = pickle.dumps(big_data, protocol=pickle.HIGHEST_PROTOCOL)

10 loops, best of 3: 21.2 ms per loop



In [196]: %timeit deserialized = pickle.loads(serialized)

10 loops, best of 3: 25.2 ms per loop



In [197]: len(serialized)

Out[197]: 394350
Copier après la connexion

Résultats intéressants. Le temps de sérialisation est tombé à seulement 21,2 ms, mais le temps de désérialisation a légèrement augmenté pour atteindre 25,2 ms. La taille sérialisée est considérablement réduite à 394 350 octets (52 %).

JSON

In [253] %timeit serialized = json.dumps(big_data, cls=CustomEncoder)

10 loops, best of 3: 34.7 ms per loop



In [253] %timeit deserialized = json.loads(serialized, object_hook=decode_object)

10 loops, best of 3: 148 ms per loop



In [255]: len(serialized)

Out[255]: 730000
Copier après la connexion

D'accord. Les performances d'encodage semblent un peu moins bonnes que Pickle, mais les performances de décodage sont bien pires : 6 fois plus lentes. Que se passe-t-il? Il s'agit d'un artefact de la fonction object_hook qui doit être exécuté pour chaque dictionnaire afin de vérifier s'il doit être converti en objet. Il fonctionne beaucoup plus rapidement sans utiliser de hooks d'objet.

%timeit deserialized = json.loads(serialized)

10 loops, best of 3: 36.2 ms per loop
Copier après la connexion

La leçon ici est d'examiner attentivement tout encodage personnalisé lors de la sérialisation et de la désérialisation en JSON, car ils peuvent avoir un impact significatif sur les performances globales.

YAML

In [293]: %timeit serialized = yaml.dump(big_data)

1 loops, best of 3: 1.22 s per loop



In[294]: %timeit deserialized = yaml.load(serialized)

1 loops, best of 3: 2.03 s per loop



In [295]: len(serialized)

Out[295]: 200091
Copier après la connexion

D'accord. YAML est vraiment très lent. Notez cependant quelque chose d’intéressant : la taille sérialisée n’est que de 200 091 octets. Bien mieux que Pickle et JSON. Jetons un coup d'oeil rapide à l'intérieur :

In [300]: print serialized[:211]

- a: &id001

    boolean: true

    int_list: [1, 2, 3]

    none: null

    number: 3.44

    text: string

  when: 2016-03-13 00:11:44

- a: *id001

  when: 2016-03-13 00:11:44

- a: *id001

  when: 2016-03-13 00:11:44
Copier après la connexion

YAML est très intelligent ici. Il détermine que les 5 000 dictionnaires partagent la même valeur de clé « a », il ne la stocke donc qu'une seule fois et la référence en utilisant *id001 pour tous les objets.

Sécurité

La sécurité est souvent un problème critique. Pickle et YAML sont vulnérables aux attaques d'exécution de code en raison de leur construction d'objets Python. Les fichiers intelligemment formatés peuvent contenir du code arbitraire qui sera exécuté par Pickle ou YAML. Pas de panique. Ceci est intentionnel et documenté dans la documentation de Pickle :

Avertissement : le module pickle n'est pas conçu pour protéger contre les données incorrectes ou construites de manière malveillante. N’annulez jamais les données reçues de sources non fiables ou non authentifiées.

Et qu'y a-t-il dans le document YAML :

AVERTISSEMENT : il est dangereux d'appeler yaml.load avec des données reçues de sources non fiables ! yaml.load est aussi puissant que pickle.load, il peut donc appeler n'importe quelle fonction Python.

Sachez simplement que vous ne devez pas utiliser Pickle ou YAML pour charger des données sérialisées reçues de sources non fiables. JSON convient, mais si vous disposez d'un encodeur/décodeur personnalisé, vous pourriez également être exposé.

Le module

yaml fournit la fonction yaml.safe_load() qui charge simplement des objets simples, mais vous perdez alors une grande partie des fonctionnalités de YAML et pouvez choisir d'utiliser simplement JSON.

Autres formats

Il existe de nombreux autres formats de sérialisation disponibles. En voici quelques-uns.

Tampon de protocole

Protobuf (c'est-à-dire Protocol Buffer) est le format d'échange de données de Google. Il est implémenté en C++ mais possède des liaisons Python. Il possède une architecture sophistiquée et regroupe efficacement les données. Très puissant, mais pas très simple à utiliser.

Pack de messages

MessagePack est un autre format de sérialisation populaire. Il est également binaire et efficace, mais contrairement à Protobuf il ne nécessite pas de schéma. Il possède un système de types similaire à JSON, mais plus riche. Les clés peuvent être de n'importe quel type, pas seulement les chaînes, et les chaînes non UTF8 sont prises en charge.

CBOR

CBOR signifie Concise Binary Object Representation. De même, il prend en charge le modèle de données JSON. CBOR n'est pas aussi connu que Protobuf ou MessagePack, mais il est intéressant pour deux raisons :

  1. Il s'agit d'une norme Internet officielle : RFC 7049.
  2. Il est conçu pour l'Internet des objets (IoT).

Comment choisir ?

C'est une grande question. Tant de choix, comment choisir ? Considérons les différents facteurs à prendre en compte :

  1. Le format de sérialisation doit-il être lisible et/ou modifiable par l'homme ?
  2. Recevrez-vous du contenu sérialisé provenant de sources non fiables ?
  3. La sérialisation/désérialisation est-elle un goulot d'étranglement en termes de performances ?
  4. Les données sérialisées doivent-elles être échangées avec des environnements non Python ?

Je vais vous faciliter la tâche et vous présenter quelques scénarios courants ainsi que le format que je recommande pour chacun :

Enregistrer automatiquement l'état local des programmes Python

Utilisez cornichon (cPickle) et HIGHEST_PROTOCOL ici. Il est rapide, efficace et peut stocker et charger la plupart des objets Python sans aucun code spécial. Il peut également être utilisé comme cache persistant local.

Profil

Certainement YAML. Rien ne vaut sa simplicité pour tout ce que les humains ont besoin de lire ou de modifier. Il a été utilisé avec succès par Ansible et de nombreux autres projets. Dans certains cas, vous préférerez peut-être utiliser des modules Python directs comme fichiers de configuration. C'est peut-être le bon choix, mais ce n'est pas une sérialisation, cela fait en fait partie du programme, pas un fichier de configuration séparé.

APIWeb

JSON est clairement le gagnant ici. Aujourd'hui, les API Web sont le plus souvent utilisées par les applications Web JavaScript qui utilisent JSON de manière native. Certaines API Web peuvent renvoyer d'autres formats (par exemple csv pour des ensembles de résultats tabulaires denses), mais je pense que vous pouvez regrouper les données csv dans JSON avec une surcharge minimale (pas besoin de répéter chaque ligne en tant qu'objet avec tous les noms de colonnes).

Communication à grande échelle haute capacité/faible latence

Utilisez l'un des protocoles binaires : Protobuf (si une architecture est requise), MessagePack ou CBOR. Exécutez vos propres tests pour vérifier les performances et les capacités de représentation de chaque option.

Conclusion

La sérialisation et la désérialisation des objets Python sont un aspect important des systèmes distribués. Vous ne pouvez pas envoyer d'objets Python directement sur le réseau. Vous avez souvent besoin d'interagir avec d'autres systèmes implémentés dans d'autres langages, et parfois vous souhaitez simplement stocker l'état de votre programme dans un stockage persistant.

Python est livré avec plusieurs schémas de sérialisation dans sa bibliothèque standard, et bien d'autres sont disponibles sous forme de modules tiers. Comprendre toutes les options ainsi que les avantages et les inconvénients de chacune vous permettra de choisir la méthode la mieux adaptée à votre situation.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment utiliser Python pour trouver la distribution ZIPF d'un fichier texte Comment utiliser Python pour trouver la distribution ZIPF d'un fichier texte Mar 05, 2025 am 09:58 AM

Ce tutoriel montre comment utiliser Python pour traiter le concept statistique de la loi de Zipf et démontre l'efficacité de la lecture et du tri de Python de gros fichiers texte lors du traitement de la loi. Vous vous demandez peut-être ce que signifie le terme distribution ZIPF. Pour comprendre ce terme, nous devons d'abord définir la loi de Zipf. Ne vous inquiétez pas, je vais essayer de simplifier les instructions. La loi de Zipf La loi de Zipf signifie simplement: dans un grand corpus en langage naturel, les mots les plus fréquents apparaissent environ deux fois plus fréquemment que les deuxième mots fréquents, trois fois comme les troisième mots fréquents, quatre fois comme quatrième mots fréquents, etc. Regardons un exemple. Si vous regardez le corpus brun en anglais américain, vous remarquerez que le mot le plus fréquent est "th

Comment utiliser la belle soupe pour analyser HTML? Comment utiliser la belle soupe pour analyser HTML? Mar 10, 2025 pm 06:54 PM

Cet article explique comment utiliser la belle soupe, une bibliothèque Python, pour analyser HTML. Il détaille des méthodes courantes comme find (), find_all (), select () et get_text () pour l'extraction des données, la gestion de diverses structures et erreurs HTML et alternatives (Sel

Filtrage d'image en python Filtrage d'image en python Mar 03, 2025 am 09:44 AM

Traiter avec des images bruyantes est un problème courant, en particulier avec des photos de téléphones portables ou de caméras basse résolution. Ce tutoriel explore les techniques de filtrage d'images dans Python à l'aide d'OpenCV pour résoudre ce problème. Filtrage d'image: un outil puissant Filtre d'image

Introduction à la programmation parallèle et simultanée dans Python Introduction à la programmation parallèle et simultanée dans Python Mar 03, 2025 am 10:32 AM

Python, un favori pour la science et le traitement des données, propose un écosystème riche pour l'informatique haute performance. Cependant, la programmation parallèle dans Python présente des défis uniques. Ce tutoriel explore ces défis, en se concentrant sur l'interprète mondial

Comment effectuer l'apprentissage en profondeur avec TensorFlow ou Pytorch? Comment effectuer l'apprentissage en profondeur avec TensorFlow ou Pytorch? Mar 10, 2025 pm 06:52 PM

Cet article compare TensorFlow et Pytorch pour l'apprentissage en profondeur. Il détaille les étapes impliquées: préparation des données, construction de modèles, formation, évaluation et déploiement. Différences clés entre les cadres, en particulier en ce qui concerne le raisin informatique

Comment implémenter votre propre structure de données dans Python Comment implémenter votre propre structure de données dans Python Mar 03, 2025 am 09:28 AM

Ce didacticiel montre la création d'une structure de données de pipeline personnalisée dans Python 3, en tirant parti des classes et de la surcharge de l'opérateur pour une fonctionnalité améliorée. La flexibilité du pipeline réside dans sa capacité à appliquer une série de fonctions à un ensemble de données, GE

Sérialisation et désérialisation des objets Python: partie 1 Sérialisation et désérialisation des objets Python: partie 1 Mar 08, 2025 am 09:39 AM

La sérialisation et la désérialisation des objets Python sont des aspects clés de tout programme non trivial. Si vous enregistrez quelque chose dans un fichier Python, vous effectuez une sérialisation d'objets et une désérialisation si vous lisez le fichier de configuration, ou si vous répondez à une demande HTTP. Dans un sens, la sérialisation et la désérialisation sont les choses les plus ennuyeuses du monde. Qui se soucie de tous ces formats et protocoles? Vous voulez persister ou diffuser des objets Python et les récupérer dans son intégralité plus tard. C'est un excellent moyen de voir le monde à un niveau conceptuel. Cependant, à un niveau pratique, le schéma de sérialisation, le format ou le protocole que vous choisissez peut déterminer la vitesse, la sécurité, le statut de liberté de maintenance et d'autres aspects du programme

Modules mathématiques en python: statistiques Modules mathématiques en python: statistiques Mar 09, 2025 am 11:40 AM

Le module statistique de Python fournit de puissantes capacités d'analyse statistique de données pour nous aider à comprendre rapidement les caractéristiques globales des données, telles que la biostatistique et l'analyse commerciale. Au lieu de regarder les points de données un par un, regardez simplement des statistiques telles que la moyenne ou la variance pour découvrir les tendances et les fonctionnalités des données d'origine qui peuvent être ignorées et comparer les grands ensembles de données plus facilement et efficacement. Ce tutoriel expliquera comment calculer la moyenne et mesurer le degré de dispersion de l'ensemble de données. Sauf indication contraire, toutes les fonctions de ce module prennent en charge le calcul de la fonction moyenne () au lieu de simplement additionner la moyenne. Les nombres de points flottants peuvent également être utilisés. Importer au hasard Statistiques d'importation de fracTI

See all articles