목차
YAML
성능
김치
JSON
안전
다른 형식
프로토콜 버퍼
메시지 팩
CBOR
선택하는 방법은 무엇인가요?
Python 프로그램의 로컬 상태를 자동으로 저장
프로필
웹 API
고용량/저지연 대규모 통신
결론
백엔드 개발 파이썬 튜토리얼 Python 객체 직렬화 및 역직렬화: 2부

Python 객체 직렬화 및 역직렬화: 2부

Sep 03, 2023 pm 08:33 PM

Python 对象序列化和反序列化:第 2 部分

이것은 Python 객체 직렬화 및 역직렬화에 대한 튜토리얼의 두 번째 부분입니다. 첫 번째 부분에서는 기본 사항을 배운 다음 Pickle 및 JSON의 세부 사항을 살펴보았습니다.

이 부분에서는 YAML을 살펴보고(1부의 실행 예제가 있어야 함) 성능 및 보안 고려 사항에 대해 논의하고 다른 직렬화 형식에 대해 알아보고 마지막으로 올바른 형식을 선택하는 방법을 배웁니다. p>

YAML

YAML은 제가 가장 좋아하는 형식입니다. 인간 친화적인 데이터 직렬화 형식입니다. Pickle 및 JSON과 달리 Python 표준 라이브러리의 일부가 아니므로 설치해야 합니다.

pip 安装 yaml

yaml 모듈에는 load()dump()函数。默认情况下,它们使用像 loads()dumps() 이러한 문자열만 있지만 두 번째 인수를 사용할 수 있습니다. 이는 파일에서 덤프/로드할 수 있는 개방형 스트림입니다.

으아아아

Pickle이나 JSON과 비교하여 YAML이 얼마나 읽기 쉬운지 확인하세요. 이제 YAML의 멋진 부분이 나옵니다. YAML은 Python 객체를 이해합니다! 맞춤형 인코더와 디코더가 필요하지 않습니다. YAML을 사용한 복잡한 직렬화/역직렬화는 다음과 같습니다.

으아아아

보시다시피 YAML에는 Python 객체에 레이블을 지정하기 위한 자체 표기법이 있습니다. 출력은 여전히 ​​매우 읽기 쉽습니다. YAML은 기본적으로 datetime 객체를 지원하므로 날짜/시간 객체에는 특별한 마크업이 필요하지 않습니다.

성능

성능에 대해 생각하기 전에 성능이 문제인지 고려해야 합니다. 소량의 데이터를 상대적으로 드물게 직렬화/역직렬화하는 경우(예: 프로그램 시작 부분에서 구성 파일 읽기) 성능은 실제로 문제가 되지 않으며 계속 진행할 수 있습니다.

그러나 시스템을 프로파일링하고 직렬화 및/또는 역직렬화로 인해 성능 문제가 발생한다고 가정하면 다음 문제를 해결해야 합니다.

성능에는 두 가지 측면이 있습니다. 직렬화/역직렬화 속도와 직렬화 표현의 크기입니다.

다양한 직렬화 형식의 성능을 테스트하기 위해 더 큰 데이터 구조를 만들고 Pickle, YAML 및 JSON을 사용하여 직렬화/역직렬화하겠습니다. big_data 목록에는 5,000개의 복잡한 개체가 포함되어 있습니다.

으아아아

김치

여기에서는 실행 시간을 측정하는 편리한 %timeit 마법 기능이 있는 IPython을 사용하겠습니다.

으아아아

기본 피클은 직렬화하는 데 83.1밀리초, 역직렬화하는 데 29.2밀리초가 걸리며 직렬화된 크기는 747,328바이트입니다.

가장 높은 프로토콜을 사용해 보겠습니다.

으아아아

흥미로운 결과. 직렬화 시간은 21.2ms로 줄어들었지만 역직렬화 시간은 25.2ms로 약간 늘어났습니다. 직렬화된 크기는 394,350바이트(52%)로 크게 줄었습니다.

JSON

으아아아

알겠습니다. 인코딩 성능은 Pickle보다 약간 나빠 보이지만 디코딩 성능은 훨씬 더 나쁩니다. 즉, 6배 느립니다. 어떻게 되어가나요? 이는 객체로 변환해야 하는지 확인하기 위해 각 사전에 대해 실행해야 하는 object_hook 함수의 아티팩트입니다. 객체 후크를 사용하지 않고도 훨씬 빠르게 실행됩니다.

으아아아

여기서의 교훈은 JSON으로 직렬화 및 역직렬화할 때 사용자 지정 인코딩이 전체 성능에 큰 영향을 미칠 수 있으므로 신중하게 고려하라는 것입니다.

YAML

으아아아

알겠습니다. YAML은 정말 정말 느립니다. 그러나 흥미로운 사실은 직렬화된 크기가 200,091바이트에 불과하다는 점입니다. Pickle과 JSON보다 훨씬 낫습니다. 내부를 간단히 살펴보겠습니다:

으아아아

YAML은 여기서 매우 영리합니다. 5,000개의 사전이 모두 동일한 "a" 키 값을 공유한다고 판단하므로 이를 한 번만 저장하고 모든 객체에 대해 *id001를 사용하여 참조합니다.

안전

보안은 종종 중요한 문제입니다. Pickle과 YAML은 Python 객체 구성으로 인해 코드 실행 공격에 취약합니다. 영리하게 형식화된 파일에는 Pickle 또는 YAML에서 실행되는 임의의 코드가 포함될 수 있습니다. 당황할 필요가 없습니다. 이는 의도적으로 설계된 것이며 Pickle 문서에 문서화되어 있습니다:

경고: 피클 모듈은 부정확하거나 악의적으로 구성된 데이터로부터 보호하도록 설계되지 않았습니다. 신뢰할 수 없거나 인증되지 않은 소스로부터 받은 데이터를 절대 취소하지 마세요.

YAML 문서에는 다음 내용이 포함됩니다.

경고: 신뢰할 수 없는 소스에서 받은 데이터로 yaml.load를 호출하는 것은 안전하지 않습니다! yaml.load는 pickle.load만큼 강력하므로 모든 Python 함수를 호출할 수 있습니다.

신뢰할 수 없는 소스에서 받은 직렬화된 데이터를 로드하기 위해 Pickle 또는 YAML을 사용해서는 안 된다는 점만 알아두세요. JSON은 괜찮지만 사용자 정의 인코더/디코더가 있는 경우에도 노출될 수 있습니다.

yaml 모듈은 간단한 개체만 로드하는 yaml.safe_load() 기능을 제공하지만, 그러면 YAML의 기능이 많이 손실되고 JSON만 사용하도록 선택할 수 있습니다.

다른 형식

이 외에도 다양한 직렬화 형식을 사용할 수 있습니다. 다음은 그 중 일부입니다.

프로토콜 버퍼

Protobuf(예: 프로토콜 버퍼)는 Google의 데이터 교환 형식입니다. C++로 구현되었지만 Python 바인딩이 있습니다. 정교한 아키텍처를 갖추고 있으며 데이터를 효율적으로 패키징합니다. 매우 강력하지만 사용하기가 쉽지 않습니다.

메시지 팩

MessagePack은 또 다른 인기 있는 직렬화 형식입니다. 또한 바이너리이며 효율적이지만 Protobuf와 달리 스키마가 필요하지 않습니다. JSON과 유사하지만 더 풍부한 유형 시스템을 가지고 있습니다. 키는 문자열뿐만 아니라 UTF8이 아닌 문자열도 지원되는 모든 유형이 될 수 있습니다.

CBOR

CBOR은 Concise Binary Object Representation을 의미합니다. 마찬가지로 JSON 데이터 모델도 지원합니다. CBOR은 Protobuf나 MessagePack만큼 유명하지는 않지만 다음 두 가지 이유로 흥미롭습니다.

  1. 공식 인터넷 표준: RFC 7049입니다.
  2. 사물인터넷(IoT)을 위해 설계되었습니다.

선택하는 방법은 무엇인가요?

이것은 큰 질문입니다. 선택지가 너무 많은데 어떻게 선택하시나요? 고려해야 할 다양한 요소를 고려해 보겠습니다.

  1. 직렬화 형식은 사람이 읽을 수 있거나 편집할 수 있어야 합니까?
  2. 신뢰할 수 없는 출처로부터 연재된 콘텐츠를 받게 되나요?
  3. 직렬화/역직렬화가 성능 병목 현상을 일으키나요?
  4. 직렬화된 데이터를 Python이 아닌 환경과 교환해야 합니까?

정말 쉽게 설명하고 몇 가지 일반적인 시나리오와 각 시나리오에 권장하는 형식을 안내해 드리겠습니다.

Python 프로그램의 로컬 상태를 자동으로 저장

여기에서는 피클(cPickle)과 HIGHEST_PROTOCOL을 사용하세요. 빠르고 효율적이며 특별한 코드 없이 대부분의 Python 개체를 저장하고 로드할 수 있습니다. 로컬 영구 캐시로 사용할 수도 있습니다.

프로필

물론 YAML입니다. 인간이 읽거나 편집해야 하는 모든 것에서 단순함보다 뛰어난 것은 없습니다. Ansible 및 기타 여러 프로젝트에서 성공적으로 사용되었습니다. 어떤 경우에는 직접 Python 모듈을 구성 파일로 사용하는 것을 선호할 수도 있습니다. 이것이 올바른 선택일 수도 있지만 직렬화가 아니며 실제로 별도의 구성 파일이 아닌 프로그램의 일부입니다.

웹 API

JSON이 여기서 확실한 승자입니다. 오늘날 웹 API는 기본적으로 JSON을 사용하는 JavaScript 웹 애플리케이션에서 가장 일반적으로 사용됩니다. 일부 웹 API는 다른 형식(예: 조밀한 표 형식 결과 집합의 경우 csv)을 반환할 수 있지만 최소한의 오버헤드로 csv 데이터를 JSON으로 압축할 수 있다고 생각합니다(각 행을 모든 열 이름이 있는 개체로 반복할 필요 없음).

고용량/저지연 대규모 통신

Protobuf(아키텍처가 필요한 경우), MessagePack 또는 CBOR 등 바이너리 프로토콜 중 하나를 사용하세요. 자체 테스트를 실행하여 각 옵션의 성능과 표현 기능을 확인하세요.

결론

Python 객체의 직렬화 및 역직렬화는 분산 시스템의 중요한 측면입니다. 네트워크를 통해 Python 객체를 직접 보낼 수는 없습니다. 다른 언어로 구현된 다른 시스템과 상호 운용해야 하는 경우가 많으며 때로는 프로그램 상태를 영구 저장소에 저장하고 싶을 때도 있습니다.

Python은 표준 라이브러리에 여러 가지 직렬화 방식을 제공하며, 더 많은 것이 타사 모듈로 제공됩니다. 모든 옵션과 각 옵션의 장단점을 이해하면 상황에 가장 적합한 방법을 선택할 수 있습니다.

위 내용은 Python 객체 직렬화 및 역직렬화: 2부의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Mar 05, 2025 am 09:58 AM

이 튜토리얼은 Python을 사용하여 Zipf의 법칙의 통계 개념을 처리하는 방법을 보여주고 법을 처리 할 때 Python의 읽기 및 대형 텍스트 파일을 정렬하는 효율성을 보여줍니다. ZIPF 분포라는 용어가 무엇을 의미하는지 궁금 할 것입니다. 이 용어를 이해하려면 먼저 Zipf의 법칙을 정의해야합니다. 걱정하지 마세요. 지침을 단순화하려고 노력할 것입니다. Zipf의 법칙 Zipf의 법칙은 단순히 : 큰 자연어 코퍼스에서 가장 자주 발생하는 단어는 두 번째 빈번한 단어, 세 번째 빈번한 단어보다 세 번, 네 번째 빈번한 단어 등 4 배나 자주 발생합니다. 예를 살펴 보겠습니다. 미국 영어로 브라운 코퍼스를 보면 가장 빈번한 단어는 "TH입니다.

파이썬에서 파일을 다운로드하는 방법 파이썬에서 파일을 다운로드하는 방법 Mar 01, 2025 am 10:03 AM

Python은 인터넷에서 파일을 다운로드하는 다양한 방법을 제공하며 Urllib 패키지 또는 요청 도서관을 사용하여 HTTP를 통해 다운로드 할 수 있습니다. 이 튜토리얼은 이러한 라이브러리를 사용하여 Python의 URL에서 파일을 다운로드하는 방법을 설명합니다. 도서관을 요청합니다 요청은 Python에서 가장 인기있는 라이브러리 중 하나입니다. URL에 쿼리 문자열을 수동으로 추가하지 않고 HTTP/1.1 요청을 보낼 수 있습니다. 요청 라이브러리는 다음을 포함하여 많은 기능을 수행 할 수 있습니다. 양식 데이터 추가 다중 부문 파일을 추가하십시오 파이썬 응답 데이터에 액세스하십시오 요청하십시오 머리

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? Mar 10, 2025 pm 06:54 PM

이 기사에서는 HTML을 구문 분석하기 위해 파이썬 라이브러리 인 아름다운 수프를 사용하는 방법을 설명합니다. 데이터 추출, 다양한 HTML 구조 및 오류 처리 및 대안 (SEL과 같은 Find (), find_all (), select () 및 get_text ()와 같은 일반적인 방법을 자세히 설명합니다.

파이썬의 이미지 필터링 파이썬의 이미지 필터링 Mar 03, 2025 am 09:44 AM

시끄러운 이미지를 다루는 것은 특히 휴대폰 또는 저해상도 카메라 사진에서 일반적인 문제입니다. 이 튜토리얼은 OpenCV를 사용 하여이 문제를 해결하기 위해 Python의 이미지 필터링 기술을 탐구합니다. 이미지 필터링 : 강력한 도구 이미지 필터

Python을 사용하여 PDF 문서를 사용하는 방법 Python을 사용하여 PDF 문서를 사용하는 방법 Mar 02, 2025 am 09:54 AM

PDF 파일은 운영 체제, 읽기 장치 및 소프트웨어 전체에서 일관된 콘텐츠 및 레이아웃과 함께 크로스 플랫폼 호환성에 인기가 있습니다. 그러나 Python Processing Plain Text 파일과 달리 PDF 파일은 더 복잡한 구조를 가진 이진 파일이며 글꼴, 색상 및 이미지와 같은 요소를 포함합니다. 다행히도 Python의 외부 모듈로 PDF 파일을 처리하는 것은 어렵지 않습니다. 이 기사는 PYPDF2 모듈을 사용하여 PDF 파일을 열고 페이지를 인쇄하고 텍스트를 추출하는 방법을 보여줍니다. PDF 파일의 생성 및 편집에 대해서는 저의 다른 튜토리얼을 참조하십시오. 준비 핵심은 외부 모듈 PYPDF2를 사용하는 데 있습니다. 먼저 PIP를 사용하여 설치하십시오. PIP는 p입니다

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Mar 02, 2025 am 10:10 AM

이 튜토리얼은 Redis 캐싱을 활용하여 특히 Django 프레임 워크 내에서 Python 응용 프로그램의 성능을 향상시키는 방법을 보여줍니다. 우리는 Redis 설치, Django 구성 및 성능 비교를 다루어 Bene을 강조합니다.

NLTK (Natural Language Toolkit) 소개 NLTK (Natural Language Toolkit) 소개 Mar 01, 2025 am 10:05 AM

NLP (Natural Language Processing)는 인간 언어의 자동 또는 반자동 처리입니다. NLP는 언어학과 밀접한 관련이 있으며인지 과학, 심리학, 생리학 및 수학에 대한 연구와 관련이 있습니다. 컴퓨터 과학에서

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Mar 10, 2025 pm 06:52 PM

이 기사는 딥 러닝을 위해 텐서 플로와 Pytorch를 비교합니다. 데이터 준비, 모델 구축, 교육, 평가 및 배포와 관련된 단계에 대해 자세히 설명합니다. 프레임 워크, 특히 계산 포도와 관련하여 주요 차이점

See all articles