크롤러 구문 분석 방법 1: JOSN 구문 분석

爱喝马黛茶的安东尼
풀어 주다: 2019-06-05 14:36:14
앞으로
4938명이 탐색했습니다.

다양한 언어로 크롤링할 수 있지만 python 기반 크롤러가 더 간결하고 편리합니다. 크롤러는 또한 Python 언어의 필수적인 부분이 되었습니다. 크롤러가 데이터를 구문 분석하는 방법에는 여러 가지가 있습니다. 이전 기사에서는 크롤러가 얻을 수 있는 데이터 종류와 구체적인 구문 분석 방법을 소개했습니다.이 기사에서는 JSON 구문 분석을 소개합니다.

크롤러 구문 분석 방법 1: JOSN 구문 분석

JSON

json은 JavaScript에서는 단순히 객체와 배열이므로 이 두 구조는 객체와 배열이며 이를 통해 다양하고 복잡한 구조를 표현할 수 있습니다.

Object:

object는 js에서 { }로 묶인 내용으로 표현되며 데이터 구조는 { key: value, key: value, ... }의 키-값 쌍 구조입니다. 객체 지향 언어에서 key는 객체의 속성이고 value는 해당 속성 값이므로 이해하기 쉽습니다. 속성 값을 얻는 값 방법은 object.key입니다. , 문자열, 배열 및 개체.

Array:

js의 Array는 대괄호 [ ]로 묶인 내용이고, 데이터 구조는 ["Python", "javascript", "C++", ...]이며, 값 방법은 다음과 같습니다. 모든 언어에서 마찬가지로 인덱스 획득을 사용하면 필드 값 유형은 숫자, 문자열, 배열 또는 개체가 될 수 있습니다.

JSON(JavaScript Object Notation)은 사람들이 쉽게 읽고 쓸 수 있도록 해주는 가벼운 데이터 교환 형식입니다. 또한 기계 분석 및 생성도 용이합니다. 웹 사이트의 프런트엔드와 백엔드 간의 데이터 상호 작용과 같은 데이터 상호 작용 시나리오에 적합합니다.

import json
def resolveJson(path):
    file = open(path, "rb")
    fileJson = json.load(file)
    field = fileJson["field"]
    futures = fileJson["futures"]
    type = fileJson["type"]
    name = fileJson["name"]
    time = fileJson["time"]
    return (field, futures, type, name, time)
def output():
    result = resolveJson(path)
    print(result)
    for x in result:
        for y in x:
            print(y)
path = r"C:\Users\dell\Desktop\kt\test.json"
output()
로그인 후 복사

함수가 여러 값을 반환하면 튜플을 반환합니다.

문자열에서 for 루프를 수행하면 각 문자가 순회됩니다.

Python JSON

이 장에서 이에 대해 설명하겠습니다. Python 언어를 사용하여 JSON 개체를 인코딩 및 디코딩하는 방법을 설명합니다.

JSON(JavaScript Object Notation)은 사람이 쉽게 읽고 쓸 수 있는 경량 데이터 교환 형식입니다.

JSON 함수

JSON 함수를 사용하려면 json 라이브러리를 가져와야 합니다. import json. 함수                                          인코딩된 JSON 문자열을 Python 객체로 디코딩합니다.                                          Python으로 객체는 JSON 문자열로 인코딩됩니다.

Syntax

json.dumps(obj, Skipkeys=False, verify_ascii=True, check_circular=True,allow_nan=True, cls=None, indent=None, 구분 기호=None, 인코딩="utf-8", 기본값 =None, sort_keys=False, **kw)

Example

다음 예는 배열을 JSON 형식 데이터로 인코딩합니다.

#!/usr/bin/python
import json
data = [ { 'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4, 'e' : 5 } ]
json = json.dumps(data)
print json
로그인 후 복사

위 코드의 실행 결과는 다음과 같습니다.

[{"a": 1, "c": 3, "b": 2, "e": 5, "d": 4}]
로그인 후 복사
매개 변수를 사용하여 JSON 형식을 지정합니다. 출력용 데이터:

>>> import json
>>> print json.dumps({'a': 'Runoob', 'b': 7}, sort_keys=True, indent=4, separators=(',', ': '))
{
    "a": "Runoob",
    "b": 7
}
로그인 후 복사

Python 기본 유형을 json 유형으로 변환하는 표:

Python                                                      ~ | ~ 

None null

json.loads

json.loads 用于解码 JSON 数据。该函数返回 Python 字段的数据类型。

语法

json.loads(s[, encoding[, cls[, object_hook[, parse_float[, parse_int[, parse_constant[, object_pairs_hook[, **kw]]]]]]]])
로그인 후 복사

实例

以下实例展示了Python 如何解码 JSON 对象:

<pre class="brush:php;toolbar:false">
#!/usr/bin/python
import json
jsonData = &#39;{"a":1,"b":2,"c":3,"d":4,"e":5}&#39;;
text = json.loads(jsonData)
print text
로그인 후 복사

以上代码执行结果为:

{u&#39;a&#39;: 1, u&#39;c&#39;: 3, u&#39;b&#39;: 2, u&#39;e&#39;: 5, u&#39;d&#39;: 4}
로그인 후 복사
로그인 후 복사

json 类型转换到 python 的类型对照表:

JSON Python

object dict

array list

string unicode

number (int) int, long

number (real) float

true True

false False

null None

使用第三方库:Demjson

Demjson 是 python 的第三方模块库,可用于编码和解码 JSON 数据,包含了 JSONLint 的格式化及校验功能。

Github 地址:https://github.com/dmeranda/demjson

官方地址:http://deron.meranda.us/python/demjson/

环境配置

在使用 Demjson 编码或解码 JSON 数据前,我们需要先安装 Demjson 模块。本教程我们会下载 Demjson 并安装:

$ tar -xvzf demjson-2.2.3.tar.gz
$ cd demjson-2.2.3
$ python setup.py install
로그인 후 복사

JSON 函数

函数 描述

encode 将 Python 对象编码成 JSON 字符串

decode 将已编码的 JSON 字符串解码为 Python 对象

encode

Python encode() 函数用于将 Python 对象编码成 JSON 字符串。

语法

demjson.encode(self, obj, nest_level=0)


实例

以下实例将数组编码为 JSON 格式数据:

<pre class="brush:php;toolbar:false">
#!/usr/bin/python
import demjson
data = [ { &#39;a&#39; : 1, &#39;b&#39; : 2, &#39;c&#39; : 3, &#39;d&#39; : 4, &#39;e&#39; : 5 } ]
json = demjson.encode(data)
print json
로그인 후 복사

以上代码执行结果为:

[{"a":1,"b":2,"c":3,"d":4,"e":5}]
로그인 후 복사


decode

Python 可以使用 demjson.decode() 函数解码 JSON 数据。该函数返回 Python 字段的数据类型。

语法

demjson.decode(self, txt)

实例

以下实例展示了Python 如何解码 JSON 对象:

<pre class="brush:php;toolbar:false">
#!/usr/bin/python
import demjson
json = &#39;{"a":1,"b":2,"c":3,"d":4,"e":5}&#39;;
text = demjson.decode(json)
print  text
로그인 후 복사

以上代码执行结果为:

{u&#39;a&#39;: 1, u&#39;c&#39;: 3, u&#39;b&#39;: 2, u&#39;e&#39;: 5, u&#39;d&#39;: 4}
로그인 후 복사
로그인 후 복사

위 내용은 크롤러 구문 분석 방법 1: JOSN 구문 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:csdn.net
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿