Hive ORC和Parquet

Jun 07, 2016 pm 02:49 PM
hive 데이터 베이스

相比传统数据库的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作,尤其是在数据列很多,但每次操作仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。 目前在开源实现中,最有名的列式存储引擎莫过于Parquet和ORC,并且他们都是Apac

相比传统数据库的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作,尤其是在数据列很多,但每次操作仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。

目前在开源实现中,最有名的列式存储引擎莫过于Parquet和ORC,并且他们都是Apache的顶级项目,在数据存储引擎方面发挥着重要的作用。

本文将重点讲解ORC文件存储格式,Parquet暂不深入说明,后续抽时间整理。

 

1、Apache Parquet

 

源自于google Dremel系统,Parquet相当于GoogleDremel中的数据存储引擎,而Apache顶级开源项目Drill正是Dremel的开源实现。

Apache Parquet 最初的设计动机是存储嵌套式数据,比如Protocolbuffer,thrift,json等,将这类数据存储成列式格式,以方便对其高效压缩和编码,且使用更少的IO操作取出需要的数据,这也是Parquet相比于ORC的优势,它能够透明地将Protobuf和thrift类型的数据进行列式存储,在Protobuf和thrift被广泛使用的今天,与parquet进行集成,是一件非容易和自然的事情。除了上述优势外,相比于ORC, Parquet没有太多其他可圈可点的地方,比如它不支持update操作(数据写成后不可修改),不支持ACID等。

Hive中创建表时使用Parquet数据存储格式:

create table parquet_table(id int,name string) stored as parquet;

   

2、Apache ORC

 

ORC(OptimizedRow Columnar) 文件格式存储源自于RC(RecordColumnar File)这种存储格式,RC是一种列式存储引擎,对schema演化(修改schema需要重新生成数据)支持较差,而ORC是对RC改进,但它仍对schema演化支持较差,主要是在压缩编码,查询性能方面做了优化。RC/ORC最初是在Hive中得到使用,最后发展势头不错,独立成一个单独的项目。Hive 1.x版本对事务和update操作的支持,便是基于ORC实现的(其他存储格式暂不支持)。ORC发展到今天,已经具备一些非常高级的feature,比如支持update操作,支持ACID,支持struct,array复杂类型。你可以使用复杂类型构建一个类似于parquet的嵌套式数据架构,但当层数非常多时,写起来非常麻烦和复杂,而parquet提供的schema表达方式更容易表示出多级嵌套的数据类型。

Hive中创建表时使用ORC数据存储格式:

create table orc_table (id int,name string) stored as orc;

 

3、Parquet与ORC对比

 

 

Parquet

http://parquet.apache.org

Orc

http://orc.apache.org

发展状态

目前都是Apache开源的顶级项目,列式存储引擎

开发语言

Java

主导公司

Twitter/Cloudera

Hortonworks

列编码

支持多种编码,字典,RLE,Delta等

支持主流编码,与Parquet类似

                        ACID

不支持

支持ACID事务

修改操作(update,delete)

不支持

支持

支持索引

(统计信息)

粗粒度索引

block/group/chunk级别统计信息

粗粒度索引

file/stripe/row级别统计信息,不能精确到列建立索引

查询性能

Orc性能更高一点

压缩比

Orc压缩比更高

 

下面看一张图,可以比对一下压缩率:

 

 

4、ORC

使用ORC文件格式可以提升Hive读、写与处理数据的性能。

一个ORC文件包含多个stripes(每个stripes由多组行数据组成的)一个包含辅助信息的file footer

在文件的结尾,一个postscript保存着压缩参数及被压缩的footer的长度。

一个stripes缺省大小是250MB,其大小可以扩展的长度只受HDFS的约束。

file footer包含文件中的一个记录stripes信息的列表、每个stripes中行的数目及每个列的数据类型,它也包含列级的聚合结果:count, min, max, and sum。

我们通过使用hive --orcfiledump来进行分析ORC存储文件,就可以看到这些信息:

hive --orcfiledump

示例:

hive --orcfiledump /user/hive/warehouse/helloworld.db/test_orcfile/part-00271

 

对于Hive 1.1,查看ORC File文件中的内容可以使用如下的方式:

hive --orcfiledump -d

示例:

hive --orcfiledump -d /user/hive/warehouse/helloworld.db/test_orcfile/part-00271

 

从下面的ORC文件结构图可以了解相关信息:


我使用下面的命令,将ORC的分析结果输出到了orcfile文件,方便大家查看对照图分析:

hive --orcfiledump /user/hive/warehouse/helloworld.db/test_orcfile/part-00271  > orcfile

从上图中,我们知道在ORC文件中,每个Stripe包括索引数据(IndexData)、行数据(Row Data)及一个Stripe footer。

Stripe footer包含了用于流定位的目录,Row data用于表扫描。

索引数据(Index Data)包括每个列的最小与最大值,以及它们在每个列的行号,行索引项(Row index entries)记录了压缩块及解压后字节的偏移。需要注意的是,ORC索引只是被用来选择Stripe和行组,而不会被用于返回查询结果。拥有相对频繁的行索引条目,可以为了快速的数据读取而跳过一些行,缺省情况下每次最多可以跳过10000行。ORC有能力基于过滤谓词跳过非常多的行,可以使用第二关键字进行对表进行排序,以达到减少查询执行时间的效果。例如,如果主关键字是交易日期,表可以按照省份、邮编号码或者姓名进行排序,当按照省份查询记录的时候将跳过非目标省份的记录。


下面介绍如何在Hive中使用这种存储格式:

 

1)       支持的数据格式

  • Integer
    • boolean (1 bit)
    • tinyint (8 bit)
    • smallint (16 bit)
    • int (32 bit)
    • bigint (64 bit)
  • Floating point
    • float
    • double
  • String types
    • string
    • char
    • varchar
  • Binary blobs
    • binary
  • Date/time
    • timestamp
    • date
  • Compound types
    • struct
    • list
    • map
    • union

2)       Hive DDL

通过指定stored as orc来使用ORC存储格式:

create table orc_table (

id int,

name string

) stored as orc;

 

可以修改表的存储格式:

alter table simple_table set fileformat orc;

如果simple_table已经存在数据,将导致通过表查询无法访问数据。

 

 

3)       创建表时,指定ORC存储格式属性

KEY

DEFAULT

NOTES

orc.compress

ZLIB

high level compression = {NONE, ZLIB, SNAPPY}

压缩方法(NONE, ZLIB, SNAPPY)

orc.compress.size

262,144

compression chunk size

每个压缩块的字节数

orc.stripe.size

268,435,456

memory buffer size in bytes for writing

每个stripe的字节数

orc.row.index.stride

10,000

number of rows between index entries

索引项之间的行数

orc.create.index

TRUE

create indexes?

是否创建行索引

orc.bloom.filter.columns

""

comma separated list of column names

orc.bloom.filter.fpp

0.05

bloom filter false positive rate

 

比如,创建没有压缩的表:

CREATE TABLE orc_table (

  name STRING,

  age tinyint

) STORED AS ORC TBLPROPERTIES("orc.compress"="NONE");

          

4)       Hive涉及ORC存储文件的配置参数

·        hive.default.fileformat

指定Hive创建表的存储文件格式,默认为TextFile。

 

·        hive.exec.orc.default.compress

ORC的压缩编码方式,默认为ZLIB。

 

·        hive.exec.orc.default.buffer.size

ORC的缓冲大小,默认为262,144(256KB)。

 

·        hive.exec.orc.default.block.size
ORC文件的系统块大小,默认为268,435,456(256MB)

 

·        hive.exec.orc.zerocopy

使用zerocopy读ORC文件。Hadoop 2.3以及后续版本支持。

 

·        hive.orc.compute.splits.num.threads

ORC使用多少线程去并行化创建分片

hive.exec.orc.skip.corrupt.data         false         

If ORC reader encounters corrupt data, this value will be used todetermine whether to skip the corrupt data or throw an exception.

The default behavioris to throw an exception.

 

·        hive.exec.orc.skip.corrupt.data        

如果ORC读时遇到损坏的数据,此选项决定是否跳过损坏的数据,还是抛出异常。

默认是抛出异常。

 

·        hive.merge.orcfile.stripe.level

当hive.merge.mapfiles,hive.merge.mapredfiles或者hive.merge.tezfiles设置为true时,此时同时以ORC文件格式写表数据,设置此值为true时将快速以stripe级别合并ORC小文件。

·        其他的参数有的用的很少,大家可以参考Hive官网说明进行配置和调优。

     

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

iOS 18에는 손실되거나 손상된 사진을 검색할 수 있는 새로운 '복구된' 앨범 기능이 추가되었습니다. iOS 18에는 손실되거나 손상된 사진을 검색할 수 있는 새로운 '복구된' 앨범 기능이 추가되었습니다. Jul 18, 2024 am 05:48 AM

Apple의 최신 iOS18, iPadOS18 및 macOS Sequoia 시스템 릴리스에는 사진 애플리케이션에 중요한 기능이 추가되었습니다. 이 기능은 사용자가 다양한 이유로 손실되거나 손상된 사진과 비디오를 쉽게 복구할 수 있도록 설계되었습니다. 새로운 기능에는 사진 앱의 도구 섹션에 '복구됨'이라는 앨범이 도입되었습니다. 이 앨범은 사용자가 기기에 사진 라이브러리에 포함되지 않은 사진이나 비디오를 가지고 있을 때 자동으로 나타납니다. "복구된" 앨범의 출현은 데이터베이스 손상으로 인해 손실된 사진과 비디오, 사진 라이브러리에 올바르게 저장되지 않은 카메라 응용 프로그램 또는 사진 라이브러리를 관리하는 타사 응용 프로그램에 대한 솔루션을 제공합니다. 사용자는 몇 가지 간단한 단계만 거치면 됩니다.

Hibernate는 어떻게 다형성 매핑을 구현합니까? Hibernate는 어떻게 다형성 매핑을 구현합니까? Apr 17, 2024 pm 12:09 PM

Hibernate 다형성 매핑은 상속된 클래스를 데이터베이스에 매핑할 수 있으며 다음 매핑 유형을 제공합니다. Join-subclass: 상위 클래스의 모든 열을 포함하여 하위 클래스에 대한 별도의 테이블을 생성합니다. 클래스별 테이블: 하위 클래스별 열만 포함하는 하위 클래스에 대한 별도의 테이블을 만듭니다. Union-subclass: Joined-subclass와 유사하지만 상위 클래스 테이블이 모든 하위 클래스 열을 통합합니다.

PHP에서 MySQLi를 사용하여 데이터베이스 연결을 설정하는 방법에 대한 자세한 튜토리얼 PHP에서 MySQLi를 사용하여 데이터베이스 연결을 설정하는 방법에 대한 자세한 튜토리얼 Jun 04, 2024 pm 01:42 PM

MySQLi를 사용하여 PHP에서 데이터베이스 연결을 설정하는 방법: MySQLi 확장 포함(require_once) 연결 함수 생성(functionconnect_to_db) 연결 함수 호출($conn=connect_to_db()) 쿼리 실행($result=$conn->query()) 닫기 연결( $conn->close())

PHP에서 데이터베이스 연결 오류를 처리하는 방법 PHP에서 데이터베이스 연결 오류를 처리하는 방법 Jun 05, 2024 pm 02:16 PM

PHP에서 데이터베이스 연결 오류를 처리하려면 다음 단계를 사용할 수 있습니다. mysqli_connect_errno()를 사용하여 오류 코드를 얻습니다. 오류 메시지를 얻으려면 mysqli_connect_error()를 사용하십시오. 이러한 오류 메시지를 캡처하고 기록하면 데이터베이스 연결 문제를 쉽게 식별하고 해결할 수 있어 애플리케이션이 원활하게 실행될 수 있습니다.

Golang에서 데이터베이스 콜백 함수를 사용하는 방법은 무엇입니까? Golang에서 데이터베이스 콜백 함수를 사용하는 방법은 무엇입니까? Jun 03, 2024 pm 02:20 PM

Golang의 데이터베이스 콜백 기능을 사용하면 다음을 달성할 수 있습니다. 지정된 데이터베이스 작업이 완료된 후 사용자 정의 코드를 실행합니다. 추가 코드를 작성하지 않고도 별도의 함수를 통해 사용자 정의 동작을 추가할 수 있습니다. 삽입, 업데이트, 삭제, 쿼리 작업에 콜백 함수를 사용할 수 있습니다. 콜백 함수를 사용하려면 sql.Exec, sql.QueryRow, sql.Query 함수를 사용해야 합니다.

JSON 데이터를 Golang의 데이터베이스에 저장하는 방법은 무엇입니까? JSON 데이터를 Golang의 데이터베이스에 저장하는 방법은 무엇입니까? Jun 06, 2024 am 11:24 AM

JSON 데이터는 gjson 라이브러리 또는 json.Unmarshal 함수를 사용하여 MySQL 데이터베이스에 저장할 수 있습니다. gjson 라이브러리는 JSON 필드를 구문 분석하는 편리한 방법을 제공하며, json.Unmarshal 함수에는 JSON 데이터를 비정렬화하기 위한 대상 유형 포인터가 필요합니다. 두 방법 모두 SQL 문을 준비하고 삽입 작업을 수행하여 데이터를 데이터베이스에 유지해야 합니다.

Golang을 사용하여 원격 데이터베이스에 연결하는 방법은 무엇입니까? Golang을 사용하여 원격 데이터베이스에 연결하는 방법은 무엇입니까? Jun 01, 2024 pm 08:31 PM

Go 표준 라이브러리 데이터베이스/sql 패키지를 통해 MySQL, PostgreSQL 또는 SQLite와 같은 원격 데이터베이스에 연결할 수 있습니다. 데이터베이스 연결 정보가 포함된 연결 문자열을 생성합니다. sql.Open() 함수를 사용하여 데이터베이스 연결을 엽니다. SQL 쿼리 및 삽입 작업과 같은 데이터베이스 작업을 수행합니다. 리소스를 해제하기 위해 defer를 사용하여 데이터베이스 연결을 닫습니다.

MySQL, PostgreSQL, Oracle 등 다양한 데이터베이스에 대한 PHP 연결 MySQL, PostgreSQL, Oracle 등 다양한 데이터베이스에 대한 PHP 연결 Jun 01, 2024 pm 03:02 PM

PHP 데이터베이스 연결 가이드: MySQL: MySQLi 확장을 설치하고 연결(서버 이름, 사용자 이름, 비밀번호, dbname)을 만듭니다. PostgreSQL: PgSQL 확장을 설치하고 연결(호스트, DB 이름, 사용자, 비밀번호)을 생성합니다. Oracle: OracleOCI8 확장을 설치하고 연결(서버 이름, 사용자 이름, 비밀번호)을 만듭니다. 실제 사례: MySQL 데이터, PostgreSQL 쿼리, OracleOCI8 업데이트 기록을 얻습니다.

See all articles