避免HIVE分區入門踩坑必學的五大知識
這篇文章帶給大家的內容是關於避免HIVE分區入門踩坑必學的五大知識,有一定的參考價值,有需要的朋友可以參考一下,希望對你有所幫助。
HIVE-分區入門踩坑
hive 分區
#概念在先:
1: 靜態分割區是把一個目錄下面的很多【文件】分類存放起來, 只能細化到【文件】,但是細化不到內容.但是一次操作只能指定一個類(區);
2: 動態分區一次操作可以根據字段具體內容分多類別(區);
3: 分區目的是單表查詢的時候縮小查詢範圍,提高單表的查詢效率
4: 靜態分區因在命令列指定了分區,底層不執行mr程式(相對死板);動態分割執行mr程式,提取對應欄位(相對智慧一點)
Demo步驟:
1.建立一個學生分區表
#95001,李勇,男,20,CS
95002,劉晨,女,19,IS
95003,王敏,女,22,MA
95004,張立,男,19,IS
95005,劉剛,男,18,MA
95006,孫慶,男,23,CS
--分区表创建create table t_students(id int,name string,sex string) partitioned by (age int,class string)row format delimited fields terminated by ',' ;
創作後看一下成功沒有
hive> set hive.cli.print.header=true;hive> select * from t_students;OK t_students.id t_students.name t_students.sex t_students.age t_students.class
2.新增內容
(1) load
--静态分区load data local inpath '/root/logs/students.txt' into table t_students partition (age=19,class='MA');
(2)insert
Hive 中insert 主要是結合select 查詢語句使用.
--动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert overwrite table t_students partition (age,class) select * from t_student;
執行之後查看元資料SDS表, 可以看到所有映射資訊
--使用同样的数据,再次追加insert一次数据 hive> insert into table t_students partition (age,class) select * from t_student;
再次追加一次資料後,元資料SDS表資訊不變,每條分割區路徑下的檔案變成兩份
hive 分桶
分桶是相對分區進行更細粒度的分割。分桶將整個資料內容安裝某一列屬性值得hash值區分,如要安裝name屬性分為3個桶,就是對name屬性值的hash值對3取摸,依照取模結果對資料分桶。如取模結果為0的資料記錄存放到一個文件,取模為1的資料存放到一個文件,取模為2的資料存放到一個文件。
注意:
第一,分桶之前要執行命令hive.enforce.bucketiong=true;
第二,要使用關鍵字clustered by 指定分區依據的列名,還要指定分為多少桶,這裡指定分為3桶。
第三,與分區不同的是,分區依據的不是真實資料表檔案中的列,而是我們指定的偽列,但是分桶是依據資料表中真實的列而不是偽列。所以在指定分區依據的列的時候要指定列的類型,因為在資料表檔案中不存在這個列,相當於新建一個列。而分桶依據的是表中已經存在的列,這個列的資料型態顯然是已知的,所以不需要指定列的型別。
以上是避免HIVE分區入門踩坑必學的五大知識的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

PHP 8.4 帶來了多項新功能、安全性改進和效能改進,同時棄用和刪除了大量功能。 本指南介紹如何在 Ubuntu、Debian 或其衍生版本上安裝 PHP 8.4 或升級到 PHP 8.4

CakePHP 是 PHP 的開源框架。它旨在使應用程式的開發、部署和維護變得更加容易。 CakePHP 基於類似 MVC 的架構,功能強大且易於掌握。模型、視圖和控制器 gu

Visual Studio Code,也稱為 VS Code,是一個免費的原始碼編輯器 - 或整合開發環境 (IDE) - 可用於所有主要作業系統。 VS Code 擁有大量針對多種程式語言的擴展,可以輕鬆編寫

CakePHP 是一個開源MVC 框架。它使應用程式的開發、部署和維護變得更加容易。 CakePHP 有許多函式庫可以減少大多數常見任務的過載。

本教程演示瞭如何使用PHP有效地處理XML文檔。 XML(可擴展的標記語言)是一種用於人類可讀性和機器解析的多功能文本標記語言。它通常用於數據存儲
