日本a v在线播放,视频一区在线观看,男女免费在线观看视频

2024年2月20日09:26:02四五設(shè)計網(wǎng)小助手

Hive 是基于 Hadoop 的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表，并提供類 SQL 查詢功能，對Hive是什么及優(yōu)缺點感興趣的朋友跟隨小編一起看看吧。

一、Hive介紹

hive: 由 Facebook 開源用于解決海量結(jié)構(gòu)化日志的數(shù)據(jù)統(tǒng)計工具。文章源自四五設(shè)計網(wǎng)-http://www.4968ejs.cn/40019.html

Hive 是基于 Hadoop 的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表，并提供類 SQL 查詢功能。文章源自四五設(shè)計網(wǎng)-http://www.4968ejs.cn/40019.html

Hive的優(yōu)缺點

優(yōu)點:文章源自四五設(shè)計網(wǎng)-http://www.4968ejs.cn/40019.html

類似于SQL語句，簡單學(xué)習(xí)易上手
避免了去寫 MapReduce，減少開發(fā)人員的學(xué)習(xí)成本
Hive 的執(zhí)行延遲比較高，因此 Hive 常用于數(shù)據(jù)分析，對實時性要求不高的場合
Hive 優(yōu)勢在于處理大數(shù)據(jù)，對于處理小數(shù)據(jù)沒有優(yōu)勢，因為 Hive 的執(zhí)行延遲比較高
Hive 支持用戶自定義函數(shù)，用戶可以根據(jù)自己的需求來實現(xiàn)自己的函數(shù)

缺點:文章源自四五設(shè)計網(wǎng)-http://www.4968ejs.cn/40019.html

Hive 的 HQL 表達(dá)能力有限
Hive 的效率比較低
Hive本質(zhì)是一個MR

Hive架構(gòu)

Hive用戶接口

Hive CLI(Hive Command Line) Hive的命令行
HWI(Hive Web Interface) HiveWeb接口
Hive提供了Thrift服務(wù)，也就是Hiveserver。

Hive元數(shù)據(jù)的三種存儲模式

單用戶模式 : Hive安裝時，默認(rèn)使用的是Derby數(shù)據(jù)庫存儲元數(shù)據(jù)，這樣不能并發(fā)調(diào)用Hive。
多用戶模式 : MySQL服務(wù)器存儲元數(shù)據(jù)
遠(yuǎn)程服務(wù)器模式 : 啟動MetaStoreServer

Hive數(shù)據(jù)存儲

Hive數(shù)據(jù)可區(qū)分為表數(shù)據(jù)和元數(shù)據(jù),表數(shù)據(jù)我們都知道是表中的數(shù)據(jù)，而元數(shù)據(jù)是用來存儲表的名字、列、表分區(qū)以及屬性文章源自四五設(shè)計網(wǎng)-http://www.4968ejs.cn/40019.html

Hive是基于Hadoop分布式文件存儲的，它的數(shù)據(jù)存儲在HDFS中。現(xiàn)在我們介紹Hive中常見的數(shù)據(jù)導(dǎo)入方式文章源自四五設(shè)計網(wǎng)-http://www.4968ejs.cn/40019.html

本地文件系統(tǒng)中導(dǎo)入數(shù)據(jù)到Hive
從HDFS上導(dǎo)入數(shù)據(jù)到Hive表
從其他表中查詢出相應(yīng)的數(shù)據(jù)并導(dǎo)入Hive表中
在創(chuàng)建表的時候通過從其他表中查詢出相應(yīng)的記錄并插入到所創(chuàng)建的表中

#1.演示從本地裝載數(shù)據(jù)到hive
#1.1創(chuàng)建表
create table student(id string, name string) 
row format delimited fields terminated by '\t';
#1.2加載本地的文件到hive
?load data local inpath 
'/root/student.txt' into table default.student; #default.test 數(shù)據(jù)庫.表名 也可直接表名
#2.演示加載HDFS文件到hive中
#2.1 將文件上傳到HDFS根目錄
dfs -put /root/student.txt /;
#2.2加載HDFS上的數(shù)據(jù)
load data inpath '/student.txt' into table test.student;
#3.加載數(shù)據(jù)覆蓋表中原有的數(shù)據(jù)
#3.1上傳文件到HDFS中
dfs -put /root/student.txt /;? #將文件裝載到表下 文件就相當(dāng)于Windows中的剪切操作
#3.2加載數(shù)據(jù)覆蓋表中原有數(shù)據(jù)
load data inpath '/student.txt' overwrite into table test.student;
#4.查詢表
select * from student;

#通過查詢語句向表中插入數(shù)據(jù)(insert)
#1.1創(chuàng)建表
create table student_par(id int,name String)
row format delimited fields terminated by '\t';
#1.2通過insert插入數(shù)據(jù)
insert into table student_par values(1,'zhangsan'),(2,'lisi');

架構(gòu)原理

用戶接口文章源自四五設(shè)計網(wǎng)-http://www.4968ejs.cn/40019.html

CLI（command-line interface）、JDBC/ODBC(jdbc 訪問 hive)、WEBUI（瀏覽器訪問 hive）文章源自四五設(shè)計網(wǎng)-http://www.4968ejs.cn/40019.html

元數(shù)據(jù)文章源自四五設(shè)計網(wǎng)-http://www.4968ejs.cn/40019.html

元數(shù)據(jù)包括：表名、表所屬的數(shù)據(jù)庫（默認(rèn)是 default）、表的擁有者、列/分區(qū)字段、表的類型（是否是外部表）、表的數(shù)據(jù)所在目錄等文章源自四五設(shè)計網(wǎng)-http://www.4968ejs.cn/40019.html

Hadoop

使用 HDFS 進行存儲，使用 MapReduce 進行計算。

驅(qū)動器：Driver

（1）解析器（SQL Parser）：將 SQL 字符串轉(zhuǎn)換成抽象語法樹 AST，這一步一般都用第三方工具庫完成，比如 antlr；對 AST 進行語法分析，比如表是否存在、字段是否存在、SQL語義是否有誤。
（2）編譯器（Physical Plan）：將 AST 編譯生成邏輯執(zhí)行計劃。
（3）優(yōu)化器（Query Optimizer）：對邏輯執(zhí)行計劃進行優(yōu)化。
（4）執(zhí)行器（Execution）：把邏輯執(zhí)行計劃轉(zhuǎn)換成可以運行的物理計劃。對于 Hive 來說，就是 MR/Spark。

Hive文件格式

TextFile

這是默認(rèn)的文件格式。數(shù)據(jù)不會壓縮處理，磁盤開銷大，數(shù)據(jù)解析開銷也大。
SequenceFile
這是HadooAPI提供的一種二進制文件支持，以二進制的形式序列化到文件中。

RCFile

這種格式是行列存儲結(jié)構(gòu)的存儲方式。

Optimized Row Columnar ORC文件格式是一種Hadoop生態(tài)圈中的列式存儲格式。

ORC的優(yōu)勢:

列示存儲，有多種文件壓縮方式
文件是可分割的。
提供了多種索引
可以支持復(fù)雜的數(shù)據(jù)結(jié)構(gòu) 比如Map

ORC文件格式是以二進制方式存儲的，所以是不可直接讀取的。

Hive本質(zhì)

將HQL轉(zhuǎn)換成MapReduce程序。

Hive處理的數(shù)據(jù)存儲在HDFS上
Hive分析數(shù)據(jù)底層的實現(xiàn)是MapReduce
執(zhí)行程序運行在Yarn上

Hive工作原理

簡單來說Hive就是一個查詢引擎。當(dāng)Hive接受到一條SQL語句會執(zhí)行如下操作:

詞法分析和語法分析。使用antlr將SQL語句解析成抽象語法樹
語義分析。從MetaStore中獲取元數(shù)據(jù)信息，解釋SQL語句中的表名、列名、數(shù)據(jù)類型
邏輯計劃生成。生成邏輯計劃得到算子樹
邏輯計劃優(yōu)化。對算子樹進行優(yōu)化
物理計劃生成。將邏輯計劃生成出的MapReduce任務(wù)組成的DAG的物理計劃
物理計劃執(zhí)行。將DAG發(fā)送到Hadoop集群進行執(zhí)行
將查詢結(jié)果返回。

Hive展現(xiàn)的MapReduce任務(wù)設(shè)計到組件有:

元存儲 : 該組件存儲了Hive中表的信息，其中包括了表、表的分區(qū)、模式、列及其類型、表映射關(guān)系等
驅(qū)動 : 控制HiveQL生命周期的組件
查詢編輯器
執(zhí)行引擎
Hive服務(wù)器
客戶端組件提供命令行接口Hive CLI、Web UI、JDBC驅(qū)動等

Hive數(shù)據(jù)類型

Hive支持兩種數(shù)據(jù)類型，一種原子數(shù)據(jù)類型、還有一種叫復(fù)雜數(shù)據(jù)類型。

	基本數(shù)據(jù)類型
類型	描述	示例
TINYINT	1字節(jié)有符合整數(shù)	1
SMALLINT	2字節(jié)有符號整數(shù)	1
INT	4字節(jié)有符號整數(shù)	1
BIGINT	8字節(jié)有符號整數(shù)	1
FLOAT	4字節(jié)單精度浮點數(shù)	1.0
DOUBLE	8字節(jié)雙精度浮點數(shù)	1.0
BOOLEAN	true/false	true
STRING	字符串	“hive”,‘hive’

Hive類型中的String數(shù)據(jù)類型類似于MySQL中的VARCHAR。該類型是一個可變的字符串。

Hive支持?jǐn)?shù)據(jù)類型轉(zhuǎn)換，Hive是用Java編寫的，所以數(shù)據(jù)類型轉(zhuǎn)換規(guī)則遵循Java ：

隱式轉(zhuǎn)換 --> 小轉(zhuǎn)大

強制轉(zhuǎn)換 --> 大傳小

類型	描述	示例
ARRAY	有序的字段。字符類型必須相同	ARRAY(1,2)
MAP	無序的鍵值對。建的類型必須是原子的，值可以是任何類型。	Map(‘a(chǎn)’,1,‘b’,2)
STRUCT	一組命名的字段。字段類型可以不同	STRUCT(‘a(chǎn)’,1,1,0)

到此這篇關(guān)于一文了解Hive是什么的文章就介紹到這了

繼續(xù)閱讀

歷史上的今天

2 月

我的微信

微信掃一掃

我的微信

惠生活福利社

微信掃一掃

我的公眾號

高清av网站_五月婷婷综合激情_亚洲xx在线_a欧美_四虎影视免费观看_玖玖免费

一文了解Hive是什么

一、Hive介紹

Hive的優(yōu)缺點

Hive架構(gòu)

Hive用戶接口

Hive元數(shù)據(jù)的三種存儲模式

Hive數(shù)據(jù)存儲

架構(gòu)原理

Hive文件格式

Hive本質(zhì)

Hive工作原理

Hive數(shù)據(jù)類型

歷史上的今天

FMEA失效分析五大工具詳解

《11G101-3》基礎(chǔ)平法經(jīng)驗詳解

如何在Excel表格中輸入身份證號的三種方法

MATLAB 各種對數(shù)函數(shù) 用法以及實例

鋼筋級別的符號在word里怎么打出來？

在word中如何輸入希臘字母？

Excel里面的平均值的符號如何打出來

ppt數(shù)軸怎么畫?

Audition如何將人聲和伴奏結(jié)合在一起？

國際籃球場的標(biāo)準(zhǔn)尺寸及示意圖

加載中...

發(fā)表評論

熱門搜索

一、Hive介紹

Hive的優(yōu)缺點

Hive架構(gòu)

Hive用戶接口

Hive元數(shù)據(jù)的三種存儲模式

Hive數(shù)據(jù)存儲

架構(gòu)原理

Hive文件格式

Hive本質(zhì)

Hive工作原理

Hive數(shù)據(jù)類型

歷史上的今天

發(fā)表評論