chinesefreesexvideos高潮,欧美极品少妇性运交,久久久国产一区二区三区,99久久婷婷国产综合精品,成人国产一区二区三区

APP推廣合作
聯(lián)系“鳥(niǎo)哥筆記小喬”
初識(shí)大數(shù)據(jù)與Hadoop
2021-02-19 18:25:39

在大數(shù)據(jù)時(shí)代,基于大數(shù)據(jù)技術(shù)的職位更有錢(qián)途,因此成為很多人的職業(yè)首選。在大數(shù)據(jù)技術(shù)中,大家常常聽(tīng)到 Hadoop,很多剛開(kāi)始接觸的人會(huì)問(wèn),什么是 Hadoop?它有什么作用?下面筆者就跟大家嘮叨嘮叨。

一、大數(shù)據(jù)介紹

1.1 什么是大數(shù)據(jù)

大數(shù)據(jù)(BigData):指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其進(jìn)行獲取、存儲(chǔ)、管理和處理的數(shù)據(jù)集合。換句話說(shuō),大數(shù)據(jù)所包含的數(shù)據(jù)集合的大小,普通軟件沒(méi)有辦法在一個(gè)可以容忍的時(shí)間范圍內(nèi)完成大數(shù)據(jù)的捕獲和處理。

按順序給出數(shù)據(jù)存儲(chǔ)單位,如下圖。

1.2 大數(shù)據(jù)特點(diǎn)

目前,大家普遍認(rèn)為的大數(shù)據(jù)是具有 “4V”,即 Volume、Velocity、Variety、Veracity 特征的數(shù)據(jù)集合。如下圖,分別對(duì)每個(gè)特征作簡(jiǎn)要描述。


1)Volume:生成和存儲(chǔ)的數(shù)據(jù)量巨大

隨著技術(shù)的發(fā)展,數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已經(jīng)從 GB 級(jí)增加到 TB 級(jí)再增加到 PB 級(jí),近年來(lái),數(shù)據(jù)量甚至開(kāi)始以 EB 級(jí)和 ZB 級(jí)來(lái)計(jì)量。比如,百度每日處理的數(shù)據(jù)量達(dá)上百 PB,總的數(shù)據(jù)量規(guī)模已經(jīng)達(dá)到 EB 級(jí)。


2)Velocity:數(shù)據(jù)產(chǎn)生和處理速度快

加速的原因是數(shù)據(jù)創(chuàng)建的實(shí)時(shí)性特點(diǎn),以及將流數(shù)據(jù)結(jié)合到業(yè)務(wù)流程和決策過(guò)程中的需求。數(shù)據(jù)處理速度快,處理模式已經(jīng)開(kāi)始從批處理轉(zhuǎn)向流處理。比如,2020 天貓 “雙十一” 當(dāng)天,訂單創(chuàng)建峰值達(dá) 58.3 萬(wàn)筆/秒。

3)Variety:數(shù)據(jù)源和數(shù)據(jù)種類(lèi)多樣

現(xiàn)在要處理的數(shù)據(jù)來(lái)源不只是格式化數(shù)據(jù),更多的是半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)。比如關(guān)系數(shù)據(jù)庫(kù)、NoSQL、即時(shí)消息、圖片、音視頻流等,而且每天都會(huì)產(chǎn)生新的數(shù)據(jù)格式和數(shù)據(jù)源。

4)Veracity:數(shù)據(jù)的價(jià)值密度低

由于大數(shù)據(jù)總體量不斷加大,單位數(shù)據(jù)的價(jià)值密度逐漸降低,然而數(shù)據(jù)的整體價(jià)值不斷提高。比如,在城市的道路上增設(shè)信號(hào)燈,在 24 小時(shí)內(nèi)的監(jiān)控中,有用的數(shù)據(jù)可能僅僅只有幾分鐘,但是卻降低了 50% 以上的交通事故率。

1.3 大數(shù)據(jù)應(yīng)用場(chǎng)景

大數(shù)據(jù)無(wú)處不在,大數(shù)據(jù)應(yīng)用于各個(gè)行業(yè),包括旅游、金融和零售等在內(nèi)的社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的軌跡。

1)旅游

深度結(jié)合大數(shù)據(jù)能力與旅游行業(yè)需求,共建旅游產(chǎn)業(yè)智慧管理、智慧服務(wù)和智慧營(yíng)銷(xiāo)的未來(lái)。

2)金融

多維度體系用戶(hù)特征,幫助金融機(jī)構(gòu)推薦優(yōu)質(zhì)客戶(hù),防范欺詐風(fēng)險(xiǎn)。

其中,欺詐風(fēng)險(xiǎn)的防控,本質(zhì)上也是通過(guò)對(duì)歷史欺詐行為的分析,不斷梳理完善風(fēng)險(xiǎn)特征庫(kù),比如異地登錄、非常用設(shè)備登錄等行為,都是一種風(fēng)險(xiǎn)信號(hào),建立一系列的風(fēng)險(xiǎn)規(guī)則判定集,預(yù)測(cè)用戶(hù)行為背后的欺詐概率。

3)零售

嘗試多維度給用戶(hù)推薦可能喜歡的商品。如下圖,筆者輸入 “松達(dá)” 關(guān)鍵字,立刻推薦了 7 組關(guān)鍵字,太了解我了,么么噠!


大數(shù)據(jù)的價(jià)值,遠(yuǎn)遠(yuǎn)不止于此,大數(shù)據(jù)對(duì)各行各業(yè)的滲透,大大推動(dòng)了社會(huì)生產(chǎn)和生活,未來(lái)必將產(chǎn)生重大而深遠(yuǎn)的影響。

二、 Hadoop 介紹

2.1 什么是 Hadoop?

Hadoop 是一個(gè)由 Apache 軟件基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),具有高容錯(cuò)、高可靠性、高擴(kuò)展性等特點(diǎn)。特別適合寫(xiě)一次,讀多次的場(chǎng)景。

Hadoop 的核心架構(gòu)

Hadoop 以分布式文件系統(tǒng) HDFS 和分布式運(yùn)算框架 MapReduce 為核心,為用戶(hù)提供系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。其中,HDFS 的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶(hù)將 Hadoop 部署在低廉的硬件上,形成分布式文件系統(tǒng);MapReduce 允許用戶(hù)在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開(kāi)發(fā)并行應(yīng)用程序。所以,Hadoop 具有高容錯(cuò)、高可靠性、高擴(kuò)展性等特點(diǎn)。


Hadoop 目前版本(2.0 版)含有以下模塊(如下圖):


1)HDFS:是支持應(yīng)用數(shù)據(jù)高吞吐量訪問(wèn)的分布式文件系統(tǒng);

2)YARN:是用于作業(yè)調(diào)度和集群資源管理的框架;

3)MapReduce:基于 YARN 的大數(shù)據(jù)并行處理系統(tǒng);

4)Others:支持其他 Hadoop 模塊的通用工具集。

Hadoop 2.0 比起 Hadoop 1.0 來(lái)說(shuō),在 HDFS 之上,增加了 YARN(分布式資源管理)層。它是一個(gè)資源管理模塊,為各類(lèi)應(yīng)用程序提供資源管理和調(diào)度。

此外,Hadoop 2.0 版本還提升了系統(tǒng)的穩(wěn)定性。所以,現(xiàn)在企業(yè)里基本上都是使用 2.X 版本。

2.2 Hadoop 的生態(tài)系統(tǒng)

生態(tài)系統(tǒng),顧名思義就是很多組件組成的一個(gè)生態(tài)鏈,經(jīng)過(guò)多年的發(fā)展,Hadoop 生態(tài)系統(tǒng)不斷完善和成熟。目前已經(jīng)包括了多個(gè)部件,除了核心的 HDFS、YARN 和 MapReduce 以外,Hadoop 生態(tài)系統(tǒng)還包括 Zookeeper、HBase、Hive、Spark、Sqoop、Flume、Ambari 等功能組件。

在整個(gè) Hadoop 架構(gòu)中,計(jì)算框架(如 MapReduce、Tez 等)起到承上啟下的作用,一方面可以操作 HDFS 中的數(shù)據(jù),另一方面可以被封裝,以方便上層組件(如 Hive、Pig 等)調(diào)用。

下面筆者簡(jiǎn)單介紹其中幾個(gè)比較常用的組件。

2.2.1 HDFS

HDFS 是一個(gè)高度容錯(cuò)性的分布式文件系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS 能提供高吞吐量的數(shù)據(jù)訪問(wèn),非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。

HDFS 適應(yīng)一次寫(xiě)入,多次讀出的場(chǎng)景,且不支持文件的修改。由于不便修改、延遲大、網(wǎng)絡(luò)開(kāi)銷(xiāo)大、成本高,適合用來(lái)做數(shù)據(jù)分析,不適合用來(lái)做網(wǎng)盤(pán)。

1)HDFS 架構(gòu)

HDFS 采用 master/slave(主/從)架構(gòu)。一個(gè) HDFS 集群是由一個(gè) NameNode 和若干數(shù)目的 DataNodes 組成,如下圖。


(1)NameNode

NameNode 是主節(jié)點(diǎn),是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間(Namespace)以及客戶(hù)端對(duì)文件的訪問(wèn)。具體說(shuō)的話,NameNode 執(zhí)行文件系統(tǒng)的名字空間操作,例如打開(kāi)、關(guān)閉、重命名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體 DataNode 節(jié)點(diǎn)的映射。并且,在 NameNode 的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。

(2)Secondary NameNode

定時(shí)與 NameNode 進(jìn)行同步(定期合并文件系統(tǒng)鏡像和編輯日志,然后把合并后的傳給 NameNode,替換其鏡像,并清空編輯日志),但 NameNode 失效后仍需要手工將其設(shè)置成主機(jī)。

(3)DataNode

集群中的 DataNode 一般是從節(jié)點(diǎn),是文件存儲(chǔ)的最基本的單元。它將數(shù)據(jù)塊(Block)存儲(chǔ)在本地文件系統(tǒng)中,并保存了數(shù)據(jù)塊(Block)的元信息,同時(shí)周期性地向所有存儲(chǔ)該數(shù)據(jù)塊(Block)信息的 NameNode 發(fā)送信息。

(4)數(shù)據(jù)塊(Block)的概念

Block 是 HDFS 中的基本存儲(chǔ)單位,默認(rèn)大小在 Hadoop2.x 版本中為 128MB,老版本中是 64MB;

一個(gè)大文件會(huì)被拆分成一個(gè)個(gè)的塊,然后存儲(chǔ)于不同的機(jī)器。如果一個(gè)文件少于 Block 大小,那么實(shí)際占用的空間為其文件的大小;

基本的讀寫(xiě)單位,類(lèi)似于磁盤(pán)的頁(yè),每次都是讀寫(xiě)一個(gè)塊。

2)HDFS 文件讀寫(xiě)

(1)寫(xiě)文件

Client 向 NameNode 發(fā)送數(shù)據(jù)寫(xiě)操作請(qǐng)求,包括文件名和目錄路徑等部分?jǐn)?shù)據(jù)信息;NameNode 告訴 Client 到哪個(gè)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行具體的數(shù)據(jù)寫(xiě)入;Client 直接將文件數(shù)據(jù)傳輸給 DataNode,由 DataNode 的后臺(tái)程序負(fù)責(zé)將數(shù)據(jù)保存到服務(wù)器的本地文件系統(tǒng)之中。

(2)讀文件

Client 向 NameNode 發(fā)送數(shù)據(jù)讀操作請(qǐng)求,NameNode 向客戶(hù)端發(fā)送組成該文件的數(shù)據(jù)塊的位置列表(即每個(gè)數(shù)據(jù)塊存儲(chǔ)哪些 DataNode),Client 直接從這些 DataNode 讀取文件數(shù)據(jù)(在讀數(shù)據(jù)過(guò)程中,NameNode 不參與文件的傳輸),如下圖。

2.2.2 MapReduce

MapReduce 是一個(gè)分布式計(jì)算軟件框架,具有擴(kuò)展性良好、高容錯(cuò)性的特點(diǎn),且支持處理 T 級(jí)別的數(shù)據(jù)離線處理。

在 MapReduce 中,一個(gè)準(zhǔn)備提交執(zhí)行的應(yīng)用程序稱(chēng)為 “作業(yè)(job)”,而從一個(gè)作業(yè)劃分出的運(yùn)行于各個(gè)計(jì)算節(jié)點(diǎn)的工作單元稱(chēng)為 “任務(wù)(task)”。

一個(gè) MapReduce1.0 作業(yè)(job)通常會(huì)把輸入的數(shù)據(jù)集切分為若干獨(dú)立的數(shù)據(jù)塊,由 map 以完全并行的方式處理任務(wù)(task)??蚣軙?huì)對(duì) map 的輸出先進(jìn)行排序,然后把結(jié)果輸入給 reduce。通常作業(yè)的輸入和輸出都會(huì)被存儲(chǔ)在文件系統(tǒng)中。整個(gè)框架負(fù)責(zé)任務(wù)的調(diào)度和監(jiān)控,以及重新執(zhí)行已經(jīng)失敗的任務(wù)。舉個(gè)官方提供的 WordCount 例子,如下圖。

在 WordCount 程序中,MapReduce 會(huì)對(duì)輸入的作業(yè)(job)先進(jìn)性切分,這一步其實(shí)就是分治算法中 “分” 的過(guò)程。切分后不同部分就會(huì)讓不同的機(jī)器去執(zhí)行 Map 操作。而后便是 Shuffle(實(shí)質(zhì)是歸并排序),這一階段會(huì)將相同的單詞加到一起,最后再進(jìn)行 Reduce(規(guī)約),統(tǒng)計(jì)出結(jié)果并輸出到文件。

通常,MapReduce 由一個(gè)單獨(dú)的 Master JobTracker 和每個(gè)集群節(jié)點(diǎn)上一個(gè) Slave TaskTracker 共同組成。Master 負(fù)責(zé)調(diào)度構(gòu)成一個(gè)作業(yè)的所有任務(wù),這些任務(wù)分布在不同的 Slave 上,Master 監(jiān)控它們的執(zhí)行,并且監(jiān)控重新執(zhí)行已經(jīng)失敗的任務(wù)。而 Slave 僅負(fù)責(zé)執(zhí)行由 Master 指派的任務(wù)。

2.2.3 YARN

YARN 是 Hadoop2.0 中的資源管理系統(tǒng),它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來(lái)了巨大好處。

它的基本設(shè)計(jì)思想是將 MRv1 中的 JobTracker 拆分成了兩個(gè)獨(dú)立的服務(wù):一個(gè)全局的資源調(diào)度器 ResourceManager 和每個(gè)應(yīng)用程序特有的應(yīng)用程序管理器 ApplicationMaster,該調(diào)度器是一個(gè) “純調(diào)度器”,不再參與任何與具體應(yīng)用程序邏輯相關(guān)的工作,而僅根據(jù)各個(gè)應(yīng)用程序的資源需求進(jìn)行分配,資源分配的單位用一個(gè)資源抽象概念 “Container” 來(lái)表示,Container 封裝了內(nèi)存和 CPU。

此外,調(diào)度器是一個(gè)可插拔的組件,用戶(hù)可根據(jù)自己的需求設(shè)計(jì)新的調(diào)度器,YARN 自身提供了 Fair Scheduler 和 Capacity Scheduler。

應(yīng)用程序管理器負(fù)責(zé)管理整個(gè)系統(tǒng)中所有應(yīng)用程序,包括應(yīng)用程序的提交、與調(diào)度器協(xié)商資源以啟動(dòng) ApplicationMaster、監(jiān)控 ApplicationMaster 運(yùn)行狀態(tài)并在失敗時(shí)重新啟動(dòng)等。

2.2.4 Hive

Hive 由 Facebook 實(shí)現(xiàn)并開(kāi)源,是基于 Hadoop 的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)映射為一張數(shù)據(jù)庫(kù)表,并提供 HQL(Hive SQL)查詢(xún)功能。

其實(shí),Hive 的本質(zhì)就是將 SQL 語(yǔ)句轉(zhuǎn)換成 MapReduce 任務(wù)執(zhí)行,也就是說(shuō),使不熟悉 MapReduce 的用戶(hù)很方便地使用 HQL 處理和計(jì)算 HDFS 上的結(jié)構(gòu)化的數(shù)據(jù),如下圖。


1)Hive的架構(gòu)

(1)Hive的用戶(hù)接口層

CLI,即 Shell 終端命令行,采用交互形式使用 Hive 命令與 Hive 進(jìn)行交互。

JDBC/ODBC,開(kāi)發(fā)人員或運(yùn)維人員通過(guò) JDBC 提供的客戶(hù)端連接至 Hive server 服務(wù)。

Web UI,通過(guò)瀏覽器訪問(wèn) Hive。

(2)跨語(yǔ)言服務(wù)

Thrift server 提供了一種能力,用戶(hù)可以使用多種不同的語(yǔ)言(如Java、C++、Ruby等)來(lái)操作 Hive。

(3)底層的 Driver

Driver 組件完成 HQL 查詢(xún)語(yǔ)句從詞法分析、語(yǔ)法分析、編譯、優(yōu)化及生成邏輯執(zhí)行語(yǔ)句,生成的邏輯執(zhí)行語(yǔ)句存儲(chǔ)在 HDFS 中,接下來(lái) MapReduce 調(diào)用執(zhí)行。

Hive 的核心是驅(qū)動(dòng)引擎,它由四部分組成:解釋器、編譯器、優(yōu)化器、執(zhí)行器。

(4)元數(shù)據(jù)存儲(chǔ)系統(tǒng)

Hive 中的元數(shù)據(jù)一般包括:數(shù)據(jù)庫(kù)的基本信息、表的基本信息等。

元數(shù)據(jù)信息一般存儲(chǔ)在 Mysql 數(shù)據(jù)庫(kù)中。

2)Hive與RDBMS比較

Hive 與 RDBMS 應(yīng)用場(chǎng)景完全不同,Hive 僅適合用來(lái)做海量數(shù)據(jù)離線統(tǒng)計(jì)分析,即數(shù)據(jù)倉(cāng)庫(kù)。

2.2.5 Pig

Pig 是一種編程語(yǔ)言,它簡(jiǎn)化了 Hadoop 常見(jiàn)的工作任務(wù),Pig 為大型數(shù)據(jù)集處理提供了更高層次的抽象,與 MapReduce 相比,Pig 提供了更豐富的數(shù)據(jù)結(jié)構(gòu),一般都是多值和嵌套的數(shù)據(jù)結(jié)構(gòu)。

2.2.6 HBase

HBase 是 Apache 的 Hadoop 項(xiàng)目的子項(xiàng)目,是 Hadoop Database 的簡(jiǎn)稱(chēng)。

HBase 是一個(gè)高可靠、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用 HBase 技術(shù)可在廉價(jià) PC Server 上搭建大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。

HBase 是一個(gè)分布式的、面向列族的開(kāi)源數(shù)據(jù)庫(kù),構(gòu)建在 Apache Hadoop 和 Apache Zookeeper 之上。HBase 不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是 HBase 基于列的而不是基于行的模式。

雖然 Hadoop 是一個(gè)高容錯(cuò)、高延時(shí)的分布式文件系統(tǒng)和高并發(fā)的批處理系統(tǒng),但是它不適用于提供實(shí)時(shí)計(jì)算。

然而,HBase 是可以提供實(shí)時(shí)計(jì)算的分布式數(shù)據(jù)庫(kù),數(shù)據(jù)保存在 HDFS 分布式文件系統(tǒng)上,由 HDFS 保證其高容錯(cuò)性。HBase 內(nèi)部使用哈希表和提供隨機(jī)接入,并且其存儲(chǔ)索引,可將在 HDFS 文件中的數(shù)據(jù)進(jìn)行快速查找。

2.2.7 Zookeeper

Zookeeper 作為一個(gè)分布式服務(wù)框架,是 Apache Hadoop 的一個(gè)子項(xiàng)目,是基于 Fast Paxos 算法實(shí)現(xiàn),它主要用來(lái)解決分布式系統(tǒng)中的一些數(shù)據(jù)管理問(wèn)題,如:統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。

一個(gè)典型的分布式數(shù)據(jù)一致性的解決方案,分布式應(yīng)用程序可以基于它實(shí)現(xiàn)諸如數(shù)據(jù)發(fā)布/訂閱、負(fù)載均衡、命名服務(wù)、分布式協(xié)調(diào)/通知、集群管理、Master 選舉、分布式鎖和分布式隊(duì)列等功能。

2.2.8 Oozie

Apache Oozie 是一個(gè)開(kāi)源的工作流和協(xié)作服務(wù)引擎,基于 Apache Hadoop 的數(shù)據(jù)處理任務(wù)。Oozie 是可擴(kuò)展的、可伸縮的面向數(shù)據(jù)的服務(wù),運(yùn)行在 Hadoop 平臺(tái)上,用來(lái)調(diào)度與管理 Hadoop 任務(wù),比如:MapReduce、Pig 等。

Oozie 的工作流必須是一個(gè)有向無(wú)環(huán)圖,實(shí)際上 Oozie 就相當(dāng)于 Hadoop 的一個(gè)客戶(hù)端,當(dāng)用戶(hù)需要執(zhí)行多個(gè)關(guān)聯(lián)的MR任務(wù)時(shí),只需要將MR執(zhí)行順序?qū)懭?workflow.xml,然后使用 Oozie 提交本次任務(wù),Oozie 會(huì)托管此任務(wù)流。

在實(shí)際的業(yè)務(wù)中處理數(shù)據(jù)時(shí)一般包含多個(gè) MR,這些 MR 可能是 Java 或 HDFS,甚至是 Shell 腳本。這時(shí),使用 Oozie 可以輕松完成這種多樣的工作流。在使用 Oozie 時(shí),若前一個(gè)任務(wù)執(zhí)行失敗,后一個(gè)任務(wù)將不會(huì)被調(diào)度。

2.2.9 Sqoop

Sqoop 是 SQL to Hadoop 的縮寫(xiě),是數(shù)據(jù)庫(kù) ETL 工具。主要作用于結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)與 Hadoop 之間進(jìn)行雙向交換。也就是說(shuō),Sqoop 可以將關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入到 HDFS、Hive,也可以從 HDFS、Hive 導(dǎo)出到關(guān)系型數(shù)據(jù)庫(kù)中。

Sqoop 核心設(shè)計(jì)思想是利用 MapReduce 加快數(shù)據(jù)傳輸速度,也就是說(shuō) Sqoop 的導(dǎo)入和導(dǎo)出功能是通過(guò) MapReduce 作業(yè)實(shí)現(xiàn)的,所以它是以批處理方式進(jìn)行數(shù)據(jù)傳輸,難以實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)的導(dǎo)入和導(dǎo)出。

2.2.10 Flume

Flume 是 Cloudera 提供的一個(gè)高可用、高可靠,分布式的海量日志采集、聚合和傳輸系統(tǒng),F(xiàn)lume 支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方,用于數(shù)據(jù)收集;同時(shí) Flume 提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接收方(比如HDFS、HBase等)的能力。

2.2.11 Kafka

Kafka 是由 Apache 軟件基金會(huì)開(kāi)發(fā)的一個(gè)開(kāi)源流處理平臺(tái),由 Scala 和 Java 編寫(xiě)。

Kafka 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)。具有分布式、高可用的特性,在大數(shù)據(jù)系統(tǒng)里被廣泛使用,如果把大數(shù)據(jù)系統(tǒng)比作一臺(tái)機(jī)器,那么 Kafka 就是前端總線,它連接了平臺(tái)中的各個(gè)組件。

Kafka 的目的是通過(guò) Hadoop 的并行加載機(jī)制來(lái)統(tǒng)一線上和離線的消息處理,也是為了通過(guò)集群來(lái)提供實(shí)時(shí)的消息。

看得有些暈了吧?可以看下面這張圖更直觀些。

從上面列舉的組件看出,Hadoop 擁有二十多種組件,同時(shí),也說(shuō)明了 Hadoop 的應(yīng)用范圍非常廣泛,包括:日志采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析等,都可以使用它順利實(shí)現(xiàn)。

-END-

一個(gè)數(shù)據(jù)人的自留地
分享到朋友圈
收藏
收藏
評(píng)分

綜合評(píng)分:

我的評(píng)分
Xinstall 15天會(huì)員特權(quán)
Xinstall是專(zhuān)業(yè)的數(shù)據(jù)分析服務(wù)商,幫企業(yè)追蹤渠道安裝來(lái)源、裂變拉新統(tǒng)計(jì)、廣告流量指導(dǎo)等,廣泛應(yīng)用于廣告效果統(tǒng)計(jì)、APP地推與CPS/CPA歸屬統(tǒng)計(jì)等方面。
20羽毛
立即兌換
一書(shū)一課30天會(huì)員體驗(yàn)卡
領(lǐng)30天VIP會(huì)員,110+門(mén)職場(chǎng)大課,250+本精讀好書(shū)免費(fèi)學(xué)!助你提升職場(chǎng)力!
20羽毛
立即兌換
順豐同城急送全國(guó)通用20元優(yōu)惠券
順豐同城急送是順豐推出的平均1小時(shí)送全城的即時(shí)快送服務(wù),專(zhuān)業(yè)安全,準(zhǔn)時(shí)送達(dá)!
30羽毛
立即兌換
一個(gè)數(shù)據(jù)人的自留地
數(shù)據(jù)人交流和學(xué)習(xí)的社區(qū),關(guān)注我們,掌握專(zhuān)業(yè)數(shù)據(jù)知識(shí)、結(jié)識(shí)更多的數(shù)據(jù)小伙伴。
確認(rèn)要消耗 0羽毛購(gòu)買(mǎi)
初識(shí)大數(shù)據(jù)與Hadoop嗎?
考慮一下
很遺憾,羽毛不足
我知道了

我們致力于提供一個(gè)高質(zhì)量?jī)?nèi)容的交流平臺(tái)。為落實(shí)國(guó)家互聯(lián)網(wǎng)信息辦公室“依法管網(wǎng)、依法辦網(wǎng)、依法上網(wǎng)”的要求,為完善跟帖評(píng)論自律管理,為了保護(hù)用戶(hù)創(chuàng)造的內(nèi)容、維護(hù)開(kāi)放、真實(shí)、專(zhuān)業(yè)的平臺(tái)氛圍,我們團(tuán)隊(duì)將依據(jù)本公約中的條款對(duì)注冊(cè)用戶(hù)和發(fā)布在本平臺(tái)的內(nèi)容進(jìn)行管理。平臺(tái)鼓勵(lì)用戶(hù)創(chuàng)作、發(fā)布優(yōu)質(zhì)內(nèi)容,同時(shí)也將采取必要措施管理違法、侵權(quán)或有其他不良影響的網(wǎng)絡(luò)信息。


一、根據(jù)《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》《中華人民共和國(guó)未成年人保護(hù)法》等法律法規(guī),對(duì)以下違法、不良信息或存在危害的行為進(jìn)行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
    1)反對(duì)憲法所確定的基本原則;
    2)危害國(guó)家安全,泄露國(guó)家秘密,顛覆國(guó)家政權(quán),破壞國(guó)家統(tǒng)一,損害國(guó)家榮譽(yù)和利益;
    3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽(yù)、榮譽(yù);
    4)宣揚(yáng)恐怖主義、極端主義或者煽動(dòng)實(shí)施恐怖活動(dòng)、極端主義活動(dòng);
    5)煽動(dòng)民族仇恨、民族歧視,破壞民族團(tuán)結(jié);
    6)破壞國(guó)家宗教政策,宣揚(yáng)邪教和封建迷信;
    7)散布謠言,擾亂社會(huì)秩序,破壞社會(huì)穩(wěn)定;
    8)宣揚(yáng)淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
    9)煽動(dòng)非法集會(huì)、結(jié)社、游行、示威、聚眾擾亂社會(huì)秩序;
    10)侮辱或者誹謗他人,侵害他人名譽(yù)、隱私和其他合法權(quán)益;
    11)通過(guò)網(wǎng)絡(luò)以文字、圖片、音視頻等形式,對(duì)未成年人實(shí)施侮辱、誹謗、威脅或者惡意損害未成年人形象進(jìn)行網(wǎng)絡(luò)欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法規(guī)禁止的其他內(nèi)容;


2. 不友善:不尊重用戶(hù)及其所貢獻(xiàn)內(nèi)容的信息或行為。主要表現(xiàn)為:
    1)輕蔑:貶低、輕視他人及其勞動(dòng)成果;
    2)誹謗:捏造、散布虛假事實(shí),損害他人名譽(yù);
    3)嘲諷:以比喻、夸張、侮辱性的手法對(duì)他人或其行為進(jìn)行揭露或描述,以此來(lái)激怒他人;
    4)挑釁:以不友好的方式激怒他人,意圖使對(duì)方對(duì)自己的言論作出回應(yīng),蓄意制造事端;
    5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對(duì)方難堪;
    6)謾罵:以不文明的語(yǔ)言對(duì)他人進(jìn)行負(fù)面評(píng)價(jià);
    7)歧視:煽動(dòng)人群歧視、地域歧視等,針對(duì)他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類(lèi)的攻擊;
    8)威脅:許諾以不良的后果來(lái)迫使他人服從自己的意志;


3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶(hù)體驗(yàn)、擾亂本網(wǎng)站秩序的內(nèi)容,或進(jìn)行相關(guān)行為。主要表現(xiàn)為:
    1)多次發(fā)布包含售賣(mài)產(chǎn)品、提供服務(wù)、宣傳推廣內(nèi)容的垃圾廣告。包括但不限于以下幾種形式:
    2)單個(gè)帳號(hào)多次發(fā)布包含垃圾廣告的內(nèi)容;
    3)多個(gè)廣告帳號(hào)互相配合發(fā)布、傳播包含垃圾廣告的內(nèi)容;
    4)多次發(fā)布包含欺騙性外鏈的內(nèi)容,如未注明的淘寶客鏈接、跳轉(zhuǎn)網(wǎng)站等,誘騙用戶(hù)點(diǎn)擊鏈接
    5)發(fā)布大量包含推廣鏈接、產(chǎn)品、品牌等內(nèi)容獲取搜索引擎中的不正當(dāng)曝光;
    6)購(gòu)買(mǎi)或出售帳號(hào)之間虛假地互動(dòng),發(fā)布干擾網(wǎng)站秩序的推廣內(nèi)容及相關(guān)交易。
    7)發(fā)布包含欺騙性的惡意營(yíng)銷(xiāo)內(nèi)容,如通過(guò)偽造經(jīng)歷、冒充他人等方式進(jìn)行惡意營(yíng)銷(xiāo);
    8)使用特殊符號(hào)、圖片等方式規(guī)避垃圾廣告內(nèi)容審核的廣告內(nèi)容。


4. 色情低俗信息,主要表現(xiàn)為:
    1)包含自己或他人性經(jīng)驗(yàn)的細(xì)節(jié)描述或露骨的感受描述;
    2)涉及色情段子、兩性笑話的低俗內(nèi)容;
    3)配圖、頭圖中包含庸俗或挑逗性圖片的內(nèi)容;
    4)帶有性暗示、性挑逗等易使人產(chǎn)生性聯(lián)想;
    5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
    6)炒作緋聞、丑聞、劣跡等;
    7)宣揚(yáng)低俗、庸俗、媚俗內(nèi)容。


5. 不實(shí)信息,主要表現(xiàn)為:
    1)可能存在事實(shí)性錯(cuò)誤或者造謠等內(nèi)容;
    2)存在事實(shí)夸大、偽造虛假經(jīng)歷等誤導(dǎo)他人的內(nèi)容;
    3)偽造身份、冒充他人,通過(guò)頭像、用戶(hù)名等個(gè)人信息暗示自己具有特定身份,或與特定機(jī)構(gòu)或個(gè)人存在關(guān)聯(lián)。


6. 傳播封建迷信,主要表現(xiàn)為:
    1)找人算命、測(cè)字、占卜、解夢(mèng)、化解厄運(yùn)、使用迷信方式治??;
    2)求推薦算命看相大師;
    3)針對(duì)具體風(fēng)水等問(wèn)題進(jìn)行求助或咨詢(xún);
    4)問(wèn)自己或他人的八字、六爻、星盤(pán)、手相、面相、五行缺失,包括通過(guò)占卜方法問(wèn)婚姻、前程、運(yùn)勢(shì),東西寵物丟了能不能找回、取名改名等;


7. 文章標(biāo)題黨,主要表現(xiàn)為:
    1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來(lái)誘導(dǎo)用戶(hù);
    2)內(nèi)容與標(biāo)題之間存在嚴(yán)重不實(shí)或者原意扭曲;
    3)使用夸張標(biāo)題,內(nèi)容與標(biāo)題嚴(yán)重不符的。


8.「飯圈」亂象行為,主要表現(xiàn)為:
    1)誘導(dǎo)未成年人應(yīng)援集資、高額消費(fèi)、投票打榜
    2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
    3)鼓動(dòng)「飯圈」粉絲攀比炫富、奢靡享樂(lè)等行為
    4)以號(hào)召粉絲、雇用網(wǎng)絡(luò)水軍、「養(yǎng)號(hào)」形式刷量控評(píng)等行為
    5)通過(guò)「蹭熱點(diǎn)」、制造話題等形式干擾輿論,影響傳播秩序


9. 其他危害行為或內(nèi)容,主要表現(xiàn)為:
    1)可能引發(fā)未成年人模仿不安全行為和違反社會(huì)公德行為、誘導(dǎo)未成年人不良嗜好影響未成年人身心健康的;
    2)不當(dāng)評(píng)述自然災(zāi)害、重大事故等災(zāi)難的;
    3)美化、粉飾侵略戰(zhàn)爭(zhēng)行為的;
    4)法律、行政法規(guī)禁止,或可能對(duì)網(wǎng)絡(luò)生態(tài)造成不良影響的其他內(nèi)容。


二、違規(guī)處罰
本網(wǎng)站通過(guò)主動(dòng)發(fā)現(xiàn)和接受用戶(hù)舉報(bào)兩種方式收集違規(guī)行為信息。所有有意的降低內(nèi)容質(zhì)量、傷害平臺(tái)氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當(dāng)一個(gè)用戶(hù)發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將依據(jù)相關(guān)用戶(hù)違規(guī)情節(jié)嚴(yán)重程度,對(duì)帳號(hào)進(jìn)行禁言 1 天、7 天、15 天直至永久禁言或封停賬號(hào)的處罰。當(dāng)涉及欺凌未成年人、危害未成年人身心健康、通過(guò)作弊手段注冊(cè)、使用帳號(hào),或者濫用多個(gè)帳號(hào)發(fā)布違規(guī)內(nèi)容時(shí),本網(wǎng)站將加重處罰。


三、申訴
隨著平臺(tái)管理經(jīng)驗(yàn)的不斷豐富,本網(wǎng)站出于維護(hù)本網(wǎng)站氛圍和秩序的目的,將不斷完善本公約。
如果本網(wǎng)站用戶(hù)對(duì)本網(wǎng)站基于本公約規(guī)定做出的處理有異議,可以通過(guò)「建議反饋」功能向本網(wǎng)站進(jìn)行反饋。
(規(guī)則的最終解釋權(quán)歸屬本網(wǎng)站所有)

我知道了
恭喜你~答對(duì)了
+5羽毛
下一次認(rèn)真讀哦
成功推薦給其他人
+ 10羽毛
評(píng)論成功且進(jìn)入審核!審核通過(guò)后,您將獲得10羽毛的獎(jiǎng)勵(lì)。分享本文章給好友閱讀最高再得15羽毛~
(羽毛可至 "羽毛精選" 兌換禮品)
好友微信掃一掃
復(fù)制鏈接