您現在的位置是:首頁 > 垂釣

Hadoop中單詞統計案例

  • 由 分享電腦學習 發表于 垂釣
  • 2022-09-17
簡介split(“”),做一次處理,資料會在不同的紅黃綠資料塊中變為下面的KV形式5、我們在配置Hadoop的時候或設定reduce的數量,假如有兩個reduceMap執行完的資料會放到對應的reduce中,如下圖6、這個地方有一個簡單的原理就

最好的單詞怎麼寫

一、搭建本地環境

1、下載準備兩個工具

Hadoop-2。7。3。tar。gz

Hadoop-2。7。3-winutils。exe。rar

Hadoop中單詞統計案例

2、將Hadoop-2。7。3-winutils。exe。rar解壓後,其中的兩個檔案進行複製

Hadoop。dll

Wintuils。exe

Hadoop中單詞統計案例

3、將Hadoop-2。7。3。tar。gz解壓後,找到bin目錄,把上面的兩個檔案Hadoop。dll、Wintuils。exe複製到當前位置

Hadoop中單詞統計案例

4、配置Hadoop的環境變數

Hadoop中單詞統計案例

5、找到Hadoop中的日誌檔案log4j。properties複製到我們新建的Eclipse中的Maven專案中,這個日誌檔案是方便我們使用的,不需要寫太多的配置,直接借用Hadoop中檔案內容,也可以自己建立該日誌檔案,編寫裡面的內容。

(1)Hadoop中日誌檔案的位置

Hadoop中單詞統計案例

(2)複製到Eclipse中專案的位置

Hadoop中單詞統計案例

二、程式碼編寫

1、編寫Mapper

Hadoop中單詞統計案例

2、編寫Reduce

Hadoop中單詞統計案例

3、編寫主類

Hadoop中單詞統計案例

4、執行測試,首先我們先打一個JAR包

Hadoop中單詞統計案例

Hadoop中單詞統計案例

5、我匯出到本地專案中了

Hadoop中單詞統計案例

6、將包上傳到我們的虛擬機器中

Hadoop中單詞統計案例

7、上傳我們的測試檔案,測試檔案的文字結構如下,可以自己編寫,中間使用空格隔開的。

hello everyone

hello hadoop

hello hadoop

hello hive

go home

come on

Hadoop中單詞統計案例

8、我們執行一下

Hadoop中單詞統計案例

Hadoop中單詞統計案例

9、我們檢視一下瀏覽器,執行後的結果

Hadoop中單詞統計案例

10、在虛擬機器檢視一下文字內容

Hadoop中單詞統計案例

三、單詞統計理解

(一)概念

1、單詞統計的是統計一個檔案中單詞出現的次數,比如下面的資料來源

Hadoop中單詞統計案例

2、其中,最終出現的次數結果應該是下面的顯示

Hadoop中單詞統計案例

(二)那麼在MapReduce中該如何編寫程式碼並出現最終結果?

首先我們把檔案上傳到HDFS中(hdfs dfs –put …)

資料名稱:data。txt,大小是size是2G

(三)進一步理解

1、紅黃綠三個塊表示的是資料存放的塊

Hadoop中單詞統計案例

2、然後資料data。txt進入map階段,會以

(KV對)的形式進入,K表示的是:每行首字母相對於檔案頭的位元組偏移量,V表示的是每一行的文字。

Hadoop中單詞統計案例

3、那麼我可以用圖表示:藍色的橢圓球表示一個map,紅黃綠資料塊在進入map階段的時候,資料的形式為左邊紅色的

(KV對)的形式

Hadoop中單詞統計案例

4、經過map處理,比如String。split(“”),做一次處理,資料會在不同的紅黃綠資料塊中變為下面的KV形式

Hadoop中單詞統計案例

Hadoop中單詞統計案例

5、我們在配置Hadoop的時候或設定reduce的數量,假如有兩個reduce

Map執行完的資料會放到對應的reduce中,如下圖

Hadoop中單詞統計案例

6、這個地方有一個簡單的原理就是

Job。setNumReduce會設定reduce的數量

而HashPartioner類可以利用 key。hashcode % reduce的結果,將不同的map結果輸入到不同的reduce中,比如a-e開頭的放到一個地方,e-z開頭的放到一個地方,那麼

Hadoop中單詞統計案例

Hadoop中單詞統計案例

7、這樣的資料結果就會變成

Hadoop中單詞統計案例

Hadoop中單詞統計案例

Hadoop中單詞統計案例

最終出現我們想要的結果,統計完成

四、練習

1、準備的資料:data。txt。文字內容:

hello everyone

hello hadoop

hello hadoop

hello hive

go home

come on

2、專案配置的pom檔案

Top