Googleの基盤クローン Hadoopについて

Google の基盤クローン Hadoop について太田一樹 <kazuki.ohta@gmail.com>

自己紹介 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

とは？ ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Google 関連参考論文 & スライド ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Hadoop 参考文献 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

性能 ,[object Object],[object Object],[object Object],[object Object],[object Object],物量作戦

性能 ( 僕が測ってみた )

関連プロジェクト ,[object Object],[object Object],[object Object],[object Object],clean = FILTER raw BY org.apache.pig.tutorial.NonURLDetector(query);

問題 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

解決方法 ,[object Object],[object Object],[object Object],[object Object]

お金だけでは解決しない ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],うはーめんどくせー！

既存の分散 / 並列プログラミング環境 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

MPI の問題点 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

そこで MapReduce ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

MapReduce 型の処理 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

MapReduce の実行フロー Data Map Data Map Data Map Reduce Reduce Data Data Shuffle

MapReduce の実行フロー ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

MapReduce の実行フロー Data Map Data Map Data Map Reduce Reduce Data Data Shuffle <k, v>* <k, v>* <k, v>* <k, v>* ⇒ <k’, v’>* <k’, <v’>*>* ⇒ <k’’, v’’>* <k, v>* ⇒ <k’, v’>* <k, v>* ⇒ <k’, v’>* <k’, <v’>*>* ⇒ <k’’, v’’>*

例 : ワードカウント Data Map Data Map Data Map Reduce Reduce Data Data Shuffle foo foo foo bar bar buzz 入力文書 : doc1

例 : ワードカウント Data Map Data Map Data Map Reduce Reduce Data Data Shuffle foo foo foo bar bar buz 入力文書 : doc1 doc1: foo doc1: foo doc1: foo doc1: bar doc1: bar doc1: buz

例 : ワードカウント Data Map Data Map Data Map Reduce Reduce Data Data Shuffle foo foo foo bar bar buz 入力文書 : doc1 doc1: foo doc1: bar doc1: bar doc1: buz doc1: foo doc1: foo

例 : ワードカウント Data Map Data Map Data Map Reduce Reduce Data Data foo foo foo bar bar buz 入力文書 : doc1 doc1: foo doc1: bar doc1: bar doc1: buz doc1: foo doc1: foo foo: 1 foo: 1 bar: 1 foo: 1 bar: 1 buz: 1

例 : ワードカウント Data Map Data Map Data Map Reduce Reduce Data Data foo foo foo bar bar buz 入力文書 : doc1 foo: 1 foo: 1 bar: 1 foo: 1 bar: 1 buz: 1 bar: <1, 1> buz: <1> foo: <1, 1, 1>

例 : ワードカウント Data Map Data Map Data Map Reduce Reduce Data Data foo foo foo bar bar buz 入力文書 : doc1 bar: <1, 1> buz: <1> foo: <1, 1, 1>

例 : ワードカウント Data Map Data Map Data Map Reduce Reduce Data Data foo foo foo bar bar buz 入力文書 : doc1 foo: <1, 1, 1> bar: <1, 1> buz: <1> foo: 3 bar: 2 buz: 1

例 : ワードカウント Data Map Data Map Data Map Reduce Reduce Data Data foo foo foo bar bar buz 入力文書 : doc1 bar: 2 buz: 1 foo: 3

例 : ワードカウント ,[object Object],map(string key, string value) { foreach word in value: emit(word, 1); } reduce(string key, vector<int> values) { int result = 0; for (int i = 0; I < values.size(); i++) result += values[i]; emit(key, result); }

MapReduce の特徴 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

論文に書かれていない、僕が思う MapReduce の短所 ,[object Object],[object Object],[object Object],[object Object],Map Map Map Reduce Reduce Shuffle

Hadoop の中身 ,[object Object],[object Object],[object Object],[object Object],[object Object]

Hadoop Distributed File System ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

From: http://hadoop.apache.org/core/docs/current/hdfs_design.html

データ配置のアルゴリズム (1) ,[object Object],[object Object],[object Object]

レプリケーションのアルゴリズム (2) ,[object Object],[object Object],[object Object],[object Object],[object Object],意外とこういう適当なのが上手く行くのかもしれない

GFS に有って HDFS に無いもの ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Hadoop MapReduce ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

MapReduce Architecture JobTracker TaskTracker

Map フェーズ ,[object Object],[object Object],[object Object],[object Object],(k, v) Reducer1 宛て Reducer2 宛て

Reduce フェーズ ,[object Object],[object Object],[object Object],[object Object],[object Object]

HDFS の操作方法 # ls alias dfsls='~/hadoop/bin/hadoop dfs -ls‘ # ls -r alias dfslsr='~/hadoop/bin/hadoop dfs -lsr‘ # rm alias dfsrm='~/hadoop/bin/hadoop dfs -rm‘ # rm -r alias dfsrmr='~/hadoop/bin/hadoop dfs -rmr' # cat alias dfscat='~/hadoop/bin/hadoop dfs -cat‘ # mkdir alias dfsmkdir='~/hadoop/bin/hadoop dfs -mkdir‘

HDFS の操作方法 hadoop@pficore:~$ dfsls Found 5 items /user/hadoop/access-log <r 3> 3003 2008-04-30 00:21 /user/hadoop/hoge <r 3> 2183 2008-04-30 00:32 /user/hadoop/reported <dir> 2008-04-30 00:28 /user/hadoop/wcinput <r 3> 29 2008-05-08 10:17 /user/hadoop/wcoutput <dir> 2008-05-08 11:48

HDFS の操作方法 ,[object Object],[object Object],alias dfsput='~/hadoop/bin/hadoop dfs -put‘ dfsput <local-path> <hdfs-path> alias dfsget='~/hadoop/bin/hadoop dfs -get‘ dfsget <hdfs-path> <local-path>

HDFS の使用方法 hadoop@pficore:~$ dfsls Found 0 items hadoop@pficore:~$ dfsput hoge.txt hoge.txt hadoop@pficore:~$ dfsls Found 1 items /user/hadoop/hoge.txt <r 3> 31 2008-05-08 12:00

HDFS の特徴 ,[object Object],[object Object],[object Object],[object Object]

Hadoop Programming on Hadoop with “Java”

Skipped for Kernel Hackers  who never want to write Java :-P

Hadoop Programming on Hadoop with “ Hadoop Streaming ” (sh, C, C++, Ruby, Python, etc.)

HadoopStreaming ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

使い方 ,[object Object],./bin/hadoop jar contrib/hadoop-0.15.3-streaming.jar -input inputdir [HDFS のパス ] -output outputdir [HDFS のパス ] -mapper map [map プログラムのパス ] -reduce reduce [reduce プログラムのパス ] -inputformat [TextInputFormat | SequenceFileAsTextInputFormat] -outputformat [TextOutputFormat]

InputFormat ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],Hoge fu ga fafa fdsaf dasfd sak fjadsj fdsaf dsafdsa fdsafdsafdsa fadsfdsa fdsa fsafds <offset, Hoge fu ga fafa fdsaf dasfd sak fjadsj fdsaf > <offset, fdsafdsafdsa fadsfdsa fdsa fsafds> k1 v1 k2 v2 k3 v3 <k1, v1> <k2, v2> <k3, v3> mapper mapper

OutputFormat ,[object Object],[object Object],[object Object],[object Object]

Map ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Reduce ,[object Object],[object Object],[object Object],[object Object],[object Object]

例 : Ruby によるワードカウント map.rb #!/usr/bin/env ruby while !STDIN.eof? line = STDIN.readline.strip ws = line.split ws.each { |w| puts "#{w}1“ } end reduce.rb #!/usr/bin/env ruby h = {} while !STDIN.eof? line = STDIN.readline.strip word = line.split("")[0] unless h.has_key? word h[word] = 1 else h[word] += 1 end end h.each { |w, c| puts "#{w}#{c}“ } $ ./bin/hadoop jar contrib/hadoop-0.15.3-streaming.jar -input wcinput -output wcoutput -mapper /home/hadoop/kzk/map.rb -reducer /home/hadoop/kzk/reduce.rb -inputformat TextInputFormat -outputformat TextOutputFormat

例 : 出力を圧縮する ,[object Object],[object Object],[object Object],$ ./bin/hadoop jar contrib/hadoop-0.15.3-streaming.jar -input wcinput -output wcoutput -mapper /home/hadoop/kzk/map.rb -reducer /home/hadoop/kzk/reduce.rb -inputformat TextInputFormat -outputformat TextOutputFormat -jobconf mapred.output.compress=true

ためしに書いてみたもの ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Enjoy Playing Around Hadoop  Thank you! kzk

Googleの基盤クローン Hadoopについて

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Googleの基盤クローン Hadoopについて

Similar to Googleの基盤クローン Hadoopについて (20)

More from Kazuki Ohta

More from Kazuki Ohta (6)

Recently uploaded

Recently uploaded (8)

Googleの基盤クローン Hadoopについて