SlideShare a Scribd company logo
1 of 21
CDH4->5 UPDATE
苦労話
Cloudera World Tokyo 2015
11/10 2015
山田 雄
ネットビジネス本部
ディベロップメントデザインユニット
アーキテクト1グループ
1.自己紹介
2.UPDATE方法
3.はまったポイント
4.まとめ
本日のアジェンダ
◾️ 山田 雄(ヤマダ ユウ)
株式会社 リクルートライフスタイル
ネットビジネス本部
アーキテクト1G
データ基盤T
Twitter:@nii_yan
Blog:イクジニアブログ
・ちょっと前までフリーランスエンジニア
縁があってリクルートライフスタイルにお世話になることになった。
ビックデータ、Rubyが好き。
自己紹介
UPDATE方法
既存システム構成
RDB
File
ETL RDB
CDH4
CMをyum updateして
parcelでバーンってやれば
CDH5に出来るけど怖いので・・・
検証環境
RDB
File
RDB
CDH4
CDH5
distcp
RDB
• distcpってなに?
⇨クラスタ間でデータ同期をできるrsyncのようなものです。
差分更新出来ます。
• どんなプロトコル使えるの?
⇨hftpとか、webhdfsとか、hdfsとか。
• 帯域制限出来るの?。
⇨bandwidthオプションあります。
• なんか注意点は?
⇨異なるバージョン間でやるときはcrcchek方式違うことがあるので、
skipcrcchekオプション使いましょう。
distcp豆知識
はまったポイント
HBaseのデータコピーが辛い・・・
• HBaseのデータをクラスタ間でコピーするコマンドがCDH4と5の間では
使えなかった。
⇨Hiveのテーブルに1度loadしてからdistcpすることで対応。
HBaseのデータがコピー出来ない問題
Hiveが信用ならない・・・
• Left outer joinする際にsub query使うと、selectしたのと違うカラムが抽
出される(HIVE-9613)
⇨left outer joinする度に別名を使うようにすると回避出来る。
(CDH5.4.3まではBUGの再現を確認。それ以降は未確認)
Hiveカラムずれ問題
• 以下の条件が揃う際にwhere句が効かない(CDH5.4.3以降は修正済み)
– 4つ以上のテーブルをleft outer joinでつなぐ
– 複数のkeyでjoinする(aidとbidとか)
– 複数のkeyのjoinを入れ子にする。(aidでjoinの後にbidでjoinしてから
aidでjoinの様に)
– どこかのon句にkeyのjoin以外の条件を追加
– 入れ子にした後のテーブルのカラムでwhere句を生成
⇨keyのjoinの順番を変える事で対応
Hive where句効かない問題
Oozieの変化についていけない・・・
• workflowのフォーマットが変わった。新しいフォーマットに移行すると、
設定していたパラメータなど消える。
⇨とりあえず旧フォーマットでも使えるので、そのままに。
• workflowのimport,export機能がなくなった。
⇨なくなった・・・ CDH5で復活するかも??
• HiveのjobでHiveQLが書いてあるファイル内のhiveconfが使えなくなった。
⇨hivevarにするか、workflowのパラメータで設定。
Oozieのworkflowが色々変わった
CDHのUPDATEが早い
まとめ
UPDATEする際はきちんと検証しましょう
WE ARE
HIRING!!
リクリートライフスタイルでは一緒に働く仲間を募集しています。
http://engineer.recruit-lifestyle.co.jp/recruiting/
ご清聴ありがとうございました

More Related Content

What's hot

20201130 rpal tvol26
20201130 rpal tvol2620201130 rpal tvol26
20201130 rpal tvol26KEI INOUE
 
DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携Chuki ちゅき
 
売上に効くデータ組織~データから売上や利益を作るために何をしているか~
売上に効くデータ組織~データから売上や利益を作るために何をしているか~売上に効くデータ組織~データから売上や利益を作るために何をしているか~
売上に効くデータ組織~データから売上や利益を作るために何をしているか~Recruit Lifestyle Co., Ltd.
 
私が見てきたあるセカイの物語 Part I & II
私が見てきたあるセカイの物語 Part I & II私が見てきたあるセカイの物語 Part I & II
私が見てきたあるセカイの物語 Part I & IIKoichi ITO
 
Pythonではじめる野球プログラミング PyCon JP 2014 9/14 Talk Session
Pythonではじめる野球プログラミング PyCon JP 2014 9/14 Talk SessionPythonではじめる野球プログラミング PyCon JP 2014 9/14 Talk Session
Pythonではじめる野球プログラミング PyCon JP 2014 9/14 Talk SessionShinichi Nakagawa
 
チケットシステムの可能性 - 開発から業務まで -
チケットシステムの可能性 - 開発から業務まで -チケットシステムの可能性 - 開発から業務まで -
チケットシステムの可能性 - 開発から業務まで -Makoto SAKAI
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングRecruit Lifestyle Co., Ltd.
 
開発時の探し物を楽にする習慣作り
開発時の探し物を楽にする習慣作り開発時の探し物を楽にする習慣作り
開発時の探し物を楽にする習慣作りKoichi ITO
 
もしSIerのエンジニアがSRE本を読んだら
もしSIerのエンジニアがSRE本を読んだらもしSIerのエンジニアがSRE本を読んだら
もしSIerのエンジニアがSRE本を読んだらTomoki Ando
 
Desktop App Converter で Microsoft ストアデビュー & 野良野良ライフ満喫!!
Desktop App Converter で Microsoft ストアデビュー & 野良野良ライフ満喫!!Desktop App Converter で Microsoft ストアデビュー & 野良野良ライフ満喫!!
Desktop App Converter で Microsoft ストアデビュー & 野良野良ライフ満喫!!hiyohiyo
 
深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22Naoto Yoshida
 
Confluence と DITA による Webマニュアル作成フロー
Confluence と DITA によるWebマニュアル作成フローConfluence と DITA によるWebマニュアル作成フロー
Confluence と DITA による Webマニュアル作成フローTakashi Yamaguchi
 
強化学習@PyData.Tokyo
強化学習@PyData.Tokyo強化学習@PyData.Tokyo
強化学習@PyData.TokyoNaoto Yoshida
 
世界中のユーザーに愛される ソフトウェアを作りたい!!
世界中のユーザーに愛される ソフトウェアを作りたい!!世界中のユーザーに愛される ソフトウェアを作りたい!!
世界中のユーザーに愛される ソフトウェアを作りたい!!hiyohiyo
 
大規模インフラで考える インフラチームの未来
大規模インフラで考える インフラチームの未来大規模インフラで考える インフラチームの未来
大規模インフラで考える インフラチームの未来Masayuki Ueda
 
グリーで行われている勉強会とその特徴 ✕ 勉強会を主催してみた話
グリーで行われている勉強会とその特徴 ✕ 勉強会を主催してみた話グリーで行われている勉強会とその特徴 ✕ 勉強会を主催してみた話
グリーで行われている勉強会とその特徴 ✕ 勉強会を主催してみた話gree_tech
 
インフラエンジニアの楽しい標準化活動
インフラエンジニアの楽しい標準化活動インフラエンジニアの楽しい標準化活動
インフラエンジニアの楽しい標準化活動gree_tech
 
Detroit Programming City
Detroit Programming CityDetroit Programming City
Detroit Programming CityKoichi ITO
 

What's hot (20)

20201130 rpal tvol26
20201130 rpal tvol2620201130 rpal tvol26
20201130 rpal tvol26
 
DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携DX Suite & UiPath さっくり読み取りさっくり連携
DX Suite & UiPath さっくり読み取りさっくり連携
 
売上に効くデータ組織~データから売上や利益を作るために何をしているか~
売上に効くデータ組織~データから売上や利益を作るために何をしているか~売上に効くデータ組織~データから売上や利益を作るために何をしているか~
売上に効くデータ組織~データから売上や利益を作るために何をしているか~
 
私が見てきたあるセカイの物語 Part I & II
私が見てきたあるセカイの物語 Part I & II私が見てきたあるセカイの物語 Part I & II
私が見てきたあるセカイの物語 Part I & II
 
Zenlab - API Night
Zenlab - API NightZenlab - API Night
Zenlab - API Night
 
Pythonではじめる野球プログラミング PyCon JP 2014 9/14 Talk Session
Pythonではじめる野球プログラミング PyCon JP 2014 9/14 Talk SessionPythonではじめる野球プログラミング PyCon JP 2014 9/14 Talk Session
Pythonではじめる野球プログラミング PyCon JP 2014 9/14 Talk Session
 
チケットシステムの可能性 - 開発から業務まで -
チケットシステムの可能性 - 開発から業務まで -チケットシステムの可能性 - 開発から業務まで -
チケットシステムの可能性 - 開発から業務まで -
 
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリングデータ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
 
開発時の探し物を楽にする習慣作り
開発時の探し物を楽にする習慣作り開発時の探し物を楽にする習慣作り
開発時の探し物を楽にする習慣作り
 
もしSIerのエンジニアがSRE本を読んだら
もしSIerのエンジニアがSRE本を読んだらもしSIerのエンジニアがSRE本を読んだら
もしSIerのエンジニアがSRE本を読んだら
 
Desktop App Converter で Microsoft ストアデビュー & 野良野良ライフ満喫!!
Desktop App Converter で Microsoft ストアデビュー & 野良野良ライフ満喫!!Desktop App Converter で Microsoft ストアデビュー & 野良野良ライフ満喫!!
Desktop App Converter で Microsoft ストアデビュー & 野良野良ライフ満喫!!
 
深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22深層強化学習 Pydata.Okinawa Meetup #22
深層強化学習 Pydata.Okinawa Meetup #22
 
Confluence と DITA による Webマニュアル作成フロー
Confluence と DITA によるWebマニュアル作成フローConfluence と DITA によるWebマニュアル作成フロー
Confluence と DITA による Webマニュアル作成フロー
 
Presto in Yahoo! JAPAN #yjdsnight
Presto in Yahoo! JAPAN #yjdsnightPresto in Yahoo! JAPAN #yjdsnight
Presto in Yahoo! JAPAN #yjdsnight
 
強化学習@PyData.Tokyo
強化学習@PyData.Tokyo強化学習@PyData.Tokyo
強化学習@PyData.Tokyo
 
世界中のユーザーに愛される ソフトウェアを作りたい!!
世界中のユーザーに愛される ソフトウェアを作りたい!!世界中のユーザーに愛される ソフトウェアを作りたい!!
世界中のユーザーに愛される ソフトウェアを作りたい!!
 
大規模インフラで考える インフラチームの未来
大規模インフラで考える インフラチームの未来大規模インフラで考える インフラチームの未来
大規模インフラで考える インフラチームの未来
 
グリーで行われている勉強会とその特徴 ✕ 勉強会を主催してみた話
グリーで行われている勉強会とその特徴 ✕ 勉強会を主催してみた話グリーで行われている勉強会とその特徴 ✕ 勉強会を主催してみた話
グリーで行われている勉強会とその特徴 ✕ 勉強会を主催してみた話
 
インフラエンジニアの楽しい標準化活動
インフラエンジニアの楽しい標準化活動インフラエンジニアの楽しい標準化活動
インフラエンジニアの楽しい標準化活動
 
Detroit Programming City
Detroit Programming CityDetroit Programming City
Detroit Programming City
 

Similar to CDH4->5 update苦労話

openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713Takehiro Kudou
 
第4回 SoftLayer勉強会 資料
第4回 SoftLayer勉強会 資料第4回 SoftLayer勉強会 資料
第4回 SoftLayer勉強会 資料Naoki Shibata
 
20131019 OSC@Tokyo CloudStackユーザー会
20131019 OSC@Tokyo CloudStackユーザー会20131019 OSC@Tokyo CloudStackユーザー会
20131019 OSC@Tokyo CloudStackユーザー会samemoon
 
Windows 365 Enterprise に触れてみよう
Windows 365 Enterprise に触れてみようWindows 365 Enterprise に触れてみよう
Windows 365 Enterprise に触れてみようYutaro Tamai
 
実践!DBベンチマークツールの使い方
実践!DBベンチマークツールの使い方実践!DBベンチマークツールの使い方
実践!DBベンチマークツールの使い方Fujishiro Takuya
 
Changing Infrastructure operation by DevOps And Agile Development
Changing Infrastructure operation by DevOps And Agile DevelopmentChanging Infrastructure operation by DevOps And Agile Development
Changing Infrastructure operation by DevOps And Agile DevelopmentTaiji Tsuchiya
 
Desktop app dev strategy for .net core 3.0
Desktop app dev strategy for .net core 3.0Desktop app dev strategy for .net core 3.0
Desktop app dev strategy for .net core 3.0Atsushi Nakamura
 
IDCFクラウドセミナー RDB活用
IDCFクラウドセミナー RDB活用IDCFクラウドセミナー RDB活用
IDCFクラウドセミナー RDB活用IDC Frontier
 
de:code 2017 [TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」
de:code 2017 [TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」de:code 2017 [TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」
de:code 2017 [TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」Takashi Takebayashi
 
[TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」
[TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」[TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」
[TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」de:code 2017
 
Pythonおじさんのweb2py挑戦記
Pythonおじさんのweb2py挑戦記Pythonおじさんのweb2py挑戦記
Pythonおじさんのweb2py挑戦記Yoshiyuki Nakamura
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesignRyoma Nagata
 
佐賀大学 - データ分析と向き合う
佐賀大学 - データ分析と向き合う佐賀大学 - データ分析と向き合う
佐賀大学 - データ分析と向き合うDaiyu Hatakeyama
 
オンプレエンジニアがクラウドエンジニアを夢見て。じっと手を見る。
オンプレエンジニアがクラウドエンジニアを夢見て。じっと手を見る。オンプレエンジニアがクラウドエンジニアを夢見て。じっと手を見る。
オンプレエンジニアがクラウドエンジニアを夢見て。じっと手を見る。Akihiro Kuwano
 
Gitlab ci & ecsへのデプロイ
Gitlab ci & ecsへのデプロイGitlab ci & ecsへのデプロイ
Gitlab ci & ecsへのデプロイiwata jaws-ug
 
ソフトウエアジャパン2017 IT Forum AITC(6)
ソフトウエアジャパン2017 IT Forum AITC(6)ソフトウエアジャパン2017 IT Forum AITC(6)
ソフトウエアジャパン2017 IT Forum AITC(6)aitc_jp
 
Node-redでプロトタイピング
Node-redでプロトタイピングNode-redでプロトタイピング
Node-redでプロトタイピングMakoto SAKAI
 
Unityゲームにオンラインランキングとゴースト機能を追加しよう!
Unityゲームにオンラインランキングとゴースト機能を追加しよう!Unityゲームにオンラインランキングとゴースト機能を追加しよう!
Unityゲームにオンラインランキングとゴースト機能を追加しよう!史識 川原
 

Similar to CDH4->5 update苦労話 (20)

CentOS7にD8を入れてみた
CentOS7にD8を入れてみたCentOS7にD8を入れてみた
CentOS7にD8を入れてみた
 
Oss LT会_20210203
Oss LT会_20210203Oss LT会_20210203
Oss LT会_20210203
 
openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713
 
第4回 SoftLayer勉強会 資料
第4回 SoftLayer勉強会 資料第4回 SoftLayer勉強会 資料
第4回 SoftLayer勉強会 資料
 
20131019 OSC@Tokyo CloudStackユーザー会
20131019 OSC@Tokyo CloudStackユーザー会20131019 OSC@Tokyo CloudStackユーザー会
20131019 OSC@Tokyo CloudStackユーザー会
 
Windows 365 Enterprise に触れてみよう
Windows 365 Enterprise に触れてみようWindows 365 Enterprise に触れてみよう
Windows 365 Enterprise に触れてみよう
 
実践!DBベンチマークツールの使い方
実践!DBベンチマークツールの使い方実践!DBベンチマークツールの使い方
実践!DBベンチマークツールの使い方
 
Changing Infrastructure operation by DevOps And Agile Development
Changing Infrastructure operation by DevOps And Agile DevelopmentChanging Infrastructure operation by DevOps And Agile Development
Changing Infrastructure operation by DevOps And Agile Development
 
Desktop app dev strategy for .net core 3.0
Desktop app dev strategy for .net core 3.0Desktop app dev strategy for .net core 3.0
Desktop app dev strategy for .net core 3.0
 
IDCFクラウドセミナー RDB活用
IDCFクラウドセミナー RDB活用IDCFクラウドセミナー RDB活用
IDCFクラウドセミナー RDB活用
 
de:code 2017 [TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」
de:code 2017 [TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」de:code 2017 [TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」
de:code 2017 [TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」
 
[TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」
[TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」[TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」
[TL12] "炎上案件ストッパー"はかく語りき 「プロジェクトの成果をあげるために意識した一つの事」
 
Pythonおじさんのweb2py挑戦記
Pythonおじさんのweb2py挑戦記Pythonおじさんのweb2py挑戦記
Pythonおじさんのweb2py挑戦記
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesign
 
佐賀大学 - データ分析と向き合う
佐賀大学 - データ分析と向き合う佐賀大学 - データ分析と向き合う
佐賀大学 - データ分析と向き合う
 
オンプレエンジニアがクラウドエンジニアを夢見て。じっと手を見る。
オンプレエンジニアがクラウドエンジニアを夢見て。じっと手を見る。オンプレエンジニアがクラウドエンジニアを夢見て。じっと手を見る。
オンプレエンジニアがクラウドエンジニアを夢見て。じっと手を見る。
 
Gitlab ci & ecsへのデプロイ
Gitlab ci & ecsへのデプロイGitlab ci & ecsへのデプロイ
Gitlab ci & ecsへのデプロイ
 
ソフトウエアジャパン2017 IT Forum AITC(6)
ソフトウエアジャパン2017 IT Forum AITC(6)ソフトウエアジャパン2017 IT Forum AITC(6)
ソフトウエアジャパン2017 IT Forum AITC(6)
 
Node-redでプロトタイピング
Node-redでプロトタイピングNode-redでプロトタイピング
Node-redでプロトタイピング
 
Unityゲームにオンラインランキングとゴースト機能を追加しよう!
Unityゲームにオンラインランキングとゴースト機能を追加しよう!Unityゲームにオンラインランキングとゴースト機能を追加しよう!
Unityゲームにオンラインランキングとゴースト機能を追加しよう!
 

More from Yu Yamada

Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Yu Yamada
 
ここがつらいよAws batch
ここがつらいよAws batchここがつらいよAws batch
ここがつらいよAws batchYu Yamada
 
やってはいけない空振りDelete
やってはいけない空振りDeleteやってはいけない空振りDelete
やってはいけない空振りDeleteYu Yamada
 
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみたkafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみたYu Yamada
 
リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術Yu Yamada
 
僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニアYu Yamada
 

More from Yu Yamada (6)

Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
 
ここがつらいよAws batch
ここがつらいよAws batchここがつらいよAws batch
ここがつらいよAws batch
 
やってはいけない空振りDelete
やってはいけない空振りDeleteやってはいけない空振りDelete
やってはいけない空振りDelete
 
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみたkafkaのデータをRedshiftへ入れるパイプライン作ってみた
kafkaのデータをRedshiftへ入れるパイプライン作ってみた
 
リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術リクルートライフスタイルのデータを支える技術
リクルートライフスタイルのデータを支える技術
 
僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア僕の考える最強のビックデータエンジニア
僕の考える最強のビックデータエンジニア
 

CDH4->5 update苦労話

Editor's Notes

  1. 今回発表する内容はブログにも詳しく書いてあるので、よかったらみてください
  2. クラスタを複数作り、最終的にサマリデータが同一になるか確認。 サマリデータはprestoを使って確認を行った。
  3. HBaseはメモリ上にデータを持っているため、単純にHDFSのデータ移すだけではダメ。 Hiveはファイルなんで、データ自体はdistcpでよくてメタデータはDDLについてはshow create tableする。パーティション情報はmsck repair tableコマンドで
  4. Hive1.2では直ってる。 詳しくはイクジニアブログに書いてあります。
  5. 詳しくはイクジニアブログに書いてあります。
  6. CDH5.4 の検証中に5.4.1が出て頑張って対応するぞー!って思ってる最中に5.4.2が出た。