Submit Search
Upload
HiveとImpalaのおいしいとこ取り
•
15 likes
•
4,671 views
Yukinori Suda
Follow
『Hadoop 第3版』『プログラミング Hive』刊行記念 Hadoopセミナー
Read less
Read more
Technology
Report
Share
Report
Share
1 of 21
Download now
Download to read offline
Recommended
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
Yukinori Suda
Impalaチューニングポイントベストプラクティス
Impalaチューニングポイントベストプラクティス
Yahoo!デベロッパーネットワーク
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
Userdiveによるimpala導入へのミチ
Userdiveによるimpala導入へのミチ
Kuni Nakaji
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
HAWQをCDHで動かしてみた
HAWQをCDHで動かしてみた
adachij2002
Recommended
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
Yukinori Suda
Impalaチューニングポイントベストプラクティス
Impalaチューニングポイントベストプラクティス
Yahoo!デベロッパーネットワーク
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
Userdiveによるimpala導入へのミチ
Userdiveによるimpala導入へのミチ
Kuni Nakaji
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
HAWQをCDHで動かしてみた
HAWQをCDHで動かしてみた
adachij2002
Impala 2.0 Update 日本語版 #impalajp
Impala 2.0 Update 日本語版 #impalajp
Cloudera Japan
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
Cloudera Japan
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera Japan
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
Insight Technology, Inc.
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
オラクルエンジニア通信
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
NTT DATA OSS Professional Services
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Cloudera Japan
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
Toshihiro Suzuki
hscj2019_ishizaki_public
hscj2019_ishizaki_public
Kazuaki Ishizaki
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Cloudera Japan
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Cloudera Japan
Hadoop概要説明
Hadoop概要説明
Satoshi Noto
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
Cloudera impalaの性能評価(Hiveとの比較)
Cloudera impalaの性能評価(Hiveとの比較)
Yukinori Suda
Spark shark
Spark shark
Tsuyoshi OZAWA
More Related Content
What's hot
Impala 2.0 Update 日本語版 #impalajp
Impala 2.0 Update 日本語版 #impalajp
Cloudera Japan
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
Cloudera Japan
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera Japan
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
Insight Technology, Inc.
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
オラクルエンジニア通信
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
NTT DATA OSS Professional Services
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Cloudera Japan
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
Toshihiro Suzuki
hscj2019_ishizaki_public
hscj2019_ishizaki_public
Kazuaki Ishizaki
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Cloudera Japan
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Cloudera Japan
Hadoop概要説明
Hadoop概要説明
Satoshi Noto
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
What's hot
(20)
Impala 2.0 Update 日本語版 #impalajp
Impala 2.0 Update 日本語版 #impalajp
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
hscj2019_ishizaki_public
hscj2019_ishizaki_public
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Hadoop概要説明
Hadoop概要説明
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
Viewers also liked
Cloudera impalaの性能評価(Hiveとの比較)
Cloudera impalaの性能評価(Hiveとの比較)
Yukinori Suda
Spark shark
Spark shark
Tsuyoshi OZAWA
Postgres.foreign.data.wrappers.2015
Postgres.foreign.data.wrappers.2015
EDB
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
InfluxDB の概要 - sonots #tokyoinfluxdb
InfluxDB の概要 - sonots #tokyoinfluxdb
Naotoshi Seo
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
Nested Types in Impala
Nested Types in Impala
Cloudera, Inc.
Hiveを高速化するLLAP
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
MapR Technologies Japan
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5
Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5
Cloudera, Inc.
Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)
CLOUDIAN KK
Hive on spark is blazing fast or is it final
Hive on spark is blazing fast or is it final
Hortonworks
Choosing an HDFS data storage format- Avro vs. Parquet and more - StampedeCon...
Choosing an HDFS data storage format- Avro vs. Parquet and more - StampedeCon...
StampedeCon
Viewers also liked
(14)
Cloudera impalaの性能評価(Hiveとの比較)
Cloudera impalaの性能評価(Hiveとの比較)
Spark shark
Spark shark
Postgres.foreign.data.wrappers.2015
Postgres.foreign.data.wrappers.2015
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
InfluxDB の概要 - sonots #tokyoinfluxdb
InfluxDB の概要 - sonots #tokyoinfluxdb
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Nested Types in Impala
Nested Types in Impala
Hiveを高速化するLLAP
Hiveを高速化するLLAP
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5
Hive, Impala, and Spark, Oh My: SQL-on-Hadoop in Cloudera 5.5
Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)
Hive on spark is blazing fast or is it final
Hive on spark is blazing fast or is it final
Choosing an HDFS data storage format- Avro vs. Parquet and more - StampedeCon...
Choosing an HDFS data storage format- Avro vs. Parquet and more - StampedeCon...
Similar to HiveとImpalaのおいしいとこ取り
自宅でHive愛を育む方法 〜Raspberry Pi編〜
自宅でHive愛を育む方法 〜Raspberry Pi編〜
Yukinori Suda
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
infinite_loop
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバック
AdvancedTechNight
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
Kazuto Kusama
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Yahoo!デベロッパーネットワーク
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
ThinReports
AWS SDK for Smalltalk
AWS SDK for Smalltalk
Sho Yoshida
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの
cyberagent
Tizen 2.0 alpha でサポートされなかった native api
Tizen 2.0 alpha でサポートされなかった native api
Naruto TAKAHASHI
AmazonElasticBeanstalk
AmazonElasticBeanstalk
Taisuke Oe
Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
runC概要と使い方
runC概要と使い方
Yuji Oshima
Yifeng hadoop-present-public
Yifeng hadoop-present-public
Yifeng Jiang
Processing LTSV by Apache Pig
Processing LTSV by Apache Pig
Taku Miyakawa
H2O - making HTTP better
H2O - making HTTP better
Kazuho Oku
FuelPHP活用事例
FuelPHP活用事例
Yusuke Naka
2012.10.23 rh forum
2012.10.23 rh forum
Ryo Fujita
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
Mitsutoshi Kiuchi
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
Satoshi Iijima
OLAP options on Hadoop
OLAP options on Hadoop
Yuta Imai
Similar to HiveとImpalaのおいしいとこ取り
(20)
自宅でHive愛を育む方法 〜Raspberry Pi編〜
自宅でHive愛を育む方法 〜Raspberry Pi編〜
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバック
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
ひしめき合うOpen PaaSを徹底解剖! PaaSの今と未来
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
Ruby向け帳票ソリューション「ThinReports」の開発で知るOSSの威力
AWS SDK for Smalltalk
AWS SDK for Smalltalk
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの
Tizen 2.0 alpha でサポートされなかった native api
Tizen 2.0 alpha でサポートされなかった native api
AmazonElasticBeanstalk
AmazonElasticBeanstalk
Pythonを用いた高水準ハードウェア設計環境の検討
Pythonを用いた高水準ハードウェア設計環境の検討
runC概要と使い方
runC概要と使い方
Yifeng hadoop-present-public
Yifeng hadoop-present-public
Processing LTSV by Apache Pig
Processing LTSV by Apache Pig
H2O - making HTTP better
H2O - making HTTP better
FuelPHP活用事例
FuelPHP活用事例
2012.10.23 rh forum
2012.10.23 rh forum
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
OLAP options on Hadoop
OLAP options on Hadoop
More from Yukinori Suda
Hadoop operation chaper 4
Hadoop operation chaper 4
Yukinori Suda
Hadoopエコシステムを駆使したこれからのWebアクセス解析サービス
Hadoopエコシステムを駆使したこれからのWebアクセス解析サービス
Yukinori Suda
⾃宅で Hive 愛を育むための⼿順(Raspberry Pi 編)
⾃宅で Hive 愛を育むための⼿順(Raspberry Pi 編)
Yukinori Suda
Evaluation of cloudera impala 1.1
Evaluation of cloudera impala 1.1
Yukinori Suda
Performance Evaluation of Cloudera Impala GA
Performance Evaluation of Cloudera Impala GA
Yukinori Suda
Performance evaluation of cloudera impala 0.6 beta with comparison to Hive
Performance evaluation of cloudera impala 0.6 beta with comparison to Hive
Yukinori Suda
Performance evaluation of cloudera impala (with Comparison to Hive)
Performance evaluation of cloudera impala (with Comparison to Hive)
Yukinori Suda
More from Yukinori Suda
(7)
Hadoop operation chaper 4
Hadoop operation chaper 4
Hadoopエコシステムを駆使したこれからのWebアクセス解析サービス
Hadoopエコシステムを駆使したこれからのWebアクセス解析サービス
⾃宅で Hive 愛を育むための⼿順(Raspberry Pi 編)
⾃宅で Hive 愛を育むための⼿順(Raspberry Pi 編)
Evaluation of cloudera impala 1.1
Evaluation of cloudera impala 1.1
Performance Evaluation of Cloudera Impala GA
Performance Evaluation of Cloudera Impala GA
Performance evaluation of cloudera impala 0.6 beta with comparison to Hive
Performance evaluation of cloudera impala 0.6 beta with comparison to Hive
Performance evaluation of cloudera impala (with Comparison to Hive)
Performance evaluation of cloudera impala (with Comparison to Hive)
Recently uploaded
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
furutsuka
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Atomu Hidaka
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Recently uploaded
(7)
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
HiveとImpalaのおいしいとこ取り
1.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / 1 1 HiveとImpalaのおいしいとこ取り 『プログラミング Hive』『Hadoop 第3版』 刊行記念 Hadoopセミナー 2013年年7⽉月24⽇日 株式会社セラン R&D戦略略室 須⽥田幸憲
2.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / 祝!刊⾏行行 2
3.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v 須⽥田幸憲(@sudabon) v 株式会社セラン R&D戦略略室 室⻑⾧長 v 経歴 l 1997〜~2004 NEC 中央研究所 / ネットワークの研究 l 2005〜~2006 BIGLOBE / BtoBサービスの開発 l 2012/8〜~ 現職 v Hadoop歴:約1年年 v 好きなHadoopエコシステム:Hive ⾃自⼰己紹介 3
4.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v MOBYLOG(モビログ) l Webアクセス解析・広告効果測定サービス l 2005年年12⽉月にサービス開始 l PC、スマホ、ケータイ、スマホアプリの計測が可能 l ケータイでの解析が強み(MOBYLOG ENGINE) • 旧Omniture社(現Adobe社)のSiteCatalyst、及びWebTrends社の WebTrends AnalyticsにモジュールとしてOEM提供 v Xdata collect(クロスデータ・コレクト) l クラウド型のログストレージサービス l 2013年年5⽉月にサービス開始 l Webサーバで取得できる情報に加えて、セッション情報やユーザイベ ントも保存でき、CSVとしてダウンロード可能 l ⽉月間50万件までは無料料で利利⽤用可能 セランの事業紹介 4
5.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v MOBYLOGでは分析が難しいバッチ処理理 l ⻑⾧長期間を対象に個別のユーザイベントを抽出する場合 v 顧客単位で個別に分析コンサルティング l 物販サイト(EC) l ディジタルコンテンツ販売 l コンテンツのポータルサイト Hadoopの活⽤用⽅方法 5
6.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v 前職の動画配信ベンチャー企業にて、動画の閲覧ロ グの集計でHadoopを利利⽤用 v システム環境 l Amazon EMR • Aliveクラスタではなく、Transientクラスタ l Hadoop Streaming • S3に保存したログを、EC2上で動作するPHPからコントロール Hadoopエコシステムとの関わり(1) 6
7.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v AWSのユーザ会の懇親会で、某社エンジニアのRさん に、オンプレでHadoopの構築について詳細にアドバ イスいただきました! Hadoopエコシステムとの関わり(2) 7 ・オンプレだったら、ClouderaのHadoopディスト リビューションのCDHがあるよ ・Cloudera Managerのフリー版があって、GUI操 作で複数台のインストールも簡単にできるよ ・Hiveを使えば、Java以外の言語でもSQLライク なクエリ実行で、MapReduce処理できるよ
8.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v バッチ開発時にアドホックにクエリを実⾏行行 l ログ内容のチェックをするためにHiveクエリを実⾏行行 l バッチのクエリのデバッグ時にHiveクエリを実⾏行行 v Hive/MapReduceの処理理完了了を待つケースが頻繁 にあり、時間短縮する⽅方法を模索索していた Cloudera Impalaがリリース! Hiveより7〜~45倍の⾼高速化 即、導⼊入しました Hadoopエコシステムとの関わり(3) 8
9.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / Impalaのリリースと性能評価 9 2012/10/24 バージョン0.1 beta 2012/11/14 バージョン0.2 beta 2012/12/05 バージョン0.3 beta 2013/01/19 バージョン0.4 beta 2013/02/05 バージョン0.5 beta 2013/02/27 バージョン0.6 beta 2013/04/15 バージョン0.7 beta 2013/05/01 バージョン1.0 2013/06/18 バージョン1.0.1 2012/11/02 5台のクラスタで評価 > slideshareで資料公開 2012/12/07 14台のクラスタで評価 > @ITに寄稿 > slideshareで資料公開 2013/03/06 14台のクラスタで評価 > slideshareで資料公開 2013/05/01 14台のクラスタで評価 > slideshareで資料公開 HiBenchを用いた評価 RCFileの評価 mem_limitオプション、Parquetの評価
10.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / Our System Environment 10 v Install using Cloudera Manager Free Edition 4.5.2 Master Slave 11 Servers All servers are connected with 1Gbps Ethernet through an L2 switch Active NameNode DataNode TaskTracker Impalad Stand-‐‑‒by NameNode JobTracker statestored 3 Servers DataNode TaskTracker Impalad DataNode TaskTracker Impalad DataNode TaskTracker Impalad DataNode TaskTracker Impalad DataNode TaskTracker Impalad DataNode TaskTracker Impalad DataNode TaskTracker Impalad DataNode TaskTracker Impalad DataNode TaskTracker Impalad DataNode TaskTracker Impalad
11.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v CPU l Intel Core 2 Duo 2.13 GHz with Hyper Threading v Memory l 4GB v Disk l 7,200 rpm SATA mechanical Hard Disk Drive * 1 v OS l Cent OS 6.2 Our Server Specification 11
12.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v Use CDH4.2.1 + Impala 1.0 v Use hivebench in open-‐‑‒sourced benchmark tool “HiBench” l https://github.com/hibench v Modified datasets to 1/10 scale l Default configuration generates table with 1 billion rows v Modified query sentence l Deleted “INSERT INTO TABLE …” to evaluate read-‐‑‒only performance v Combines a few storage format with a few compression method l TextFile, SequenceFile, RCFile, ParquestFile l No compression, Gzip, Snappy v Comparison with job query latency v Average job latency over 5 measurements Benchmark 12
13.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v Uservisits table l 100 million rows l 16,895 MB as TextFile l Table Definitions • sourceIP string • destURL string • visitDate string • adRevenue double • userAgent string • countryCode string • languageCode string • searchWord string • duration int Modified Datasets 13 v Rankings table l 12 million rows l 744 MB as TextFile l Table Definitions • pageURL string • pageRank int • avgDuration int
14.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / SELECT sourceIP, sum(adRevenue) as totalRevenue, avg(pageRank) FROM rankings_̲t R JOIN ( SELECT sourceIP, destURL, adRevenue FROM uservisits_̲t UV WHERE (datediff(UV.visitDate, '1999-‐‑‒01-‐‑‒01')>=0 AND datediff(UV.visitDate, '2000-‐‑‒01-‐‑‒01')<=0) ) NUV ON (R.pageURL = NUV.destURL) group by sourceIP order by totalRevenue DESC limit 1; Modified Query 14
15.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / Benchmark Result (Hive) 15 0 50 100 150 200 250 No Comp. Gzip Snappy Gzip Snappy TextFileSequenceFileRCFile 235.843 227.883 213.616 234.289 197.894 Avg. Job Latency [sec]
16.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / Benchmark Result (Impala) 16 0 50 100 150 200 250 No Comp. Gzip Snappy Gzip Snappy Snappy Text File Sequence FileRCFile Parquet File 36.61 29.736 24.024 26.083 19.586 16.2 Avg. Job Latency [sec]
17.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v HiveとImpalaは使い分けが重要 l 耐障害性を備えたHiveはバッチ処理理 l Impalaはアドホックなクエリ v Impalaは可能な限りメモリを使う設計 v mem_̲limitオプションを使う l PartitionテーブルをParquetに変換する場合、mem_̲limit は効かないバグがある(IMPALA-‐‑‒257 ⇒ 1.1でFix) v 2つのJOINの使い分け l 基本的には”partitioned join”を使うべき l ”A JOIN B”の場合に、BのサイズがAのサイズより極めて ⼩小さい時は”broadcast join”の⽅方が⾼高速な可能性あり Impalaを上⼿手く活⽤用するためのTIPS 17
18.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v Cloudera Manager 4.6.0 + CDH4.3.0 現在のHadoopクラスタの構成(全20台) 18 Cloudera Manager Hue プライマリ セカンダリ マスターサーバ群 スレーブサーバ群(10台+4台)管理サーバ ・・・・・・・ Zookeeper JournalNode NameNode Impalad TaskTracker DataNode HDFS HA Zookeeper HiveServer JobTracker JournalNode Zookeeper HMaster Zookeeper StateStored Hive Metastore ・・・・・ HRegionServer DataNode HRegionServer DataNode Impalad TaskTracker DataNode Zookeeper JournalNode NameNode
19.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v HiveとImpalaに対してGUIから実⾏行行可能 Hueを利利⽤用したクエリ実⾏行行 19 Hive Impala
20.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / v HiveServer2への移⾏行行 l 要望が多かったセキュリティと同時実⾏行行をサポート l HiveServer1との後⽅方互換性がないため、バッチソフト ウェアの改修が必要 ずっと移⾏行行を検討しているものの、時間の都合で… v Hive Storage Formatの変更更 l RCFile + Snappyを利利⽤用していたが変換にあまりにも時間 がかかっていたため、TextFile + Gzipに変更更 l ImpalaはTextFile + Gzipをサポートしてない サポート時期も未定…LZOへの移⾏行行も視野に… 現状の課題 20
21.
Copyright © CELLANT
Corp. All Rights Reserved. h t t p : / / w w w . c e l l a n t . j p / 21 ご静聴ありがとうございました。
Download now