Submit Search
Upload
Hadoop概要説明
•
8 likes
•
32,730 views
Satoshi Noto
Follow
Report
Share
Report
Share
1 of 44
Download now
Download to read offline
Recommended
■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 日本Hadoopユーザー会 濱野 賢一朗/Kenichiro Hamano (NTTデータ)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
(in japanese)コンシステントハッシュ法の簡単な説明でうす。ネットでググって出てくる以上の内容はありません
Consistent hash
Consistent hash
paulowniaceae
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~ (NTTデータ テクノロジーカンファレンス 2020 発表資料) 2020年10月16日(金) NTTデータ システム技術本部 デジタル技術部 梅森 直人 講演動画は、YouTubeチャンネル「NTT DATA Tech」にて公開中! https://www.youtube.com/watch?v=NDb9nORBT_A
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
ポスト・ラムダアーキテクチャの切り札? Apache Hudi (NTTデータ テクノロジーカンファレンス 2020 発表資料) 2020年10月16日(金) NTT ソフトウェアイノベーションセンタ Zhai Hongjie 講演動画は、YouTubeチャンネル「NTT DATA Tech」にて公開中! https://www.youtube.com/watch?v=qMmJUjpff-8
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
2022/9/25 JAWS DAYS 2022プレイベントの資料
VPCのアウトバウンド通信を制御するためにおさえておきたい設計ポイント
VPCのアウトバウンド通信を制御するためにおさえておきたい設計ポイント
Takuya Takaseki
東海道らぐ 2017.10.7 名古屋オフ https://tokaidolug.connpass.com/event/67522/ での発表内容より
Linuxにて複数のコマンドを並列実行(同時実行数の制限付き)
Linuxにて複数のコマンドを並列実行(同時実行数の制限付き)
Hiro H.
GCPUG 大阪 BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんか
Ryuji Tamagawa
ドメイン駆動設計でなぜ作るのか? ドメイン駆動設計の考え方 ドメイン駆動設計を実践するための6つの問い 事例研究 ドメイン駆動設計を現場に導入する 体験的に学ぶ エヴァンス本をちゃんと読む
ドメイン駆動設計の正しい歩き方
ドメイン駆動設計の正しい歩き方
増田 亨
Recommended
■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 日本Hadoopユーザー会 濱野 賢一朗/Kenichiro Hamano (NTTデータ)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
(in japanese)コンシステントハッシュ法の簡単な説明でうす。ネットでググって出てくる以上の内容はありません
Consistent hash
Consistent hash
paulowniaceae
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~ (NTTデータ テクノロジーカンファレンス 2020 発表資料) 2020年10月16日(金) NTTデータ システム技術本部 デジタル技術部 梅森 直人 講演動画は、YouTubeチャンネル「NTT DATA Tech」にて公開中! https://www.youtube.com/watch?v=NDb9nORBT_A
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
ポスト・ラムダアーキテクチャの切り札? Apache Hudi (NTTデータ テクノロジーカンファレンス 2020 発表資料) 2020年10月16日(金) NTT ソフトウェアイノベーションセンタ Zhai Hongjie 講演動画は、YouTubeチャンネル「NTT DATA Tech」にて公開中! https://www.youtube.com/watch?v=qMmJUjpff-8
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
2022/9/25 JAWS DAYS 2022プレイベントの資料
VPCのアウトバウンド通信を制御するためにおさえておきたい設計ポイント
VPCのアウトバウンド通信を制御するためにおさえておきたい設計ポイント
Takuya Takaseki
東海道らぐ 2017.10.7 名古屋オフ https://tokaidolug.connpass.com/event/67522/ での発表内容より
Linuxにて複数のコマンドを並列実行(同時実行数の制限付き)
Linuxにて複数のコマンドを並列実行(同時実行数の制限付き)
Hiro H.
GCPUG 大阪 BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんか
BigQueryの課金、節約しませんか
Ryuji Tamagawa
ドメイン駆動設計でなぜ作るのか? ドメイン駆動設計の考え方 ドメイン駆動設計を実践するための6つの問い 事例研究 ドメイン駆動設計を現場に導入する 体験的に学ぶ エヴァンス本をちゃんと読む
ドメイン駆動設計の正しい歩き方
ドメイン駆動設計の正しい歩き方
増田 亨
2017年11月29日に開催されたHadoopソースコードリーディング 第24回の講演資料です。
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ / Hadoop / Spark Conference Japan 2019 講演者: 関山 宜孝 (Amazon Web Services Japan) 昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。本講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop/Spark コミュニティの直近の開発状況についても解説します。 http://hadoop.apache.jp/hcj2019-program/
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
社内勉強会資料。 Hadoopの概要について説明。
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Ken SASAKI
Presto は Parquet ファイルにカラムナなIOをしているか調べてみたメモ。
Parquetはカラムナなのか?
Parquetはカラムナなのか?
Yohei Azekatsu
株式会社アイリッジで実施した勉強会資料
Airflowで真面目にjob管理
Airflowで真面目にjob管理
msssgur
Apache Kudu は分析系クエリに強いカラムナー型の分散データベースです。 KuduはOLTPとOLAPの両方のワークロードに耐えられる、HTAPと呼ばれる種類のDBで、昨年の #dbts2017では、Kuduの「速さ」について紹介しました。 BI/DWHなど分析向けのDBといったイメージが強い一方で、 Kuduは元々GoogleのSpanner論文など触発されて開発されており、地理位置が離れたノード間でも一貫性を担保する仕組みを持っています。 その仕組の元にあるのが、HybridTimeと呼ばれるDBの内部時計です。今回はHybridTimeについて、論文を紹介しながらその仕組みに触れ、どのような特性を持っているのか、なぜこれがKuduの「速さ」にもつながるのかについてお話したいと思います。
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Cloudera Japan
Hadoop Conference Japan 2009 「Hadoop入門」の講演資料
Hadoop入門
Hadoop入門
Preferred Networks
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~ (Kubernetes Meetup Tokyo #33 発表資料) 2020/08/26 NTT DATA Yasuhiro Horiuchi
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
NTT DATA Technology & Innovation
jaws-kagoshima のLTネタです。
backlogsでもCI/CDする夢を見る
backlogsでもCI/CDする夢を見る
Takeru Maehara
HDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
日本ヒューレット・パッカード株式会社
オレシカナイトvo2
goで末尾再帰最適化は使えるか?
goで末尾再帰最適化は使えるか?
mori takuma
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料) 2020年11月13日 NTTデータ / NTT DATA 技術開発本部 先進コンピューティング技術センタ 藤井 雅雄
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
NTT DATA Technology & Innovation
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
都元ダイスケ Miyamoto
イベントURL: https://kafka-apache-jp.connpass.com/event/222711/ イベント名: Apache Kafka Meetup Japan #9
KafkaとPulsar
KafkaとPulsar
Yahoo!デベロッパーネットワーク
BigQuery には一般公開データセットというすぐに利用可能なデータセットが多数公開されています。BigQuery を使ってデータ分析はしてみたいけど分析したいテーマや分析するデータがない、という方に向けて、一般公開データセットを利用した BigQuery 上でのデータ分析の方法をご紹介します。
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
Google Cloud Platform - Japan
大規模データ活用向けストレージレイヤソフトのこれまでとこれから (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05) NTTデータ システム技術本部 OSSプロフェッショナルサービス 吉田 耕陽, 福久 琢也
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
2016/11/24に弊社で開催された技術勉強会、まべ☆てっくvol.2「ゲームと負荷検証のエトセトラ」の登壇資料です https://marv-tech.connpass.com/event/42023/
負荷テストを行う際に知っておきたいこと 初心者編
負荷テストを行う際に知っておきたいこと 初心者編
まべ☆てっく運営
In the first half, we give an introduction to modern serialization systems, Protocol Buffers, Apache Thrift and Apache Avro. Which one does meet your needs? In the second half, we show an example of data ingestion system architecture using Apache Avro.
Apache Avro vs Protocol Buffers
Apache Avro vs Protocol Buffers
Seiya Mizuno
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference 2021 Online/Kyotoエディション - (Open Source Conference 2021 Online/Kyoto 発表資料) 2021年7月30日 株式会社NTTデータ 技術開発本部 先進コンピューティング技術センタ 猿田 浩輔
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
NTT DATA Technology & Innovation
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法についてご紹介します。PythonとSparkにおけるJobの高速化に奮闘している方は必聴です。(当講演はSparkの基本を理解している方を対象としています。初めての方は、下記サイトのVideoを事前に視聴することをおすすめします。http://bit.ly/hkPySpark)
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Holden Karau
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
2015/08/08 OSC 2015 Kansai@Kyoto 発表資料 『分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向』 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 鯵坂 明
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
More Related Content
What's hot
2017年11月29日に開催されたHadoopソースコードリーディング 第24回の講演資料です。
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ / Hadoop / Spark Conference Japan 2019 講演者: 関山 宜孝 (Amazon Web Services Japan) 昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。本講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop/Spark コミュニティの直近の開発状況についても解説します。 http://hadoop.apache.jp/hcj2019-program/
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
社内勉強会資料。 Hadoopの概要について説明。
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Ken SASAKI
Presto は Parquet ファイルにカラムナなIOをしているか調べてみたメモ。
Parquetはカラムナなのか?
Parquetはカラムナなのか?
Yohei Azekatsu
株式会社アイリッジで実施した勉強会資料
Airflowで真面目にjob管理
Airflowで真面目にjob管理
msssgur
Apache Kudu は分析系クエリに強いカラムナー型の分散データベースです。 KuduはOLTPとOLAPの両方のワークロードに耐えられる、HTAPと呼ばれる種類のDBで、昨年の #dbts2017では、Kuduの「速さ」について紹介しました。 BI/DWHなど分析向けのDBといったイメージが強い一方で、 Kuduは元々GoogleのSpanner論文など触発されて開発されており、地理位置が離れたノード間でも一貫性を担保する仕組みを持っています。 その仕組の元にあるのが、HybridTimeと呼ばれるDBの内部時計です。今回はHybridTimeについて、論文を紹介しながらその仕組みに触れ、どのような特性を持っているのか、なぜこれがKuduの「速さ」にもつながるのかについてお話したいと思います。
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Cloudera Japan
Hadoop Conference Japan 2009 「Hadoop入門」の講演資料
Hadoop入門
Hadoop入門
Preferred Networks
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~ (Kubernetes Meetup Tokyo #33 発表資料) 2020/08/26 NTT DATA Yasuhiro Horiuchi
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
NTT DATA Technology & Innovation
jaws-kagoshima のLTネタです。
backlogsでもCI/CDする夢を見る
backlogsでもCI/CDする夢を見る
Takeru Maehara
HDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
日本ヒューレット・パッカード株式会社
オレシカナイトvo2
goで末尾再帰最適化は使えるか?
goで末尾再帰最適化は使えるか?
mori takuma
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料) 2020年11月13日 NTTデータ / NTT DATA 技術開発本部 先進コンピューティング技術センタ 藤井 雅雄
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
NTT DATA Technology & Innovation
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
都元ダイスケ Miyamoto
イベントURL: https://kafka-apache-jp.connpass.com/event/222711/ イベント名: Apache Kafka Meetup Japan #9
KafkaとPulsar
KafkaとPulsar
Yahoo!デベロッパーネットワーク
BigQuery には一般公開データセットというすぐに利用可能なデータセットが多数公開されています。BigQuery を使ってデータ分析はしてみたいけど分析したいテーマや分析するデータがない、という方に向けて、一般公開データセットを利用した BigQuery 上でのデータ分析の方法をご紹介します。
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
Google Cloud Platform - Japan
大規模データ活用向けストレージレイヤソフトのこれまでとこれから (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05) NTTデータ システム技術本部 OSSプロフェッショナルサービス 吉田 耕陽, 福久 琢也
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
2016/11/24に弊社で開催された技術勉強会、まべ☆てっくvol.2「ゲームと負荷検証のエトセトラ」の登壇資料です https://marv-tech.connpass.com/event/42023/
負荷テストを行う際に知っておきたいこと 初心者編
負荷テストを行う際に知っておきたいこと 初心者編
まべ☆てっく運営
In the first half, we give an introduction to modern serialization systems, Protocol Buffers, Apache Thrift and Apache Avro. Which one does meet your needs? In the second half, we show an example of data ingestion system architecture using Apache Avro.
Apache Avro vs Protocol Buffers
Apache Avro vs Protocol Buffers
Seiya Mizuno
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference 2021 Online/Kyotoエディション - (Open Source Conference 2021 Online/Kyoto 発表資料) 2021年7月30日 株式会社NTTデータ 技術開発本部 先進コンピューティング技術センタ 猿田 浩輔
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
NTT DATA Technology & Innovation
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法についてご紹介します。PythonとSparkにおけるJobの高速化に奮闘している方は必聴です。(当講演はSparkの基本を理解している方を対象としています。初めての方は、下記サイトのVideoを事前に視聴することをおすすめします。http://bit.ly/hkPySpark)
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Holden Karau
What's hot
(20)
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Parquetはカラムナなのか?
Parquetはカラムナなのか?
Airflowで真面目にjob管理
Airflowで真面目にjob管理
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Hadoop入門
Hadoop入門
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
backlogsでもCI/CDする夢を見る
backlogsでもCI/CDする夢を見る
HDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
goで末尾再帰最適化は使えるか?
goで末尾再帰最適化は使えるか?
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
KafkaとPulsar
KafkaとPulsar
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
負荷テストを行う際に知っておきたいこと 初心者編
負荷テストを行う際に知っておきたいこと 初心者編
Apache Avro vs Protocol Buffers
Apache Avro vs Protocol Buffers
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Similar to Hadoop概要説明
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
2015/08/08 OSC 2015 Kansai@Kyoto 発表資料 『分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向』 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 鯵坂 明
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
Tuning Maniax 2014 スタートアップセミナーの資料です。Microsoft Azure上のHadoopであるHDInsightの説明と、コース攻略のヒントを紹介します。
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
ThinkIT_impress
A-2-3 ゾウ使いへの第一歩 Hadoop on Azure 編 伊藤 史
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
2012/6/30 Go Azureにてお話しさせていただきました。
ゾウ使いへの第一歩
ゾウ使いへの第一歩
Fumito Ito
2012年3月3日のJAWS-UG SUMMIT 2012のエキスパートセッションElastic MapReduce編です。 デモベースのセッションのため資料だけでは伝わりにくい部分があります。 ご了承ください。
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
Kotaro Tsukui
JavaOne2013報告会のLT資料です。 JavaOneでHadoopの話を聞いてきたことについてです
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
Takashi Aoe
■オープンソースカンファレンス 2015 Tokyo/Spring 講演資料(2015/02/28) 『分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向』 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 吉田 耕陽
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
■オープンソースカンファレンス 2015 Tokyo/Spring 講演資料(2015/02/28) 『分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向』 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 吉田 耕陽
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
2013/02/19に開催された、大阪セミナーでの資料です。 Cloudera Managerを使用してCDHをインストールするデモ動画はこちら↓ https://vimeo.com/49643526/
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Cloudera Japan
Hadoop
Hadoop
Atsushi Shimura
2014年3月1日に開催された「OSC 2014 Tokyo/Spring」で発表したHadoopに関する資料です。
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
Shinichi YAMASHITA
2012/3/17 (Sat.) 11:00-11:45 OSC 2012 Tokyo/Spring @meisei univ.
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
Shinichi YAMASHITA
http://www.wankuma.com/seminar/20101016nagoya15/ 今はやりのHadoopについて、MapReduceや分散ファイルシステムといった基盤技術から紹介したいと思います。
Hadoop事始め
Hadoop事始め
You&I
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
Hadoop / Spark Conference Japan 2016 キーノート講演資料 『Apache Hadoop の現在と将来』 Apache Hadoop committer, PMC member Tsuyoshi Ozawa Akira Ajisaka ▼イベントページ http://hadoop.apache.jp/hcj2016-program/ http://hcj2016.eventbrite.com/
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
For SAS Programmer
SASとHadoopとの連携
SASとHadoopとの連携
SAS Institute Japan
■オープンソースカンファレンス 2014 Tokyo/Fall 講演資料 (2014/10/18) 『分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み』 NTTデータ 基盤システム事業本部 方式システム技術事業部)鯵坂 明
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
『Hadoop Conference Japan 2011 Fall』での講演資料。 NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田 浩輔
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
これからはじめるHadoop/Spark発表資料 http://hadoop.connpass.com/event/27345/
Hadoopことはじめ
Hadoopことはじめ
Katsunori Kanda
Similar to Hadoop概要説明
(20)
Hadoop loves H2
Hadoop loves H2
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
ゾウ使いへの第一歩
ゾウ使いへの第一歩
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Hadoop
Hadoop
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
Hadoop事始め
Hadoop事始め
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
SASとHadoopとの連携
SASとHadoopとの連携
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
Hadoopことはじめ
Hadoopことはじめ
More from Satoshi Noto
社内勉強会資料
このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)
Satoshi Noto
AWS事業部合宿2017LT
読書会のすすめ
読書会のすすめ
Satoshi Noto
データ分析チームの振り返り
データ分析チームの振り返り
データ分析チームの振り返り
Satoshi Noto
FIT2015 Amazon Machine Learning概要
Amazon Machine Learning概要
Amazon Machine Learning概要
Satoshi Noto
Tez on EMRの検証結果です。EMR、Hive、Tezの概要についても説明しています。
Tez on EMRを試してみた
Tez on EMRを試してみた
Satoshi Noto
大晦日のメッセージ配信システムを構築、運用した際に気をつけた点などについて書いてあります。
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側
Satoshi Noto
fullbokを実際に使ってみた話です
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみた
Satoshi Noto
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
Satoshi Noto
Hiveハンズオン
Hiveハンズオン
Satoshi Noto
MapReduceプログラミング入門
MapReduceプログラミング入門
Satoshi Noto
MapReduce入門
MapReduce入門
Satoshi Noto
ただいまHadoop勉強中
ただいまHadoop勉強中
Satoshi Noto
More from Satoshi Noto
(12)
このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)
読書会のすすめ
読書会のすすめ
データ分析チームの振り返り
データ分析チームの振り返り
Amazon Machine Learning概要
Amazon Machine Learning概要
Tez on EMRを試してみた
Tez on EMRを試してみた
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみた
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
Hiveハンズオン
Hiveハンズオン
MapReduceプログラミング入門
MapReduceプログラミング入門
MapReduce入門
MapReduce入門
ただいまHadoop勉強中
ただいまHadoop勉強中
Hadoop概要説明
1.
Hadoop概要説明 2011-‐‑‒04-‐‑‒08 社内勉強会
2.
目次 1.What is Hadoop? 2.HDFS
& MapReduce 3.オープンソース 4.事例
3.
1.What is Hadoop?
4.
巨大なデータをバッチ処理するた めの並列分散処理基盤
5.
並列分散処理とは、ある1つの処理 を分割して、同時に処理を行うこ とを指す。並列分散処理すること で処理時間を短縮することが出来 る。
6.
Hadoopは数千台のサーバーを利 用して並列分散処理を行うことが 出来る。そのため、処理時間を数 千分の一に減らすことが出来る。
7.
例えばサーバー1台の場合に100 日かかる処理があったと仮定する。 この処理を100台のサーバーで構 成されるHadoopを利用すること で、処理時間を1日に減らすことが 出来る。
8.
ただし、、、
9.
100秒かかる処理を1秒に減らす ことは出来ない。ジョブの起動だ けで30秒近くかかる。そのため、 バッチ処理専用である。
10.
また、サーバー台数に応じて処理 能力が直線的に向上する代償とし て、Hadoopには色々と制約が存 在する。
11.
2.HDFS & MapReduce
12.
HadoopはコアとなるHDFSと MapReduce以外にも、様々な関 連コンポーネントが存在している。
13.
http://www.slideshare.net/cloudera/eclipsecon-keynote より引用
14.
今回はHDFSとMapReduceにつ いて説明する。
15.
まずはHDFS
16.
HDFS(Hadoop Distributed File System)は分散ファイルシス テムである。複数のサーバーにファ イルを分割して保持することで巨 大なファイルも扱える。
17.
HDFSのアーキテクチャ
18.
http://hadoop.apache.org/hdfs/docs/current/hdfs_design.html より引用
19.
http://www.slideshare.net/cloudera/eclipsecon-keynote より引用
20.
HDFSはマスター・スレイブ構成 になっており、1台のNameNode と複数台DataNodeによって構成 される。
21.
データを複数台のDataNodeで分 割して保持することで、ペタバイ トのファイルを扱うことが出来る。
22.
また、同じデータをDataNode間 で複製しているため、ある DataNodeが故障しても継続して 利用出来る。故障したDataNode のデータは他のDataNodeに再度 複製される。
23.
ただし、、、
24.
一度書き込んだファイルの更新は 出来ないという制約がある。
25.
また、NameNodeが故障した場 合はHDFS全体が利用できなくな る。そのため、NameNodeの耐 障害性を向上したい場合は、別途 対応を行う必要がある。
26.
次にMapReduce
27.
MapReduceは分散処理フレーム ワークである。
28.
MapReduceもマスター・スレイ ブ構成になっており、1台の JobTrackerと複数台 TaskTrackerによって構成される。
29.
MapReduceの流れ
30.
Googleを支える技術 より引用
31.
http://www.slideshare.net/cloudera/eclipsecon-keynote より引用
32.
処理を自由に書けるわけではなく、 mapとreduceという処理の中身 を規約に従って記述する必要があ る。
33.
3.オープンソース
34.
HadoopはGoogleが公開したGFS およびMapReduceの論文を参考 にして作られている。
35.
Googleの技術との対応 Google Hadoop 分散ファイル システム GFS (Google File
System) HDFS (Hadoop Distributed File System) 分散処理 フレームワーク MapReduce Hadoop MapReduce
36.
GFSおよびMapReduceは論文の みが公開されていてソースは公開 されていない。一方、Hadoopは Apacheでホストされていて、オー プンソースである。
37.
そのため、Hadoopには様々なディ ストリビューションが存在する。
38.
ディストリビューション •Cloudera s Distribution
including Apache Hadoop (CDH) •Yahoo! Distribution of Hadoop •IBM Distribution of Apache Hadoop
39.
さらに
40.
Amazon Elastic MapReduce (EMR)
を利用すれば、サービスと してHadoopを利用出来る。
41.
4.事例
42.
事例1:Yahoo ソート •1テラバイトを62秒 (1460Node) •1ペタバイトを16時間強 (3558Node) http://storageconference.net/2010/Presentations/Research/9.Shvachko.pdf
43.
事例2:ニューヨークタイムズ データ変換 1100万強の記事のスキャン画像(4TB)をAWS 上にHadoopを構築 (100Node) して
24時 間でPDF(1.5TB)に変換した。 http://open.blogs.nytimes.com/2007/11/01/self-service-prorated-super-computing-fun/
44.
事例3:クックパッド データ解析 MySQLで7000時間かかるデータ 解析処理をHadoopを利用するこ とで30時間に短縮した。 http://www.slideshare.net/sasata299/961-5483293
Editor's Notes
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
Download now