Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

大容量データの分析:1.3TBのセンサーデータとの戦い

大容量データの分析にまつわる工夫をまとめてみました。

・Snowball Edge 起動音
https://youtu.be/ezLM7yDTiWQ

・Snowball Edge プロモーション動画
https://www.youtube.com/watch?v=H3_ZqnqLyVo&t=483s

  • Be the first to comment

  • Be the first to like this

大容量データの分析:1.3TBのセンサーデータとの戦い

  1. 1. 1 1.3TBのセンサーデータとの戦い(with コロナ) 2020/12/22 浦山昌生
  2. 2. 2 トレーニング 立教大学理学部数学科、Coursera ML/DL、GCI 2018 AI Quest 2020、ISO機械状態監視診断技術者(振動)CAT2 参加団体 ACM、人工知能学会、データサイエンティスト協会 日本ディープラーニング協会、CDLE キャリア ひとり情シス(データ分析、システム企画、運用) インフラ系SE、IoTデバイス開発、研究指導、鍼灸師 現在の仕事 データサイエンスで顧客の業務をサポートする人 顧客データの分析、モデル開発、プロジェクト管理 提案営業 暮らし 家族4人ぐらし、神奈川県在住 趣味 インラインスケート、データ分析の勉強、Spotify、万年筆 IoT機器開発(ESP32、Raspberry Pi、PIC) 国家資格 情報処理安全確保支援士、NWスペシャリスト、第二種電 気工事士、鍼灸あマ指、電話級アマチュア無線技士 ベンダー資格 統計検定2級、統計士、G検定2018#2 スパイスハーブ検定2級、Cisco CCNA 自己紹介浦山昌生の紹介
  3. 3. 3 v お話することちょっと聞いてください やりたいこと 背景 目的 制約 問題解決 解決すべき問題 原因と対策の検討 解決方法 データ転送 Snowball の紹介 使った感想 その他の工夫 環境構築 実行環境 データ保存方法 キャッシング
  4. 4. 4 分析方法 予測モデルデータの中身 お話しないことまたの機会に
  5. 5. 5 v やりたいこと 背景 目的 制約 問題解決 解決すべき問題 原因と対策の検討 解決方法 データ転送 Snowball の紹介 使った感想 その他の工夫 環境構築 実行環境 データ保存方法 キャッシング
  6. 6. 6 回転機械設備の故障検知 振動センサーデータの分析 容量 1.3TB、ファイル数 90万 2週間で分析を開始したい やりたいこと背景と目的
  7. 7. 7 緊急事態宣言発令 2020年4月 発令 強制リモートワーク メンバー2名 2名とも自宅で作業 夜間運転 データ量が多いので 夜間フル運転かも とりあえずPC3台で 自宅 → Note PC Office → Desktop PC 制約その他の制約事項
  8. 8. 8 v やりたいこと 背景 目的 制約 問題解決 解決すべき問題 原因と対策の検討 解決方法 データ転送 Snowball の紹介 使った感想 その他の工夫 環境構築 実行環境 データ保存方法 キャッシング
  9. 9. 9 問題解決:インフラどうする?問題 → 原因 → 対策立案 問題 原因 対策立案 スケールできない 低性能のPC3台しか使えない • クラウドインフラを利用 • プロジェクトの実施期間を延長 • オフィスの他のサーバーを占拠 • データセンター構築 マシンの騒音で夜眠れない → 生命の危機 自宅に設置する • クラウドインフラを利用 • 自宅を増築する • 自室を防音化する 新しいマシンを買っても届 かないかも 新型コロナウイルスの蔓延 • クラウドインフラを利用 • ウイルス対策?? 自宅の電気代が増える オンプレにこだわる 自分で支払う • クラウドインフラを利用 • 業務用に別契約で電気を引く • 電気代を会社へ請求する
  10. 10. 10 データ転送は?1.3 テラバイトもありますが・・・・ 1.3テラバイトってどんな感じ? 写真 65万枚、DVD 270枚、Blu-ray 52枚1 P 自宅の回線は光回線(Nuro 光) 上り 100Mbps 以上 → 37時間で転送完了🎊🎊🎊 2 プロバイダの帯域制限 30GB/Day → 43日間で転送完了💀💀💀 3 過去の辛い体験 レンタルサーバーのデータ転送(300GB) → プロバイダからクレームと帯域制限 → 5日間で転送完了💀 4
  11. 11. 11 問題解決:転送どうする?問題 → 原因 → 対策立案 問題 原因 対策立案 転送にかかる時間が読めない 回線の帯域制限 • クラウドの物理転送サービスを利用 • プロバイダの契約変更 • 追加の回線を契約する • ダークファイバーを契約しクラウドへ直接接続 転送時はビデオ会議不能 → 業務不能 回線の帯域不足 • クラウドの物理転送サービスを利用 • 追加の回線を契約する 自宅内の回線品質が悪い WiFi接続 • クラウドの物理転送サービスを利用 • 自宅にLANケーブルを敷設する
  12. 12. 12 対策利用サービスの比較検討 評価項目 AWS Azure GCP クラウド分析環境 vm, SageMaker vm, Azure ML vm 物理転送サービス Snowball Azure Data Box Transfer Appliance 自分の慣れ
  13. 13. 13 v やりたいこと 背景 目的 制約 問題解決 解決すべき問題 原因と対策の検討 解決方法 データ転送 Snowball の紹介 使った感想 その他の工夫 環境構築 実行環境 データ保存方法 キャッシング
  14. 14. 14 AWS Snowball の紹介AWSの物理データ転送サービス • テラバイト規模を1週間で移動🚀 • 要するに、レンタルのオンプレ版 S3 • クラウドの S3 へのインポート可能 • 最低レンタル料金 300ドル(10日間) • ひとりで持てるポータビリティ • 軍事用途もイケるタフさ • プロモーション動画が素敵✨ • 紛失しても12500ドル
  15. 15. 15 AWS Snowball の紹介サービス紹介の動画 5:00 流れ 6:15 運搬 6:33 デプロイ例 出典) https://www.youtube.com/watch?v=H3_ZqnqLyVo&t=483s
  16. 16. 16 AWS Snowball の紹介AWSのコンソールとステータス一覧
  17. 17. 17 Snowball Edge 届いた! 玄関先に置かれた 2階の仕事部屋に運んでもらいたかった (届く前々日にギックリ腰を発症💦)
  18. 18. 18 Snowball Edge 使い方 1.上蓋を開ける 2.付属電源ケーブルを刺す 3.LANケーブルを刺す 4.Powerボタンを押す 5.起動の様子を楽しむ 6.専用コマンドで暗号解除 7.Region を設定 8.S3として使う
  19. 19. 19 Snowball Edge の起動気になる起動音 出典)https://youtu.be/ezLM7yDTiWQ
  20. 20. 20 データ転送の進捗時間経過とステイタス 総日数 経過日数 実施事項 0 12 発注→自宅到着 12 2 転送(20MB/sec) 14 4 ベリファイ (MD5ハッシュが 💦) 18 2 自宅発送 → 到着 20 10 トラブル!? 30 4 進捗問い合わせ 34 転送完了
  21. 21. 21 v やりたいこと 背景 目的 制約 問題解決 解決すべき問題 原因と対策の検討 解決方法 データ転送 Snowball の紹介 使った感想 その他の工夫 環境構築 実行環境 データ保存方法 キャッシング
  22. 22. 22 その他の工夫様々なレイヤでの工夫 S R C E ストレージ S3、EFS、EBS を検討 安価な S3 を利用 実行環境 複数のインスタンスで処理を 分散。 全体の計算速度を向上。 キャッシング 読み込んだ生データや計算 結果をローカルディスクに キャッシング。同一計算の 速度を向上。 環境構築 Infrastructure as Code(AWS CloudFormation、Ansible Shell script + ssh) 実験の再現性を確保。
  23. 23. 23 インフラ構成インフラ構成とデータの流れ Public subnet VPC AWS Cloud AWS CloudFormation Instance Elastic IP address Amazon EC2 Private subnet Bucket Raw data(1.3TB) Bucket Processed Ansible Office Filtering rule AWS Snowball Edge Instance Instance Instance InstanceInstanceInstance AMI HDD (1.3TB) PC Home PC Delivery 😀分析者 Data owner Delivery Amazon S3
  24. 24. 24 ソフトウェアの工夫ローカルストレージでキャッシング CPU Cache Layer (Local Storage) Process 分析コード S3データの キャッシュ Goofysで S3 を マウント 演算結果の キャッシュ ヘビーな演算 CPU Cache Layer (Local Storage) Process 分析コード S3データの キャッシュ Goofysで S3 を マウント 演算結果の キャッシュ ヘビーな演算 AWS S3 生データ (1.3TB) Network
  25. 25. 25 学習時の稼働状況96コアがフル稼働
  26. 26. 26 やったことのまとめ色々やってみた 大容量データ の分析 インフラ インスタンス 分散 Infrastructure as Code データ投入 Snowball Edge ソフトウェア ローカルスト レージキャッ シュ お金 予算必要 スキル インフラ コーディング DS
  27. 27. 27 まとめ大容量データの分析に関するまとめ • センサーデータは巨大化しがち • 計画的に分析しましょう 環境構築、データ転送、必要スキル、予算、工数、期間 • お金で買える時間もある • クラウドが使えないと、コスト、期間に影響することも • インフラスキルは必須(インフラチームがいるとありがたい) • 機械学習は学習時等に CPU やメモリをバカ食いするので要注意 (学習プログラムをWebサーバー等に同居させるのは超危険)
  28. 28. 28 THANK YOU ご清聴ありがとうございました!
  29. 29. 29 # 使用サービス、ソフトウェア等 特徴、用途、助かった点 1 Make コマンドを覚えなくて済む。コマンドの依存関係を覚えててくれる。 2 Ansible 指示した通りにミスらずサーバーを構築してくれる。 3 cloudpickle Python オブジェクトをシリアライズしてくれるモジュール。 Pickle よりもサポートするオブジェクトが多い。キャッシュに役立つ 4 Go / fuse Goofys を動かしてくれる 5 Goofys AWS S3 をマウントしてくれる 6 AWS cli2 AWS をコマンドライン操作できる。Snowball、S3、CloudFormation を利用。 7 OpenSSH SSHできる。 8 Tera Term UTF8に対応していないけど、軽快にSSHできる。 9 GitHub/Git リポジトリを管理してくれる。 10 Docker/docker-compose/Poetry 綺麗な環境を簡単に作れる。 11 Bash 好きなコマンドを叩ける。環境監視、ジョブ投入、結果確認等でも利用。 12 X Window System / VcXsrv GUI アプリケーションをリモートホストで利用できる。 13 Python/tkinter/matplotlib/etc… おおよそ好きなことができる。 14 MLFlow 実験管理というよりログとして利用。画面に出力と同時に分析パラメーターと共に MLFlowへ登録。 15 Ubuntu OS の仕事をしてくれる。 16 AWS S3, Snowball, EC2, EBS, VPC, Subnet, SecurityGateway, CloudFormation おまけ:利用ソフトウェアとサービスオープンソースのコントリビューターに感謝です

×