SlideShare a Scribd company logo
1 of 7
Pandas / Dask / Vaex
はんなりPython #23 LT
Hideyuki Ogawa
Who ?
• はんなりPython 運営
• PyConJP 2019 スピーカー
• PyCon China 北京 スピーカー
• 合同会社 長目 Founder & CEO
Pandas
• Pythonのデータ分析において欠かせないツール
• データの前処理、可視化などのカギとなる
• しかしいろいろ問題あり
• Apache Arrow and the 10 things I hate about Pandas
• https://wesmckinney.com/blog/apache-arrow-pandas-
internals/
• メモリたくさん食うし、1個のコアしか使えない
Dask
• 並列処理でガガっと
• Numpy、Pandas、scikit learnの並列処理版もある
• タスクのスケジューリングなどもしてくれる
• 一台のコンピュータだけでなく、たくさんのコンピュータで並
列処理してくれる
• すげー
• だがしかし・・・
Vaex
• Library for Lazy Out-of-Core DataFrames
• 巨大な表形式のデータセット向けデータ探索ツール
• 計算、可視化
• 遅延評価
• メモリを効率的に使用
Talk is cheap, Show me the code!
参考資料
• Vaex Documents: https://vaex.readthedocs.io/en/latest/
• Vaex: A DataFrame with super strings https://towardsdatascience.com/vaex-a-dataframe-
with-super-strings-789b92e8d861
• Vaex 入門: https://blog.ikedaosushi.com/entry/2019/04/14/173307
• 遅延評価(IBM): https://www.ibm.com/developerworks/jp/linux/library/l-lazyprog.html
• Dask Documents: https://dask.org/
• Dask: https://docs.google.com/presentation/d/e/2PACX-
1vSTH2kAR0DCR0nw8pFBe5kuYbOk3inZ9cQfZbzOIRjyzQoVaOoMfI2JONGBz-
qsvG_P6g050ddHxSXT/pub?start=false&loop=false&delayms=60000&slide=id.p
• Dask Gateway: http://jcrist.github.io/talks/pydata_austin_2019/slides.html#1
• Dask: Pythonでの並列処理:
https://drive.google.com/file/d/1GDMjbggAv4gMekT2IBEDNSU4kU0W69Bu/view
• Pandas Documents: https://pandas.pydata.org/index.html
• Apache Arrow and the “10 things I hate about pandas”:
https://wesmckinney.com/blog/apache-arrow-pandas-internals/
• Pandas Road Map: https://pandas.pydata.org/pandas-docs/stable/development/roadmap.html

More Related Content

What's hot

Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5
Takuya Akiba
 
メモリアロケーションからみた拡張ライブラリに大切なこと
メモリアロケーションからみた拡張ライブラリに大切なことメモリアロケーションからみた拡張ライブラリに大切なこと
メモリアロケーションからみた拡張ライブラリに大切なこと
Masaya TARUI
 

What's hot (10)

強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
 
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
 
Python と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめるPython と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめる
 
Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5
 
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
 
メモリアロケーションからみた拡張ライブラリに大切なこと
メモリアロケーションからみた拡張ライブラリに大切なことメモリアロケーションからみた拡張ライブラリに大切なこと
メモリアロケーションからみた拡張ライブラリに大切なこと
 
Web技術勉強会 20120609
Web技術勉強会 20120609Web技術勉強会 20120609
Web技術勉強会 20120609
 
グラフデータベース入門
グラフデータベース入門グラフデータベース入門
グラフデータベース入門
 
SwiftのWebフレームワークVaporを触ってみる
SwiftのWebフレームワークVaporを触ってみるSwiftのWebフレームワークVaporを触ってみる
SwiftのWebフレームワークVaporを触ってみる
 
Electron + Mithril Async File Search
Electron + Mithril Async File SearchElectron + Mithril Async File Search
Electron + Mithril Async File Search
 

Similar to Pandas / Dask / Vaex

Similar to Pandas / Dask / Vaex (20)

採用LT「まだお祈りデプロイで消耗してるの?」
採用LT「まだお祈りデプロイで消耗してるの?」採用LT「まだお祈りデプロイで消耗してるの?」
採用LT「まだお祈りデプロイで消耗してるの?」
 
High performance python computing for data science
High performance python computing for data scienceHigh performance python computing for data science
High performance python computing for data science
 
Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
TOPPERS as an IoT OS(kernel)
TOPPERS as an IoT OS(kernel)TOPPERS as an IoT OS(kernel)
TOPPERS as an IoT OS(kernel)
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
 
受託開発でAnsibleを導入した話
受託開発でAnsibleを導入した話受託開発でAnsibleを導入した話
受託開発でAnsibleを導入した話
 
Apache Sparkの紹介
Apache Sparkの紹介Apache Sparkの紹介
Apache Sparkの紹介
 
【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~
【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~
【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~
 
Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践
 
Hadoopとは
HadoopとはHadoopとは
Hadoopとは
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
 
211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する
 
S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3
 
Dokkuの活用と内部構造
Dokkuの活用と内部構造Dokkuの活用と内部構造
Dokkuの活用と内部構造
 
足を地に着け落ち着いて考える
足を地に着け落ち着いて考える足を地に着け落ち着いて考える
足を地に着け落ち着いて考える
 
鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料
 
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤とEmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
 
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤とEmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
 
私とOSSの25年
私とOSSの25年私とOSSの25年
私とOSSの25年
 

More from hide ogawa

なぜデータをインタラクティブに可視化したいのか?
なぜデータをインタラクティブに可視化したいのか?なぜデータをインタラクティブに可視化したいのか?
なぜデータをインタラクティブに可視化したいのか?
hide ogawa
 

More from hide ogawa (11)

アラフォーでプログラミングをはじめて思ったこと
アラフォーでプログラミングをはじめて思ったことアラフォーでプログラミングをはじめて思ったこと
アラフォーでプログラミングをはじめて思ったこと
 
Metamaskでアカウントを作って、nftを投げ合おう
Metamaskでアカウントを作って、nftを投げ合おうMetamaskでアカウントを作って、nftを投げ合おう
Metamaskでアカウントを作って、nftを投げ合おう
 
位置データ活用 経済センサスのデータを使ってみよう
位置データ活用 経済センサスのデータを使ってみよう位置データ活用 経済センサスのデータを使ってみよう
位置データ活用 経済センサスのデータを使ってみよう
 
KKD(勘・経験・度胸)に 位置データを加えよう!
KKD(勘・経験・度胸)に 位置データを加えよう!KKD(勘・経験・度胸)に 位置データを加えよう!
KKD(勘・経験・度胸)に 位置データを加えよう!
 
国勢調査をマーケティングに活かそう!
国勢調査をマーケティングに活かそう! 国勢調査をマーケティングに活かそう!
国勢調査をマーケティングに活かそう!
 
位置データもPythonで!!!
位置データもPythonで!!!位置データもPythonで!!!
位置データもPythonで!!!
 
なぜデータをインタラクティブに可視化したいのか?
なぜデータをインタラクティブに可視化したいのか?なぜデータをインタラクティブに可視化したいのか?
なぜデータをインタラクティブに可視化したいのか?
 
Pythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きました
Pythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きましたPythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きました
Pythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きました
 
Ha llo dx
Ha llo dxHa llo dx
Ha llo dx
 
Unagipy pysuruga202010
Unagipy pysuruga202010Unagipy pysuruga202010
Unagipy pysuruga202010
 
中小企業のDXはオープンデータとPythonで!
中小企業のDXはオープンデータとPythonで!中小企業のDXはオープンデータとPythonで!
中小企業のDXはオープンデータとPythonで!
 

Pandas / Dask / Vaex

  • 1. Pandas / Dask / Vaex はんなりPython #23 LT Hideyuki Ogawa
  • 2. Who ? • はんなりPython 運営 • PyConJP 2019 スピーカー • PyCon China 北京 スピーカー • 合同会社 長目 Founder & CEO
  • 3. Pandas • Pythonのデータ分析において欠かせないツール • データの前処理、可視化などのカギとなる • しかしいろいろ問題あり • Apache Arrow and the 10 things I hate about Pandas • https://wesmckinney.com/blog/apache-arrow-pandas- internals/ • メモリたくさん食うし、1個のコアしか使えない
  • 4. Dask • 並列処理でガガっと • Numpy、Pandas、scikit learnの並列処理版もある • タスクのスケジューリングなどもしてくれる • 一台のコンピュータだけでなく、たくさんのコンピュータで並 列処理してくれる • すげー • だがしかし・・・
  • 5. Vaex • Library for Lazy Out-of-Core DataFrames • 巨大な表形式のデータセット向けデータ探索ツール • 計算、可視化 • 遅延評価 • メモリを効率的に使用
  • 6. Talk is cheap, Show me the code!
  • 7. 参考資料 • Vaex Documents: https://vaex.readthedocs.io/en/latest/ • Vaex: A DataFrame with super strings https://towardsdatascience.com/vaex-a-dataframe- with-super-strings-789b92e8d861 • Vaex 入門: https://blog.ikedaosushi.com/entry/2019/04/14/173307 • 遅延評価(IBM): https://www.ibm.com/developerworks/jp/linux/library/l-lazyprog.html • Dask Documents: https://dask.org/ • Dask: https://docs.google.com/presentation/d/e/2PACX- 1vSTH2kAR0DCR0nw8pFBe5kuYbOk3inZ9cQfZbzOIRjyzQoVaOoMfI2JONGBz- qsvG_P6g050ddHxSXT/pub?start=false&loop=false&delayms=60000&slide=id.p • Dask Gateway: http://jcrist.github.io/talks/pydata_austin_2019/slides.html#1 • Dask: Pythonでの並列処理: https://drive.google.com/file/d/1GDMjbggAv4gMekT2IBEDNSU4kU0W69Bu/view • Pandas Documents: https://pandas.pydata.org/index.html • Apache Arrow and the “10 things I hate about pandas”: https://wesmckinney.com/blog/apache-arrow-pandas-internals/ • Pandas Road Map: https://pandas.pydata.org/pandas-docs/stable/development/roadmap.html