20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所

•

30 likes•5,454 views

Ryuji Tamagawa

2017/9/27 PyData.Tokyoでのプレゼンです。

Technology

▸ facebook : Ryuji Tamagawa
▸ Twitter : tamagawa_ryuji
▸ FB
pydata.tokyo
▸ Twitter

Wes Mckinney blog
▸ http://qiita.com/tamagawa-ryuji

▸
▸
▸ Spark Hadoop
▸ PySpark
▸ Spark/Hadoop PyData

https://www.slideshare.net/kumagi/ss-78765920/4

▸
▸
▸ Amazon EMR
▸ Microsoft Azure HDInsight
▸ Cloudera Altus
▸ Databricks Community Edition Spark
▸ PyData + Jupyter PySpark

Spark Hadoop
Hadoop0.x Spark
OS
HDFS
MapReduce
OS
HDFS
Hive e.t.c.
HBase
MapReduce
OS
HDFS
Hive e.t.c.
HBaseMapReduce
YARN
Spark
Spark Streaming, MLlib,
GraphX, Spark SQL)
Impala
SQL
YARN
Spark
Spark Streaming, MLlib, GraphX,
Spark SQL)
Mesos
Spark
Spark Streaming, MLlib, GraphX,
Spark SQL) Spark
Spark Streaming, MLlib, GraphX,
Spark SQL)
Windows
Hadoop 0.x Hadoop 1.x Hadoop 2.x + Spark

Spark Hadoop
Hadoop Spark
map
JVM
HDFS
reduce
JVM
map
JVM
reduce
JVM
f1
RDD
Executor JVM
HDFS
f2
f3
f4
f5
f6
f7
MapReduce Spark
RDD

Spark Hadoop
Spark
▸ Hadoop MapReduce
▸ Spark API MapReduce API
▸ Hadoop

PySpark
(Py)Spark
▸ / Spark
▸ PyData
▸ Spark
▸ Spark Hadoop
PyData
PySpark

PySpark
RDD API DataFrame API
▸ RDD Resilient Distributed Dataset =
Spark Java
▸ DataFrame RDD
/ R data.frame
▸ Python RDD API DataFrame API Scala
/ Java

PySpark
DataFrame API
RDD
DataFrame /
Dataset
MLlib ML
GraphX GraphFrame
Spark
Streaming
Structured
Streaming

Worker node
PySpark
Executer
JVM
Driver
JVM
Executer
JVM
Executer
JVM
Storage
Python
VM
Worker node Worker node
Python
VM
Python
VM
RDD API PySpark
Worker node
Executer
JVM
Driver
JVM
Executer
JVM
Executer
JVM
Storage
Python
VM
Worker node Worker node
Python
VM
Python
VM
DataFrame API PySpark

PySpark
▸ RDD API Executer JVM Python VM
▸ DataFrame API JVM
▸ UDF Python VM
▸ UDF Scala Java
▸ Spark 2.x DataFrame

Spark PyData
Spark PyData
▸ Spark
▸ Python PyData
▸
▸ Parquet
▸ Apache Arrow

Spark PyData
▸ CSV JSON
▸Parquet Spark DataFrame API
Python
fastparquet pyarrow
▸ Performance comparison of different ﬁle formats and storage engines
in the Hadoop ecosystem
▸
=

Spark PyData
Parquet
 
https://parquet.apache.org/documentation/latest/
 
zip CSV
I/O
ROW BLOCK
COLUMN #0 ROW #0
COLUMN #0 ROW #1
COLUMN #0 ROW #N
COLUMN #1 ROW #0
COLUMN #1 ROW #1
…
…
COLUMN #1 ROW #N
COLUMN #2 ROW #0
COLUMN #2 ROW #1
…
COLUMN #M ROW #N
ROW BLOCK
COLUMN #0 ROW #0
COLUMN #0 ROW #1
COLUMN #0 ROW #N
COLUMN #1 ROW #0
COLUMN #1 ROW #1
…
…
COLUMN #1 ROW #N
COLUMN #2 ROW #0
COLUMN #2 ROW #1
…
COLUMN #M ROW #N
...

Spark PyData
Spark
df = spark.read.csv(csvFilename, header=True, schema = theSchema).coalesce(20)
df.write.save(ﬁlename, compression = 'snappy')
from fastparquet import write
pdf = pd.read_csv(csvFilename)
write(filename, pdf, compression='UNCOMPRESSED')
fastparquet
import pyarrow as pa
import pyarrow.parquet as pq
arrow_table = pa.Table.from_pandas(pdf)
pq.write_table(arrow_table, filename, compression = 'GZIP')
pyarrow

Spark PyData
▸ pandas CSV Spark
Spark pandas
…
▸ Spark - pandas
▸ pandas → Spark …
▸ Apache Arrow

Spark PyData
Apache Arrow
▸ Apache Arrow
▸ PyData / OSS
▸ /
https://arrow.apache.org

Spark PyData
Wes blog
▸ pandas Apache Arrow
▸ Blog
▸ PyData Blog
 
Wes OK
▸ Apache Arrow pandas 10  
https://qiita.com/tamagawa-ryuji/items/3d8fc52406706ae0c144

20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所

What's hot

Cassandra + Hadoop @ApacheCon Jeremy Hanna

Introduing sparkTaotao Li

How to measure your dataflow using fio, pktgen and bandwidthTestNaoto MATSUMOTO

hbaseconasia2019 Spatio temporal Data Management based on Ali-HBase Ganos and...Michael Stack

An introduction to Big-Data processing applying hadoopAmir Sedighi

AlluxioChristophe Marchal

Константин Макарычев (Sofware Engineer): ИСПОЛЬЗОВАНИЕ SPARK ДЛЯ МАШИННОГО ОБ...Provectus

HadoopJaydeep Patel

Avoiding Performance Potholes: Scaling Python for Data Science Using Apache ...Databricks

Big data ecosystemSlideCentral

Big Data Programming Using Hadoop WorkshopIMC Institute

Big Data Ecosystem after Sparkbigdata trunk

Hadoop - Simple. Scalable.elliando dias

Introduction to Apache Tajo: Future of Data WarehouseJihoon Son

Hadoop 101 - Big Data TechnologyFirman Gautama

Blaze the-evolution-of-numpypythonsd

Nov HUG 2009: Hadoop Record Reader In PythonYahoo Developer Network

Bigdata Nedir? Hadoop Nedir? MapReduce Nedir? Big Data.Zekeriya Besiroglu

Big Data - Fast Machine Learning at Scale + CouchbaseFujio Turner

What's hot (19)

Cassandra + Hadoop @ApacheCon

Introduing spark

How to measure your dataflow using fio, pktgen and bandwidthTest

hbaseconasia2019 Spatio temporal Data Management based on Ali-HBase Ganos and...

An introduction to Big-Data processing applying hadoop

Alluxio

Константин Макарычев (Sofware Engineer): ИСПОЛЬЗОВАНИЕ SPARK ДЛЯ МАШИННОГО ОБ...

Hadoop

Avoiding Performance Potholes: Scaling Python for Data Science Using Apache ...

Big data ecosystem

Big Data Programming Using Hadoop Workshop

Big Data Ecosystem after Spark

Hadoop - Simple. Scalable.

Introduction to Apache Tajo: Future of Data Warehouse

Hadoop 101 - Big Data Technology

Blaze the-evolution-of-numpy

Nov HUG 2009: Hadoop Record Reader In Python

Bigdata Nedir? Hadoop Nedir? MapReduce Nedir? Big Data.

Big Data - Fast Machine Learning at Scale + Couchbase

Viewers also liked

Apache sparkとapache cassandraで行うテキスト解析Kazutaka Tomita

Pynqでカメラ画像をリアルタイムfastx コーナー検出marsee101

PYNQ 祭り: Pmod のプログラミングryos36

APACHE TOREE: A JUPYTER KERNEL FOR SPARK by Marius van NiekerkSpark Summit

PYNQ祭りMr. Vengineer

Presto in my_use_casewyukawa

PYNQで○○してみた!aster_ism

PYNQ祭りLT todotaniKenshi Kamiya

PYNQ単体でUIを表示してみる(PYNQまつり)Kenta IDA

[db analytics showcase Sapporo 2017] A15: Pythonでの分散処理再入門 by 株式会社ＨＰＣソリューションズ ...Insight Technology, Inc.

Pynq祭り資料一路川染

コンピュータエンジニアへのFPGAのすすめTakeshi HASEGAWA

Viewers also liked (12)

Apache sparkとapache cassandraで行うテキスト解析

Pynqでカメラ画像をリアルタイムfastx コーナー検出

PYNQ 祭り: Pmod のプログラミング

APACHE TOREE: A JUPYTER KERNEL FOR SPARK by Marius van Niekerk

PYNQ祭り

Presto in my_use_case

PYNQで○○してみた!

PYNQ祭りLT todotani

PYNQ単体でUIを表示してみる(PYNQまつり)

[db analytics showcase Sapporo 2017] A15: Pythonでの分散処理再入門 by 株式会社ＨＰＣソリューションズ ...

Pynq祭り資料

コンピュータエンジニアへのFPGAのすすめ

Similar to 20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所

Intro to Apache SparkMammoth Data

PYSPARK PROGRAMMING.pdfMuhammadFauzi713466

5 reasons why spark is in demand!Edureka!

4Developers 2018: Pyt(h)on vs słoń: aktualny stan przetwarzania dużych danych...PROIDEA

5 Reasons why Spark is in demand!Edureka!

Spark Hadoop Tutorial | Spark Hadoop Example on NBA | Apache Spark Training |...Edureka!

5 things one must know about spark!Edureka!

NYC_2016_slidesNathan Halko

Intro to Apache Spark by CTO of TwingoMapR Technologies

5 things one must know about spark!Edureka!

HKOSCon18 - Chetan Khatri - Scaling TB's of Data with Apache Spark and Scala ...Chetan Khatri

Introduction To Spark - Durham LUG 20150916Ian Pointer

Introduction to Spark with PythonGokhan Atil

2014 sept 26_thug_lambda_part1Adam Muise

H2O PySparkling WaterSri Ambati

Apache spark installation [autosaved]Shweta Patnaik

Kafka Summit SF 2017 - Streaming Processing in Python – 10 ways to avoid summ...confluent

Scalable Machine Learning with PySparkLadle Patel

Big Data Processing with .NET and Spark (SQLBits 2020)Michael Rys

Adios hadoop, Hola Spark! T3chfest 2015dhiguero

Similar to 20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所 (20)

Intro to Apache Spark

PYSPARK PROGRAMMING.pdf

5 reasons why spark is in demand!

4Developers 2018: Pyt(h)on vs słoń: aktualny stan przetwarzania dużych danych...

5 Reasons why Spark is in demand!

Spark Hadoop Tutorial | Spark Hadoop Example on NBA | Apache Spark Training |...

5 things one must know about spark!

NYC_2016_slides

Intro to Apache Spark by CTO of Twingo

5 things one must know about spark!

HKOSCon18 - Chetan Khatri - Scaling TB's of Data with Apache Spark and Scala ...

Introduction To Spark - Durham LUG 20150916

Introduction to Spark with Python

2014 sept 26_thug_lambda_part1

H2O PySparkling Water

Apache spark installation [autosaved]

Kafka Summit SF 2017 - Streaming Processing in Python – 10 ways to avoid summ...

Scalable Machine Learning with PySpark

Big Data Processing with .NET and Spark (SQLBits 2020)

Adios hadoop, Hola Spark! T3chfest 2015

Recently uploaded

What's New in Teams Calling, Meetings and Devices March 2024Stephanie Beckett

unit 4 immunoblotting technique complete.pptxBkGupta21

Gen AI in Business - Global Trends Report 2024.pdfAddepto

How AI, OpenAI, and ChatGPT impact business and software.Curtis Poe

How to write a Business Continuity PlanDatabarracks

DSPy a system for AI to Write Prompts and Do Fine TuningLars Bell

Are Multi-Cloud and Serverless Good or Bad?Mattias Andersson

Streamlining Python Development: A Guide to a Modern Project SetupFlorian Wilhelm

Moving Beyond Passwords: FIDO Paris Seminar.pdfLoriGlavin3

Unraveling Multimodality with Large Language Models.pdfAlex Barbosa Coqueiro

"ML in Production",Oleksandr BaganFwdays

Passkey Providers and Enabling Portability: FIDO Paris Seminar.pptxLoriGlavin3

Use of FIDO in the Payments and Identity Landscape: FIDO Paris Seminar.pptxLoriGlavin3

DMCC Future of Trade Web3 - Special EditionDubai Multi Commodity Centre

TrustArc Webinar - How to Build Consumer Trust Through Data PrivacyTrustArc

WordPress Websites for Engineers: Elevate Your Brandgvaughan

DevoxxFR 2024 Reproducible Builds with Apache MavenHervé Boutemy

SAP Build Work Zone - Overview L2-L3.pptxNavinnSomaal

"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek SchlawackFwdays

Transcript: New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024BookNet Canada

Recently uploaded (20)

What's New in Teams Calling, Meetings and Devices March 2024

unit 4 immunoblotting technique complete.pptx

Gen AI in Business - Global Trends Report 2024.pdf

How AI, OpenAI, and ChatGPT impact business and software.

How to write a Business Continuity Plan

DSPy a system for AI to Write Prompts and Do Fine Tuning

Are Multi-Cloud and Serverless Good or Bad?

Streamlining Python Development: A Guide to a Modern Project Setup

Moving Beyond Passwords: FIDO Paris Seminar.pdf

Unraveling Multimodality with Large Language Models.pdf

"ML in Production",Oleksandr Bagan

Passkey Providers and Enabling Portability: FIDO Paris Seminar.pptx

Use of FIDO in the Payments and Identity Landscape: FIDO Paris Seminar.pptx

DMCC Future of Trade Web3 - Special Edition

TrustArc Webinar - How to Build Consumer Trust Through Data Privacy

WordPress Websites for Engineers: Elevate Your Brand

DevoxxFR 2024 Reproducible Builds with Apache Maven

SAP Build Work Zone - Overview L2-L3.pptx

"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek Schlawack

Transcript: New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024

20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所

1. PySpark @

2. ▸ facebook : Ryuji Tamagawa ▸ Twitter : tamagawa_ryuji ▸ FB pydata.tokyo ▸ Twitter

4. 8 11

5. Wes Mckinney blog ▸ http://qiita.com/tamagawa-ryuji

7. ▸ ▸ CPU ▸ PyData.Tokyo ▸ PySpark

9. ▸ ▸ ▸ Spark Hadoop ▸ PySpark ▸ Spark/Hadoop PyData

10.

11. ▸ ▸ ▸

12. PySpark ▸ ▸ SSD ▸ CPU ▸ Parquet S3 CPU

13.

14. https://www.slideshare.net/kumagi/ss-78765920/4

15. ▸ ▸ ▸ groupby ▸

16. ▸ ▸

17. N ▸ N N ▸ …

18. … ▸

19. ▸ ▸ ▸ CPU/ ▸ CPU/ ▸ 1

20. Hadoop Spark ▸ ▸ ▸ n /n

21. ▸ ▸ ▸ Amazon EMR ▸ Microsoft Azure HDInsight ▸ Cloudera Altus ▸ Databricks Community Edition Spark ▸ PyData + Jupyter PySpark

22. Spark Hadoop

23. Spark Hadoop Hadoop0.x Spark OS HDFS MapReduce OS HDFS Hive e.t.c. HBase MapReduce OS HDFS Hive e.t.c. HBaseMapReduce YARN Spark Spark Streaming, MLlib, GraphX, Spark SQL) Impala SQL YARN Spark Spark Streaming, MLlib, GraphX, Spark SQL) Mesos Spark Spark Streaming, MLlib, GraphX, Spark SQL) Spark Spark Streaming, MLlib, GraphX, Spark SQL) Windows Hadoop 0.x Hadoop 1.x Hadoop 2.x + Spark

24. Spark Hadoop Hadoop Spark map JVM HDFS reduce JVM map JVM reduce JVM f1 RDD Executor JVM HDFS f2 f3 f4 f5 f6 f7 MapReduce Spark RDD

25. Spark Hadoop Spark ▸ Hadoop MapReduce ▸ Spark API MapReduce API ▸ Hadoop

26. PySpark (Py)Spark ▸ / Spark ▸ PyData ▸ Spark ▸ Spark Hadoop PyData PySpark

27. Spark 1.2 PySpark … (Py)Spark

28. PySpark

29. PySpark RDD API DataFrame API ▸ RDD Resilient Distributed Dataset = Spark Java ▸ DataFrame RDD / R data.frame ▸ Python RDD API DataFrame API Scala / Java

30. PySpark DataFrame API RDD DataFrame / Dataset MLlib ML GraphX GraphFrame Spark Streaming Structured Streaming

31. Worker node PySpark Executer JVM Driver JVM Executer JVM Executer JVM Storage Python VM Worker node Worker node Python VM Python VM RDD API PySpark Worker node Executer JVM Driver JVM Executer JVM Executer JVM Storage Python VM Worker node Worker node Python VM Python VM DataFrame API PySpark

32. PySpark ▸ RDD API Executer JVM Python VM ▸ DataFrame API JVM ▸ UDF Python VM ▸ UDF Scala Java ▸ Spark 2.x DataFrame  

33. Spark PyData

34. Spark PyData Spark PyData ▸ Spark ▸ Python PyData ▸ ▸ Parquet ▸ Apache Arrow

35. Spark PyData ▸ CSV JSON ▸Parquet Spark DataFrame API Python fastparquet pyarrow ▸ Performance comparison of different ﬁle formats and storage engines in the Hadoop ecosystem ▸ =

36. Spark PyData Parquet   https://parquet.apache.org/documentation/latest/   zip CSV I/O ROW BLOCK COLUMN #0 ROW #0 COLUMN #0 ROW #1 COLUMN #0 ROW #N COLUMN #1 ROW #0 COLUMN #1 ROW #1 … … COLUMN #1 ROW #N COLUMN #2 ROW #0 COLUMN #2 ROW #1 … COLUMN #M ROW #N ROW BLOCK COLUMN #0 ROW #0 COLUMN #0 ROW #1 COLUMN #0 ROW #N COLUMN #1 ROW #0 COLUMN #1 ROW #1 … … COLUMN #1 ROW #N COLUMN #2 ROW #0 COLUMN #2 ROW #1 … COLUMN #M ROW #N ...

37. Spark PyData Spark df = spark.read.csv(csvFilename, header=True, schema = theSchema).coalesce(20) df.write.save(ﬁlename, compression = 'snappy') from fastparquet import write pdf = pd.read_csv(csvFilename) write(filename, pdf, compression='UNCOMPRESSED') fastparquet import pyarrow as pa import pyarrow.parquet as pq arrow_table = pa.Table.from_pandas(pdf) pq.write_table(arrow_table, filename, compression = 'GZIP') pyarrow

38. Spark PyData ▸ pandas CSV Spark Spark pandas … ▸ Spark - pandas ▸ pandas → Spark … ▸ Apache Arrow

39. Spark PyData Apache Arrow ▸ Apache Arrow ▸ PyData / OSS ▸ / https://arrow.apache.org

40. Spark PyData Wes blog ▸ pandas Apache Arrow ▸ Blog ▸ PyData Blog   Wes OK ▸ Apache Arrow pandas 10   https://qiita.com/tamagawa-ryuji/items/3d8fc52406706ae0c144

41. PySpark Python Spark

20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (12)

Similar to 20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所

Similar to 20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所 (20)

More from Ryuji Tamagawa

More from Ryuji Tamagawa (20)

Recently uploaded

Recently uploaded (20)

20170927 pydata tokyo データサイエンスな皆様に送る分散処理の基礎の基礎、そしてPySparkの勘所