Spark sql

1
빅 데이터 세미나
2016.01.18
강동현
spark SQL

2
목차
 Spark SQL 개요
 Tungsten execution engine
 Catalyst optimizer
 RDD, DataFrame
 Dataset
 Spark SQL application (in Java)
 Linking
 example
 참고 자료

3
Spark SQL
 정형/반정형 데이터(structured/semi-structured Data) 처리에 특화된
Spark Library
 Tungsten execution engine & Catalyst optimizer 기반
 다양한 interface 지원
 SQL, HiveSQL queries
 Dataframe API
 Scala, Java, Python, and R에서 사용 가능
 Spark 1.3
 Dataset API
 Scala, Java 에서 사용 가능
 Spark 1.6
 다양한 Input source를 지원
 RDD & 임시 테이블
 JSON 데이터 셋
 Parquet file
 Hive Table
 ODBC/JCBC 서버와의 연동

4
Tungsten execution engine
 스파크의 bottleneck은?
 I/O나 network bandwidth가 아님
 High bandwidth SSD & striped HDD의 등장
 10Gbps network의 등장
 CPU 와 memory에서 bottleneck 현상이 발생
 기본적인 processing workload와 함께
 Disk I/O를 최소화하기 위한 input data pruning workload
 Shuffle을 위한 serialization과 hashing이 특히 key bottleneck
 CPU와 memory의 효율을 높여야…
 하드웨어의 한계에 가깝게 성능을 뽑아올 수 있는 System Engine이 필요!
 Project Tungsten
 Spark 1.4부터 DataFrame에 적용
 spark 1.6에서 Dataset으로 확장
참고:
1. Project Tungsten – databrick
2. https://issues.apache.org/jira/browse/SPARK-7075

5
Tungsten execution engine – three Goal
 Memory Management and Binary Processing
 JVM object 모델과 garbage collection의 overhead가 큼
=>장기적으로 data를 저장할 경우 Java objects 보다는 binary format으로 저장
 메모리를 좀더 명확하게 관리할 필요가 있음
=> denser in-memory data format을 적용하여 메모리 사용률을 최소화 함
더 나은 memory accounting (size of bytes) 기술 적용(기존엔 Heuristics 기반)
 이를 기반으로 하면서 domain semantics을 최대한 반영한 data processing을 지원해야 함
=>binary format의 in memory data에 대해서도 data type을 이해하는 operator를 지원
(serialization/deserialization 없이 data processing)
 Cache-aware Computation
 sorting and hashing for aggregations, joins, and shuffle의 성능이 향상이 필요
=>memory hierarchy를 활용하는 algorithm과 data struncture
 Code Generation
 expression evaluation, DataFrame/SQL operators, serializer의 성능 향상이 필요
=>modern compilers and CPUs의 성능을 제대로 활용할 수 있는 code generation

6
Catalyst optimizer
 스칼라 함수형 프로그래밍 기법 특징을 살려 구현한 extensible optimizer
 extensible design
 새로운 optimization techniques과 feature들의 추가가 용이
 외부 개발자가 optimizer를 확장하여 사용하기 용이
 Catalyst의 구동 (In Spark SQL) ( 자세한 사항은 paper 참고)
 Tree 구조를 기반으로 optimization
 크게 4단계로 진행
그림 출처: Catalyst Optimizer - databrick
x+(1+2) 의 tree 예제 Catalyst의 phase

7
RDD, DataFrame
DataFrames / SQL
Structured Binary Data (Tungsten)
• High level relational operation 사용 가능
• Catalyst optimization 적용 가능
• Lower memory pressure
• Memory accounting (avoid OOMs)
• Faster sorting / hashing / serialization
RDDs
Collections of Native JVM Objects
• 로직 상에 특정 data type 표현이 용이
• Compile-time type-safety 보장
• 함수형 프로그래밍 가능
 두 타입 간의 변환은 지원 되지만..
 높은 변환 cost
 변환을 위한 boilerplate(표준 문안, 규칙) 숙지 필요
 둘의 장점을 합쳐놓은 API를 제공할 수 있을까?
 Catalyst optimizer & Tungsten execution engine의 장점을 활용할 수 있어야 함
 Domain object의 type을 이해할 수 있고 이를 활용할 수 있어야 함
성능 ↑안전성 & 유연성 ↑

8
Dataset
 RDD와 DataFrame의 장점만 취해 만든 interface API
 http://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/Dataset.html
 특장점
 Fast
 Typesafe
 Support for a variety of object models
 Java Compatible
 Interoperates with DataFrames
Dataset
Structured Binary Data (Tungsten)
• High level relational operation 사용 가능
• Catalyst optimization 적용 가능
• Lower memory pressure
• Memory accounting (avoid OOMs)
• Faster sorting / hashing / serialization
• 로직 상에 특정 data type 표현이 용이
• Compile-time type-safety 보장
• 함수형 프로그래밍 가능
그림 출처: technicaltidbit.blogspot.kr/

9
Dataset
 Encoder
 Dataset은 테이블 형식의 Structured Binary data로 저장
 JVM object인 RDD는 물론, DataFrame과도 형태가 다름
 Processing 및 전송을 위해서는 serialization이 필요
 RDD/DataFrame type의 data를 Dataset으로 변경하기 위해서는
Object의 타입에 맞는 특별한 Encoder가 필요(반대 방향으로의 변환에도 동일)
 이전 버전까지 사용했던 java, kyro Serialization에 비해 성능 우수함
Data Serialization 성능 비교 그림 출처: Introducing Spark Datasets- databrick

10
Dataset
 structured/semi-structured Data 분석 => Dataset으로
구분 RDD DataFrame Dataset
성능 비교적 느림 빠름 빠름
메모리 관리 누수 존재 최적화 최적화
Type-safety 보장 보장되지 않음 보장
분석 확장성 유연함 제한적 유연함
RDD-Dataset의
WordCount 예제의
실행 시간 비교
RDD-Dataset의
캐싱 시 memory
사용량 비교
그림 출처: Introducing Spark Datasets- databrick

11
Spark SQL application (in Java)
 Linking
 Pom.xml에 박스 내용 추가

12
 sample
examples/src/main/resources/people.json
examples/src/main/resources/people.txt

13
 (DataFrame example 1) Jason File
SparkConf sparkConf = new SparkConf().setAppName("dataFrame");
JavaSparkContext ctx = new JavaSparkContext(sparkConf);
SQLContext sqlContext = new org.apache.spark.sql.SQLContext(ctx);
DataFrame df = sqlContext.read().json("examples/src/main/resources/people.json");
df.show();//1
df.printSchema();//2
df.select("name").show(); //3
df.select(df.col("name"), df.col("age").plus(1)).show(); //4
df.filter(df.col("age").gt(21)).show(); //5
df.groupBy("age").count().show();//6
df.registerTempTable("people");
DataFrame results = sqlContext.sql("SELECT name FROM people");
List<String> names = results.javaRDD().map(new Function<Row, String>() {
public String call(Row row) {return "Name: " + row.getString(0); }
}).collect();
for(String tuple : names){ //7
System.out.println(tuple);
}
ctx.stop();
1.
2.
3. 4.
5.
6.
7.
import java.util.List;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;

14
 (DataFrame example 2) Text File : Specifying the Schema
JavaRDD<String> people = ctx.textFile("examples/src/main/resources/people.txt");
String schemaString = "name age";
List<StructField> fields = new ArrayList<StructField>();
for (String fieldName: schemaString.split(" ")) {
fields.add(DataTypes.createStructField(fieldName, DataTypes.StringType, true));
}
StructType schema = DataTypes.createStructType(fields);
JavaRDD<Row> rowRDD = people.map(new Function<String, Row>() {
public Row call(String record) throws Exception {
String[] fields = record.split(",");
return RowFactory.create(fields[0], fields[1].trim());
}
});
DataFrame peopleDataFrame = sqlContext.createDataFrame(rowRDD, schema);
peopleDataFrame.show();//1
peopleDataFrame.printSchema();//2
ctx.stop();
1.
2.

15
 (DataFrame example 3) Text File : Inferring the Schema(JavaBean)
import java.io.Serializable;
public class Person implements Serializable {
private String name;
private int age;
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public int getAge() {
return age;
}
public void setAge(int age) {
this.age = age;
}
}

16
 (DataFrame example 3) Text File : Inferring the Schema(JavaBean)
JavaRDD<Person> people = ctx.textFile("examples/src/main/resources/people.txt").map(
new Function<String, Person>() {
public Person call(String line) throws Exception {
String[] parts = line.split(",");
Person person = new Person();
person.setName(parts[0]);
person.setAge(Integer.parseInt(parts[1].trim()));
return person;
}});
DataFrame schemaPeople = sqlContext.createDataFrame(people, Person.class);
schemaPeople.registerTempTable("people");
DataFrame teenagers = sqlContext.sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19");
teenagers.show();//1
teenagers.printSchema();//2
ctx.stop();
1.
2.
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructType;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import java.util.ArrayList;

17
 (Dataset example)
SparkConf sparkConf = new SparkConf().setAppName("dataset");
...
DataFrame schemaPeople = sqlContext.createDataFrame(people, Person.class);
Dataset<Person> schools = schemaPeople.as(Encoders.bean(Person.class));
Dataset<String> strings = schools.map(new BuildString(), Encoders.STRING());
//Dataset<String> strings = schools.map(p-> p.getName()+" is "+ p.getAge()+" years old.", Encoders.STRING());
List<String> result = strings.collectAsList();
for(String tuple : result){//1
System.out.println(tuple);
}
ctx.stop();
class BuildString implements MapFunction<Person, String>
{
public String call(Person p) throws Exception {
return p.getName() + " is " + p.getAge() + "
years old.";
}
}
1.
import org.apache.spark.api.java.function.MapFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Encoders;

18
 (Dataset example) Encoder
 http://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/Encoder.html
 http://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/Encoders.html
1. Primitive type 인코딩
List<String> data = Arrays.asList("abc", "abc", "xyz");
Dataset<String> ds = context.createDataset(data, Encoders.STRING());
2. tuple type(K,V pair) 인코딩
Encoder<Tuple2<Integer, String>> encoder2 = Encoders.tuple(Encoders.INT(), Encoders.STRING());
List<Tuple2<Integer, String>> data2 = Arrays.asList(new scala.Tuple2(1, "a");
Dataset<Tuple2<Integer, String>> ds2 = context.createDataset(data2, encoder2);
3. Java Beans을 활용한 reference type 인코딩
Encoders.bean(MyClass.class);

19
참고 자료
 Dataset
 https://issues.apache.org/jira/browse/SPARK-9999
 http://spark.apache.org/docs/latest/sql-programming-guide.html
 http://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/Dataset.html
 http://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/Encoder.html
 https://databricks.com/blog/2015/11/20/announcing-spark-1-6-preview-in-databricks.html
 https://docs.cloud.databricks.com/docs/spark/1.6/index.html#examples/Dataset%20Aggregator.html
 http://technicaltidbit.blogspot.kr/2015/10/spark-16-datasets-best-of-rdds-and.html
 http://www.slideshare.net/databricks/apache-spark-16-presented-by-databricks-cofounder-patrick-wendell
 Tungsten
 https://issues.apache.org/jira/browse/SPARK-7075
 https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html
 catalyst
 https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-optimizer.html
 Michael Armbrust et al. Spark SQL: Relational Data Processing in Spark, In SIGMOD , 2015

Spark sql

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Spark sql

Similar to Spark sql (20)

Spark sql