Apache Spark es un motor de procesamiento de datos de código abierto y de alta velocidad. Proporciona procesamiento in-memory de datos a través de RDD (Resilient Distributed Datasets) que permiten operaciones paralelas tolerantes a fallas. Spark también ofrece un entorno de desarrollo interactivo y una API unificada para procesamiento por lotes e incremental sobre Hadoop u otros sistemas de almacenamiento distribuido.
4. Qué es Spark?
Apache Spark™ is a fast and general engine for large-scale data
processing.
• Procesamiento In-memory (preferencialmente)
• Framework de Procesamiento Unificado
• Para Ingenieros & Data Scientists
5. Principales Pilares
Task Scheduler
• Prepara los jobs a traves de DAG (Directed acyclic
graph)
• Enganchan funciones para ejecutar los stages
• Cache-aware; considera data utilización &
localización (data locality)
• Partitioning-aware para reducir shuffles por la red
RDD (Resilient Distributed Datasets)
•
Estructura de datos Immutable (In-memory)
• Tolerante a fallas (Se reama en caso de falla)
• Estructura de datos que puede ser operada en
paralelo
• Rica interfaz de Transformations & Actions
12. Plataforma Unificada
• No es necesario copiar datos/ETL entre sistemas
• Varios tipos de procesamientos en el mismo código (claridad)
• Reutilización de código (Batch & Realtime)
• Un único sistema para aprender
• Un único sistema para mantener
Big Deal para
Arquitectura Lambda
18. Y más …
• Esfuerzo para estandarización de la plataforma
• Certificación para Distros & Apps gratis
• Material de training gratis
• Databricks levantó $47M
• Databricks Cloud???