More Related Content Similar to Spark Summit Europe Wrap Up and TASM State of the Community (20) More from Jean-Georges Perrin (20) Spark Summit Europe Wrap Up and TASM State of the Community3. JGP • Jean Georges Perrin
๏ @jgperrin
๏ Chapel Hill, NC
๏ I 🏗 SW • Since 1983
๏ #Knowledge =
𝑓 ( ∑ (#SmallData, #BigData), #DataScience)
& #Software
๏ #IBMChampion x9 • #KeepLearning
๏ @ http://jgp.net
4. DiffTool is now DataQ
๏ Dhiraj Peechara presented DiffTool
๏ Now DataQ
๏ Now Open Source
๏ http://dataq.io
7. Links (they gotta make ‘em shorter)
๏ https://databricks.com/blog/2017/12/06/spark-summit-is-
becoming-the-spark-ai-summit.html
๏ https://databricks.com/sparkaisummit/north-america
9. Quick Survey
๏ Introduction
๏ Who is a Java developer?
๏ Who uses Spark?
๏ Who uses Python with Spark?
๏ Who uses Scala with Spark?
๏ Who uses Java with Spark?
14. Logistics
๏ October 24-26 2017
๏ The Convention Center Dublin, Ireland
๏ About 1200 attendees
๏ 3 tutorials
๏ 5 tracks on day 1: developer, data science, technical deep dives, and
data engineering
๏ 6 tracks on day 2: developer, Spark ecosystem, AI, sponsored
sessions, research, and enterprise
๏ Introduced levels: beginner, intermediate, and advanced
27. Press
Printed in EU - Imprimé en UE - BELGIQUE 7 € - Canada 9,80 $ CAN - SUISSE 13,10 FS - DOM Surf 7,50 € - TOM 1020 XPF - MAROC 55 DH
PROGRAMMEZ!
#213 - décembre 2017
le magazine des développeurs
©Bliznetsov
Les développeurs vont nous sauver...
ChromeLes outils méconnus des Devtools
enfinonl’espère
Défi JediJe code mon IDE !
CYBERGUERRE
Le top 10des erreursJava
3’:HIKONB=^U[ZUY:?a@m@b@d@k";
M04319-213-F:6,50E-RD
C# 7.2 / C# 8.0
Toutes les nouveautés
# 213
conférence8
La surveillance est omniprésente, mais aucun
nouvel outil n’est réellement sorti du lot.
Cependant, Michael McCune de RedHat a mon-
tré une interface entre Spark et Prometheus. Luca
a également expliqué comment accéder facile-
ment au journal de Spark, en utilisant Spark, avec
un dataframe.
La science des données est également très vivan-
te, au sein de nombreuses sociétés comme Shell,
Hotels.com… De plus en plus de trucs et astuces
y compris quelques livres sont publiés... Et cer-
tains conférenciers font preuve d’autopromotion
pas très subtile - et non, je ne pense pas à toi,
Holden. Tous ces signes montrent clairement que
le produit mûrit et que les utilisateurs sont plus
exigeants : on passe de l’expérimentation à l’ex-
ploitation.
Communauté
La communauté se renforce également avec l’ai-
de de mon ami Jules Damji (@2twitme). Nous
allons essayer de rendre l’année prochaine enco-
re plus intéressante pour cette communauté en
pleine croissance. J’en appelle aux utilisateurs
français : contactez-moi, organisons-nous ! Pour
Databricks, comme pour IBM, les deux princi-
paux contributeurs de Spark : il faut désormais
encourager cette communauté à grandir. Les
membres des Meetups dans le monde ont
presque doublé depuis le Spark Summit de San
S
park franchit une nouvelle étape : de plus
en plus d’utilisateurs s’intéressent au moni-
toring, à l’optimisation, à l’extension de la
plateforme... Pour moi, c’est un signe clair que
notre projet Apache préféré gagne en maturité.
Maturité
De nombreuses sessions ont porté sur les bench-
marks et les performances, y compris une
nouvelle version de Spark Bench, construite et ou-
verte par IBM et l’équipe d’Emily Curtin
(@emilymaycurtin), d’Atlanta, GA, (ATL compte
beaucoup pour Emily). C’est un outil impression-
nant qui permet de tester différentes
configurations (et variantes de configuration)
d’Apache Spark. L’outil permet de s’assurer « au-
tomagiquement » de la configuration optimale de
la charge de travail pour Spark. Je dois absolu-
ment réussir à convaincre mon « Product Owner »
d’allouer du temps pour implémenter Spark
Bench sur notre projet.
J’ai assisté aux sessions de Luca Canali
(@LucaCanaliDB) et de Jakub Wozniak du CERN.
L’équipe du CERN a donné plusieurs sessions sur
comment optimiser, passer en production, définir
l’architecture et benchmarker Spark... tout en uti-
lisant Java. Oui, en production avec Spark et Java.
Leur but est de traiter 900 Go de données par
jour et ce n’est qu’une première étape, sachant
que les expériences peuvent générer plus d’un
mais ajouter tous les algorithmes. La contribution
de votre humble serviteur, avec une conférence
intitulée « Étendre l’ingestion d’Apache Spark :
construire sa propre source de données avec
Java », est également à placer dans le domaine
général de l’extensibilité du produit.
Écosystème
L’écosystème est en train de mûrir : de plus en
plus de produits apparaissent comme Databricks
Delta annoncé par Matei Zaharia (@matei_zaha-
ria), précédé il y a quelques mois par IBM Event
Store, et le support commercial de GridGain pour
Apache Ignite : tous les trois dans le domaine des
bases de données mémoire se connectant à
Spark (ok, je sursimplifie). Il apparaît de plus en
plus, dans certains scénarios, d’avoir une base de
données plus proche du moteur. Et Matei d’ajou-
ter :
Cette année, lors de Spark Summit Europe, les
participants étaient très intéressés par la perfor-
mance et la facilité de gestion des données de
notre nouveau produit, Delta. Au lieu d’avoir à
connecter un bus de message, comme par
exemple Apache Kafka, un Data Lake (par
exemple S3) ou un entrepôt de données, les utili-
sateurs peuvent désormais télécharger leurs
données via Delta et obtenir automatiquement
l’évolutivité et le faible coût d’exploitation
d’Amazon S3. [..] Cela économise énormément
Fin octobre, juste avant leur fête sacrée d’Halloween,
les Irlandais recevaient Spark Summit Europe 2017. Le
3e sommet de l’année et premier (en 2017) en Europe,
a réuni sur 3 jours, 102 conférenciers et 1200 visiteurs.
Apache Spark : vers une maturité méritée
Jean Georges
Perrin lors de sa
conférence sur
l’extensibilité de
Spark.
©Databaricks
• Jean Georges Perrin
(@jgperrin) est un architecte freelance (data and software architect).
Auparavant, Jean Georges a fondé et dirigé plusieurs startups dans le
domaine d'Internet, du Web, des outils de développements, des outils
e-marketing… Il a été le premier français (ex-aequo) à être nommé
IBM Champion en 2009. Il vit aujourd'hui en Caroline du Nord.
Logicielprofessionnel.Logicielprofessionnel.Documentnoncontractuel.
008_009_213 23/11/17 08:58 Page8