2015 06-16 круглый стол компетенции по большим данным
Профессия Data Scientist
1. Профессия Data Scientist
Леонид Жуков
Отделение Прикладной Математики и Информатики
lzhukov@hse.ru
Конференция «Большие Данные в национальной экономике»
Москва 2013
Высшая школа экономики, Москва, 2013
www.hse.ru
2. The Sexiest Job of the 21st century
McKinsey оценивает
нехватку в
140,000-190,000
специалистов к 2018г
Высшая школа экономики, Москва, 2013
2
5. Кто такие Data Scientists?
A practitioner of data science is called a data scientist ( Wikipedia)
Любит данные
Исследовательский склад ума
Цель работы – нахождение закономерностей в данных
Практик, не теоретик
Умеет и любит работать руками
Эксперт в прикладной области (*)
demand for a certain set of skills, while later demand wanes as many of those initial skills are
automated by even newer tools. Consider, for instance, the way many data processing and network
Работает в команде
management jobs that used to require legions of computer operators are now handled by automated
monitoring tools. Data science is still in its very early phase, with the amount of data exploding and
the right tools to process them just becoming
available.
The best source of new Data Science talent
is:
Предпочтительное образование:
•
•
•
•
Computer Science
Статистика, математика
Точные науки: Физика, Инженерия, итд
Магистры и кандидаты наук
Today's BI
professionals
12%
Professionals
in disciplines
other than IT
or computer
science
27%
Other
3%
Students
studying
computer
science
34%
Students
studying
fields other
than
computer
science
24%
EMC Data Science
Высшая школа экономики, Москва, 2013
university students.
Although data science is generating new
opportunities, our capacity to train new data
scientists is not keeping up, and nearly twothirds of respondents foresee a looming
shortfall in the number of data scientists over
the next five years. This aligns with other
research, including a recent McKinsey Global
Institute study that predicts a shortage of
190,000 data scientists by the year 2019iii.
And when our respondents were asked where
the best source for talent was, few looked to
today’s business intelligence professional.
Instead, nearly two-thirds looked
Community Survey, 2011 for today’s
5
Drew Conway, 2010
•
•
•
•
•
•
•
Data Scientist:
7. День из жизни Data Scientist
Постановка
задачи
Получение
данных
Разбор
форматов,
организация
Исследование
данных
Высшая школа экономики, Москва, 2013
Очистка,
фильтрация
Построение
моделей
Визуализация
Обсуждение
результатов
7
8. Data Scientist или Аналитик
• Data Scientist:
• Используют Hadoop, MapReduce, Hive, R
• Создают специализированные системы
и инструменты
• Работают со структурированными и не
структурированными данными
• Рабочие данные измеряются в TB, PB
• Опыт научной работы, экспертиза в
статистке, машинном обучении,
программировании
• Магистры и кандидаты наук (PhDs)
• Разрабатывают предсказательными
модели
• Создают data products
• Analysts:
• Используют Excel, SQL
• Используют существующие
инструменты и системы
• Работают с табличными данными
• Данные измеряются MB,GB
• Профессиональное образование,
нет формального научного
• Бакалавры etc (BS, BA, MS, MBA)
• Работают тесно с BI и маркетингом
• Занимаются отчетами о
показателях работы бизнеса
Если Вы программируете, то скорее всего Вы - Data Scientist,
если используете Excel, то - аналитик
Высшая школа экономики, Москва, 2013
8
9. Опрос: роли и навыки Data Scientist
From: “Analyzing the Analyzers” by Harlan Harris, Sean Murphy, and Marck Vaisman , O’Reilly Strata 2012
Высшая школа экономики, Москва, 2013
9
10. Data Science команда - ”the dream team”
From: “Doing Data Science: Straight Talk from the Frontline”, Rachel Schutt, Cathy O'Neil, O'Reilly Media, 2013
Высшая школа экономики, Москва, 2013
10
11. Прикладные задачи
• Маркетинг:
•
•
•
•
Сегментация рынка
Моделирование приобретения и оттока клиентов
Рекомендательные системы
Анализ социальных медиа
• Финансовые и страховые компании:
•
•
•
•
•
Предотвращение fraud
Детектирование аномального поведения
Анализ кредитных рисков
Страховые моделирование
Оптимизация портфолио
• Здравоохранение и Фармакология:
• Генетический анализ
• Анализ клинических испытаний
• Клинические системы принятия решений
Высшая школа экономики, Москва, 2013
11
12. Дорога дальняя…
•
•
•
•
•
•
•
•
•
•
Программирование
Алгоритмы и структуры данных
Базы данных
Статистика
Анализ данных
Машинное обучение
Компьютерная обработка текста
Распределенные системы
Инструменты Big Data
Визуализация данных
From: Swami Chandrasekaran,Executive Architect, IBM, Watson Solutions
Высшая школа экономики, Москва, 2013
12
13. Подготовительные программы в индустрии
TRAINING SHEET | 2
Course Outline: Cloudera Introduction to Data Science
Introduction
Data Analysis and Statistical Methods
Experimentation and Evaluation
Data Science Overview
> Relationship Between Statistics and
Probability
> Measuring Recommender Effectiveness
> Descriptive Statistics
> Conducting an Effective Experiment
> What Is Data Science?
> The Growing Need for Data Science
> The Role of a Data Scientist
> Inferential Statistics
Fundamentals of Machine Learning
Use Cases
> Overview
> Finance
> The Three Cs of Machine Learning
> Retail
> Spotlight: Naïve Bayes Classifiers
> Advertising
> Importance of Data and Algorithms
> Defense and Intelligence
> Telecommunications and Utilities
> Healthcare and Pharmaceuticals
Evaluating Input Data
> Data Formats
> Data Quantity
> Data Quality
Data Transformation
> Tips and Techniques for Working at Scale
> Summarizing and Visualizing Results
> Considerations for Improvement
Conclusion
> Types of Collaborative Filtering
> Fundamental Concepts
> Acquisition Techniques
> Deploying to Production
> What Is a Recommender System?
> Steps in the Project Lifecycle
> Where to Source Data
Production Deployment and Beyond
> Next Steps for Recommenders
> Limitations of Recommender Systems
Data Acquisition
> User Interfaces for Recommenders
Recommender Overview
Project Lifecycle
> Lab Scenario Explanation
> Designing Effective Experiments
Introduction to Apache Mahout
> What Apache Mahout Is (and Is Not)
> A Brief History of Mahout
> Availability and Installation
Appendix A : Hadoop Overview
Appendix B: Mathematical
Formulas
Appendix C : Language and Tool
Reference
> Demonstration: Using Mahout’s ItemBased Recommender
Implementing Recommenders with
Apache Mahout
> Overview
> Similarity Metrics for Binary Preferences
> Anonymization
> File Format Conversion
TRAINING SHEET
> Similarity Metrics for Numeric Preferences
> Scoring
> Joining Datasets
Cloudera Introduction to Data Science:
Cloudera Certified Professional: Data
Building RecommenderScientist (CCP:DS)
Systems
Высшая школа экономики, Москва, 2013
13
15. Образовательные программы
Университетские программы:
•
•
•
•
•
University of Washington: Certificate in Data Science
UC Berkeley: Master of information and data science program
New York University: Data Science at NYU
Columbia University: Institute for Data Sciences and Engineering
University of Southern California (UCS) : Master of Science in Data Science
Онлайн курсы обучения (MOOC):
• Coursera
• edX
• Udacity
Ускоренные образовательные программы (компании):
• Zipfian Academy (12 weeks intensive program)
• Insight Data Science Fellows program ( 6 weeks post doc training)
Высшая школа экономики, Москва, 2013
15
16. Конференции
Индустрийные конференции и выставки:
•
•
•
•
O’Reilly Strata Conference Making Data Work
Hadoop World
Big Data Techcon
Big Data Innovation summits
Научные и академические конференции (peer reviewed):
•
•
•
•
•
•
•
•
•
•
•
•
•
IEEE & ACM Supercomputing
IEEE Big Data
ACM KDD Knowledge Discovery and Data Mining
ACM SIGIR Information Retrieval
ICML International Conference on Machine Learning
ICDM International Conference on Data Mining
NIPS Neural Information Processing
WWW World Wide Web Conference
VLDB Very Large Data Bases
ACM CIKM Information and Knowledge Management
SIAM SDM International Conference on Data Mining
IEEE ICDE Data Engineering
IEEE Visualization
Meetups («кружки по интересам»)
Высшая школа экономики, Москва, 2013
16
18. Открытые вопросы
• Насколько важно быть экспертом в предметной области
решаемой задачи (domain expertise) ?
• Что более важно в профессии Data Scientist : образование или
практический опыт?
• Перспективы профессии Data Scientist, будут ли она замещена
программными решениями?
Высшая школа экономики, Москва, 2013
18
19. ВШЭ Отделение Прикладной Математики и
Информатики
Курсы, читаемые на отделении:
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Программирование (Python, Java, Matlab)
Архитектура компьютеров и системное программирование
Распределенные системы
Теория баз данных
Дискретная математика
Алгоритмы и структуры данных
Статистическое моделирование и анализ
Численные методы
Прикладная теория графов
Анализ и обработка данных
Методы машинного обучения
Автоматическая обработка текстов
Компьютерная лингвистика
Анализ социальных сетей
• Запускается Магистерская программа «Наука о Данных»
Высшая школа экономики, Москва, 2013
19
20. 101000, Россия, Москва, Мясницкая ул., д. 20
Тел.: (495) 621-7983, факс: (495) 628-7931
www.hse.ru