SlideShare a Scribd company logo
1 of 50
Download to read offline
Escalabilidade Linear com o Banco de Dados
NoSQL Apache Cassandra.
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
Marcio Junior Vieira
● 16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day, TDC.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
● CEO da Ambiente Livre.
● Data Scientist, Instrutor e Consultor de Big Data com Hadoop, Spark,
Cassandra, MongoDB e Pentaho.
Sobre a Ambiente Livre
● Fundada em 2004 com foco de atuar em
consultoria com software livre.
● 2009 ampliou sua soluções para atender ao
mercado de gestão empresarial com software
livre.
● Tem 14 soluções distintas para geração de
negócios com software livre.
Ecosistema da Ambiente
Livre
Big Data - Muito se fala...
2005 na apresentação do Papa Bento XVI
2013 na apresentação do Papa Francisco
Big Data
IoT- Internet of Things
● Internet das Coisas se aplica a comunicação
entre objetos e entre estes e a internet, sejam
eles físicos ou virtuais.
Evolução das Coisas
Impacto Econômico - IoT
● U$ 4 a 11 trilhões a partir de 2025
A amizade sensor Big Data
Sensores de Automóveis
Sensores de Voo
Sensores sem IoT
Data Mart(s)
Data Source
Sensor
Competências Data Scientist
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
Ferramentas de Big Data
Software Livre
Fundação Apache
● Big Data = Apache = Open Source
● Apache é líder em Big Data!
● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark” e Cassandra
●
Apache Cassandra
● É um tipo de banco nosql que originalmente
foi criado pelo Facebook e que atualmente é
mantido pela Apache e outras empresas.
● Banco de dados distribuído baseado no
modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.
DataStax
● Principal mantenedora do Cassandra
● Fornece Suporte comercial e uma versão
Enterprise do Cassandra
● http://www.datastax.com/
Histórico - Versões
Top-level Apache project em 2010
● 0.6 – Abril 2010
● 1.0 – Outubro 2011
● 2.0 – Setembro 2013
● 3.0 – Novembro 2015
● 3.7 - Julho 2016
NoSQL's
● Gráfos: elementos de dados referem-se a
cada n outros em um gráfo/rede
● Chave-Valor: teclas de mapear para valores
arbitrários de qualquer tipo de dados
● Documento: conjuntos de documentos
(JSON) queryable em todo ou em parte
● Coluna Família: chaves mapeados para
conjuntos de n-número de colunas digitadas
NoSQL's
NoSQL X SQL
● Dificuldade de atingir alta disponibilidade e
escalabilidade
● Geralmente não tem Replicação multi master
● Mudanças no schema em larga escala são
complicadas e complexos
● Não tem suporte a multi datacenter para
distribuição geográfica
● Processo de upgrade em escala não é trivial
NoSQL X SQL
● Consistência Estrita = Disponibilidade
prejudicada
● Transações = deadlock / não escala
● Ad Hoc Queries e Indexação = Devem ser
planejadas antes.
CAP Theorem
● Consistência
● Disponibilidade
● particionamento
CAP Theorem
● Consistência: ver os dados mais recentes,
sem um atraso
● Disponibilidade: O sistema deverá dar uma
resposta a todos os pedido
● particionamento: significa a distribuição de
seus dados em local diferente.
● O teorema diz que você não pode alcançar os
3, você deve ficar com dois e sacrificar um!
CAP Theorem
● 1- Se você precisa de consistência e disponibilidade.
Você deve esquecer de particionamento porque quando
você particionar há uma pequena janela entre a gravação
e os dados mais recentes.
● 2- Se a disponibilidade e particionamento é o objetivo
que você tem que pagar o custo de consistência,
como explicado no 1.
● 3- finalmente, se você escolher o particionamento e
consistência que você deve sacrificar disponibilidade
para lidar com defasagens de nós deferentes para ter
dados mais recentes.
Escalabilidade Linear
● A Capacidade pode ser facilmente aumentada
simplesmente por adicionar novos nós.
● Exemplo: Se 2 nós pode lidar com 100.000
transações por segundo, 4 nós apoiará
200.000 transações/s e 8 nós vai enfrentar
400.000 transações/s
Arquitetura
Alta Disponibilidade
● Arquitetura
decentralizada
● Sem ponto único de
falha
● Fator de Replicação
entre os nodes
Replicação
● Replicação e Replicação multi data-center
Cassandra Cluster
● Distribuir dados entre os nós
● Diminuir requisitos de coerência e esquema
● Otimizar dados para atender às necessidades
reais
Outras Características
● Descentralizado
● Esquema de Dados flexível
● Suporte a MapReduce com Hadoop
● Suporte a Spark
● Nível de consistência configurável ( tunning )
Alto Desempenho
Alta performance, com escala horizontal
quase linear em casos de uso apropriados
Modelagem de Dados
Cassandra Query Language (CQL)
●
Fornece uma, linha-coluna, a abordagem SQL-like familiarizado:
CREATE, ALTER, DROP, SELECT, INSERT, UPDATE, DELETE
● Substituiu o complexo
Thrift API orientada
para o armazenamento
utilizado em versões
anteriores
●
Fornece definições de
esquema claros num contexto
flexível esquema (NoSQL)
Características
● Nenhum ponto único de falha
● Escreve em Tempo Real ( real-time) com análise de
dados operacional ao vivo
● Modelos de dados, facilmente alterados flexíveis
● Horizontalmente Escala ( Near-linear ) entre os
servidores de commodities
● Replicação de confiança entre data centers distribuídos
● Esquema de tabela claramente definido em um
ambiente NoSQL
Quando NÃO é a melhor
solução?
● RDBMS tradicional já se sobressai quando
você precisa.
● Transações ACID-compliant, com reversão
(por exemplo, transferências bancárias)
● Hardware de alta qualidade.
Casos de Uso
● Listas e coleções
● Personalização e recomendação motores
● Mensagem/Mensageria
● A detecção de fraudes
● Sensor de Dados
Cases
● Big Data na Accenture
● Mensagem
● 5.000-20.000 mensagens por segundo
● Multi Data Centers para coleta de dados
● Hadoop e Cassandra
● http://www.planetcassandra.org/blog/interview/big-data-practice-at-
accenture-helps-customers-deploy-cassandra-for-high-speed-data-
ingestion
Cases
● Plataforma de Recomendação, fornecer
recomendações para os serviços de e-commerce.
● Os maiores sites de comércio eletrônico no Brasil
usam para atender recomendações de compra
personalizadas para seus usuários.
● Migração de MySQL para Cassandra
● Cluster de 48 Nós
● http://www.planetcassandra.org/blog/interview/get-personal-with-chaordic-
bringing-personalization-to-e-commerce-with-48-nodes-of-apache-cassandra-
and-hadoop/
Outros Cases
● http://www.planetcassandra.org/apache-
cassandra-use-cases/
Cassandra no Brasil
Empresas Usando
Cassandra
Cassandra X MongoDB
● MongoDB é orientado a documentos e o Cassandra é column-based.
Vantagens Cassandra:
● Altamente escalável;
● Volumes de dados massivos;
Desvantagens Cassandra
● Maior curva de Aprendizagem
Vantagens MongoDB
● Fácil de operar e gerenciar ( baixa curva de aprendizagem )
Desvantagens MongoDB
● Pode não apresentar a mesma facilidade de distribuição de dados entre data
centers como o Cassandra.
Distribuições Cassandra
● DataStax
Enterprise
(DSE)
● DataStax
Community
Edition (DSC)
● Apache
Cassandra
Por onde Começar!
● Apache Cassandra Documentation v3.7
http://cassandra.apache.org/doc/latest/
● Academia Cassandra
https://academy.datastax.com/
● * Formação em Curitiba
De 16 a 18 de Novembro
Referências
● Datastax Documentation
http://docs.datastax.com
● Livro: “Cassandra: The Definitive Guide”
Eben Hewitt.
● Datastax Academy http://academy.datastax.com
● Academia Chaordic, Florianópolis 2014.
● Apache Cassandra Documentation v3.7
http://cassandra.apache.org/doc/latest/

More Related Content

What's hot

Modularized ETL Writing with Apache Spark
Modularized ETL Writing with Apache SparkModularized ETL Writing with Apache Spark
Modularized ETL Writing with Apache SparkDatabricks
 
Tutorial do project libre PORTUGUÊS
Tutorial do project libre PORTUGUÊSTutorial do project libre PORTUGUÊS
Tutorial do project libre PORTUGUÊSSILMAR PEREIRA
 
Optimizing Performance in Rust for Low-Latency Database Drivers
Optimizing Performance in Rust for Low-Latency Database DriversOptimizing Performance in Rust for Low-Latency Database Drivers
Optimizing Performance in Rust for Low-Latency Database DriversScyllaDB
 
Improving SparkSQL Performance by 30%: How We Optimize Parquet Pushdown and P...
Improving SparkSQL Performance by 30%: How We Optimize Parquet Pushdown and P...Improving SparkSQL Performance by 30%: How We Optimize Parquet Pushdown and P...
Improving SparkSQL Performance by 30%: How We Optimize Parquet Pushdown and P...Databricks
 
Bootstrap praticas mais usadas
Bootstrap praticas mais usadas Bootstrap praticas mais usadas
Bootstrap praticas mais usadas Marconi Pacheco
 
Physical Plans in Spark SQL
Physical Plans in Spark SQLPhysical Plans in Spark SQL
Physical Plans in Spark SQLDatabricks
 
Apache Spark Performance Troubleshooting at Scale, Challenges, Tools, and Met...
Apache Spark Performance Troubleshooting at Scale, Challenges, Tools, and Met...Apache Spark Performance Troubleshooting at Scale, Challenges, Tools, and Met...
Apache Spark Performance Troubleshooting at Scale, Challenges, Tools, and Met...Databricks
 
Couchdb + Membase = Couchbase
Couchdb + Membase = CouchbaseCouchdb + Membase = Couchbase
Couchdb + Membase = Couchbaseiammutex
 
Conhecendo Apache Kafka
Conhecendo Apache KafkaConhecendo Apache Kafka
Conhecendo Apache KafkaRafa Noronha
 
PostgreSQL- An Introduction
PostgreSQL- An IntroductionPostgreSQL- An Introduction
PostgreSQL- An IntroductionSmita Prasad
 
Building robust CDC pipeline with Apache Hudi and Debezium
Building robust CDC pipeline with Apache Hudi and DebeziumBuilding robust CDC pipeline with Apache Hudi and Debezium
Building robust CDC pipeline with Apache Hudi and DebeziumTathastu.ai
 
Reshape Data Lake (as of 2020.07)
Reshape Data Lake (as of 2020.07)Reshape Data Lake (as of 2020.07)
Reshape Data Lake (as of 2020.07)Eric Sun
 
Delta Lake: Optimizing Merge
Delta Lake: Optimizing MergeDelta Lake: Optimizing Merge
Delta Lake: Optimizing MergeDatabricks
 
Linux tuning to improve PostgreSQL performance
Linux tuning to improve PostgreSQL performanceLinux tuning to improve PostgreSQL performance
Linux tuning to improve PostgreSQL performancePostgreSQL-Consulting
 
MariaDB 마이그레이션 - 네오클로바
MariaDB 마이그레이션 - 네오클로바MariaDB 마이그레이션 - 네오클로바
MariaDB 마이그레이션 - 네오클로바NeoClova
 
Introduction to Storm
Introduction to Storm Introduction to Storm
Introduction to Storm Chandler Huang
 
Gerenciamento de riscos em projetos ágeis
Gerenciamento de riscos em projetos ágeis Gerenciamento de riscos em projetos ágeis
Gerenciamento de riscos em projetos ágeis Projetos e TI
 

What's hot (20)

Modularized ETL Writing with Apache Spark
Modularized ETL Writing with Apache SparkModularized ETL Writing with Apache Spark
Modularized ETL Writing with Apache Spark
 
CockroachDB
CockroachDBCockroachDB
CockroachDB
 
Tutorial do project libre PORTUGUÊS
Tutorial do project libre PORTUGUÊSTutorial do project libre PORTUGUÊS
Tutorial do project libre PORTUGUÊS
 
Optimizing Performance in Rust for Low-Latency Database Drivers
Optimizing Performance in Rust for Low-Latency Database DriversOptimizing Performance in Rust for Low-Latency Database Drivers
Optimizing Performance in Rust for Low-Latency Database Drivers
 
Método Kanban - Introdução ao sistema ágil adaptativo
Método Kanban - Introdução ao sistema ágil adaptativoMétodo Kanban - Introdução ao sistema ágil adaptativo
Método Kanban - Introdução ao sistema ágil adaptativo
 
Improving SparkSQL Performance by 30%: How We Optimize Parquet Pushdown and P...
Improving SparkSQL Performance by 30%: How We Optimize Parquet Pushdown and P...Improving SparkSQL Performance by 30%: How We Optimize Parquet Pushdown and P...
Improving SparkSQL Performance by 30%: How We Optimize Parquet Pushdown and P...
 
Bootstrap praticas mais usadas
Bootstrap praticas mais usadas Bootstrap praticas mais usadas
Bootstrap praticas mais usadas
 
Physical Plans in Spark SQL
Physical Plans in Spark SQLPhysical Plans in Spark SQL
Physical Plans in Spark SQL
 
Apache Spark Performance Troubleshooting at Scale, Challenges, Tools, and Met...
Apache Spark Performance Troubleshooting at Scale, Challenges, Tools, and Met...Apache Spark Performance Troubleshooting at Scale, Challenges, Tools, and Met...
Apache Spark Performance Troubleshooting at Scale, Challenges, Tools, and Met...
 
Couchdb + Membase = Couchbase
Couchdb + Membase = CouchbaseCouchdb + Membase = Couchbase
Couchdb + Membase = Couchbase
 
Conhecendo Apache Kafka
Conhecendo Apache KafkaConhecendo Apache Kafka
Conhecendo Apache Kafka
 
PostgreSQL- An Introduction
PostgreSQL- An IntroductionPostgreSQL- An Introduction
PostgreSQL- An Introduction
 
Building robust CDC pipeline with Apache Hudi and Debezium
Building robust CDC pipeline with Apache Hudi and DebeziumBuilding robust CDC pipeline with Apache Hudi and Debezium
Building robust CDC pipeline with Apache Hudi and Debezium
 
Reshape Data Lake (as of 2020.07)
Reshape Data Lake (as of 2020.07)Reshape Data Lake (as of 2020.07)
Reshape Data Lake (as of 2020.07)
 
Delta Lake: Optimizing Merge
Delta Lake: Optimizing MergeDelta Lake: Optimizing Merge
Delta Lake: Optimizing Merge
 
Linux tuning to improve PostgreSQL performance
Linux tuning to improve PostgreSQL performanceLinux tuning to improve PostgreSQL performance
Linux tuning to improve PostgreSQL performance
 
MariaDB 마이그레이션 - 네오클로바
MariaDB 마이그레이션 - 네오클로바MariaDB 마이그레이션 - 네오클로바
MariaDB 마이그레이션 - 네오클로바
 
Introduction to Storm
Introduction to Storm Introduction to Storm
Introduction to Storm
 
Gerenciamento de riscos em projetos ágeis
Gerenciamento de riscos em projetos ágeis Gerenciamento de riscos em projetos ágeis
Gerenciamento de riscos em projetos ágeis
 
LSM Trees
LSM TreesLSM Trees
LSM Trees
 

Viewers also liked

Bancos orientados a colunas (Cassandra)
Bancos orientados a colunas (Cassandra) Bancos orientados a colunas (Cassandra)
Bancos orientados a colunas (Cassandra) Otávio Santana
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
Cassandra 2.1
Cassandra 2.1Cassandra 2.1
Cassandra 2.1jbellis
 
Cassandra Summit 2014: Lesser Known Features of Cassandra 2.1
Cassandra Summit 2014: Lesser Known Features of Cassandra 2.1Cassandra Summit 2014: Lesser Known Features of Cassandra 2.1
Cassandra Summit 2014: Lesser Known Features of Cassandra 2.1DataStax Academy
 
ETL With Cassandra Streaming Bulk Loading
ETL With Cassandra Streaming Bulk LoadingETL With Cassandra Streaming Bulk Loading
ETL With Cassandra Streaming Bulk Loadingalex_araujo
 
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas DistribuídosQConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas DistribuídosEiti Kimura
 
Large partition in Cassandra
Large partition in CassandraLarge partition in Cassandra
Large partition in CassandraShogo Hoshii
 
Cassandra Tuning - Above and Beyond (Matija Gobec, SmartCat) | Cassandra Summ...
Cassandra Tuning - Above and Beyond (Matija Gobec, SmartCat) | Cassandra Summ...Cassandra Tuning - Above and Beyond (Matija Gobec, SmartCat) | Cassandra Summ...
Cassandra Tuning - Above and Beyond (Matija Gobec, SmartCat) | Cassandra Summ...DataStax
 
Building a Fast, Resilient Time Series Store with Cassandra (Alex Petrov, Dat...
Building a Fast, Resilient Time Series Store with Cassandra (Alex Petrov, Dat...Building a Fast, Resilient Time Series Store with Cassandra (Alex Petrov, Dat...
Building a Fast, Resilient Time Series Store with Cassandra (Alex Petrov, Dat...DataStax
 
Bucket your partitions wisely - Cassandra summit 2016
Bucket your partitions wisely - Cassandra summit 2016Bucket your partitions wisely - Cassandra summit 2016
Bucket your partitions wisely - Cassandra summit 2016Markus Höfer
 
Managing Cassandra at Scale by Al Tobey
Managing Cassandra at Scale by Al TobeyManaging Cassandra at Scale by Al Tobey
Managing Cassandra at Scale by Al TobeyDataStax Academy
 
Lessons Learned on Java Tuning for Our Cassandra Clusters (Carlos Monroy, Kne...
Lessons Learned on Java Tuning for Our Cassandra Clusters (Carlos Monroy, Kne...Lessons Learned on Java Tuning for Our Cassandra Clusters (Carlos Monroy, Kne...
Lessons Learned on Java Tuning for Our Cassandra Clusters (Carlos Monroy, Kne...DataStax
 
Cassandra Troubleshooting 3.0
Cassandra Troubleshooting 3.0Cassandra Troubleshooting 3.0
Cassandra Troubleshooting 3.0J.B. Langston
 
How Cassandra Deletes Data (Alain Rodriguez, The Last Pickle) | Cassandra Sum...
How Cassandra Deletes Data (Alain Rodriguez, The Last Pickle) | Cassandra Sum...How Cassandra Deletes Data (Alain Rodriguez, The Last Pickle) | Cassandra Sum...
How Cassandra Deletes Data (Alain Rodriguez, The Last Pickle) | Cassandra Sum...DataStax
 
On heap cache vs off-heap cache
On heap cache vs off-heap cacheOn heap cache vs off-heap cache
On heap cache vs off-heap cachergrebski
 
Myths of Big Partitions (Robert Stupp, DataStax) | Cassandra Summit 2016
Myths of Big Partitions (Robert Stupp, DataStax) | Cassandra Summit 2016Myths of Big Partitions (Robert Stupp, DataStax) | Cassandra Summit 2016
Myths of Big Partitions (Robert Stupp, DataStax) | Cassandra Summit 2016DataStax
 

Viewers also liked (20)

Bancos orientados a colunas (Cassandra)
Bancos orientados a colunas (Cassandra) Bancos orientados a colunas (Cassandra)
Bancos orientados a colunas (Cassandra)
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Cassandra NoSQL JUG Vale 2012
Cassandra NoSQL JUG Vale 2012Cassandra NoSQL JUG Vale 2012
Cassandra NoSQL JUG Vale 2012
 
Doctrine and NoSQL
Doctrine and NoSQLDoctrine and NoSQL
Doctrine and NoSQL
 
Apache cassandra
Apache cassandraApache cassandra
Apache cassandra
 
Cassandra 2.1
Cassandra 2.1Cassandra 2.1
Cassandra 2.1
 
Artigo Nosql
Artigo NosqlArtigo Nosql
Artigo Nosql
 
Cassandra Summit 2014: Lesser Known Features of Cassandra 2.1
Cassandra Summit 2014: Lesser Known Features of Cassandra 2.1Cassandra Summit 2014: Lesser Known Features of Cassandra 2.1
Cassandra Summit 2014: Lesser Known Features of Cassandra 2.1
 
ETL With Cassandra Streaming Bulk Loading
ETL With Cassandra Streaming Bulk LoadingETL With Cassandra Streaming Bulk Loading
ETL With Cassandra Streaming Bulk Loading
 
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas DistribuídosQConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
 
Large partition in Cassandra
Large partition in CassandraLarge partition in Cassandra
Large partition in Cassandra
 
Cassandra Tuning - Above and Beyond (Matija Gobec, SmartCat) | Cassandra Summ...
Cassandra Tuning - Above and Beyond (Matija Gobec, SmartCat) | Cassandra Summ...Cassandra Tuning - Above and Beyond (Matija Gobec, SmartCat) | Cassandra Summ...
Cassandra Tuning - Above and Beyond (Matija Gobec, SmartCat) | Cassandra Summ...
 
Building a Fast, Resilient Time Series Store with Cassandra (Alex Petrov, Dat...
Building a Fast, Resilient Time Series Store with Cassandra (Alex Petrov, Dat...Building a Fast, Resilient Time Series Store with Cassandra (Alex Petrov, Dat...
Building a Fast, Resilient Time Series Store with Cassandra (Alex Petrov, Dat...
 
Bucket your partitions wisely - Cassandra summit 2016
Bucket your partitions wisely - Cassandra summit 2016Bucket your partitions wisely - Cassandra summit 2016
Bucket your partitions wisely - Cassandra summit 2016
 
Managing Cassandra at Scale by Al Tobey
Managing Cassandra at Scale by Al TobeyManaging Cassandra at Scale by Al Tobey
Managing Cassandra at Scale by Al Tobey
 
Lessons Learned on Java Tuning for Our Cassandra Clusters (Carlos Monroy, Kne...
Lessons Learned on Java Tuning for Our Cassandra Clusters (Carlos Monroy, Kne...Lessons Learned on Java Tuning for Our Cassandra Clusters (Carlos Monroy, Kne...
Lessons Learned on Java Tuning for Our Cassandra Clusters (Carlos Monroy, Kne...
 
Cassandra Troubleshooting 3.0
Cassandra Troubleshooting 3.0Cassandra Troubleshooting 3.0
Cassandra Troubleshooting 3.0
 
How Cassandra Deletes Data (Alain Rodriguez, The Last Pickle) | Cassandra Sum...
How Cassandra Deletes Data (Alain Rodriguez, The Last Pickle) | Cassandra Sum...How Cassandra Deletes Data (Alain Rodriguez, The Last Pickle) | Cassandra Sum...
How Cassandra Deletes Data (Alain Rodriguez, The Last Pickle) | Cassandra Sum...
 
On heap cache vs off-heap cache
On heap cache vs off-heap cacheOn heap cache vs off-heap cache
On heap cache vs off-heap cache
 
Myths of Big Partitions (Robert Stupp, DataStax) | Cassandra Summit 2016
Myths of Big Partitions (Robert Stupp, DataStax) | Cassandra Summit 2016Myths of Big Partitions (Robert Stupp, DataStax) | Cassandra Summit 2016
Myths of Big Partitions (Robert Stupp, DataStax) | Cassandra Summit 2016
 

Similar to Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosBanco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosJoão Helis Bernardo
 
Bancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemJoão Gabriel Lima
 
Apostila NoSql.pdf
Apostila NoSql.pdfApostila NoSql.pdf
Apostila NoSql.pdfEizo Edson
 
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisNoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisCarlo Pires
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
Iniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSIniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSAmazon Web Services LATAM
 
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na WebMeritt - Cada Aluno é Único
 

Similar to Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra. (20)

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
NoSql e NewSql
NoSql e NewSqlNoSql e NewSql
NoSql e NewSql
 
Hadoop
HadoopHadoop
Hadoop
 
Bancos de dados NoSQL
Bancos de dados NoSQLBancos de dados NoSQL
Bancos de dados NoSQL
 
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosBanco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Bancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagem
 
Cassandra Trip Brasil
Cassandra Trip BrasilCassandra Trip Brasil
Cassandra Trip Brasil
 
Hadoop
HadoopHadoop
Hadoop
 
Apostila NoSql.pdf
Apostila NoSql.pdfApostila NoSql.pdf
Apostila NoSql.pdf
 
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisNoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Iniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSIniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWS
 
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
 

More from Ambiente Livre

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 

More from Ambiente Livre (20)

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 

Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.

  • 1. Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra. Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  • 2. Marcio Junior Vieira ● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day, TDC. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● CEO da Ambiente Livre. ● Data Scientist, Instrutor e Consultor de Big Data com Hadoop, Spark, Cassandra, MongoDB e Pentaho.
  • 3. Sobre a Ambiente Livre ● Fundada em 2004 com foco de atuar em consultoria com software livre. ● 2009 ampliou sua soluções para atender ao mercado de gestão empresarial com software livre. ● Tem 14 soluções distintas para geração de negócios com software livre.
  • 5. Big Data - Muito se fala...
  • 6. 2005 na apresentação do Papa Bento XVI
  • 7. 2013 na apresentação do Papa Francisco
  • 8.
  • 10. IoT- Internet of Things ● Internet das Coisas se aplica a comunicação entre objetos e entre estes e a internet, sejam eles físicos ou virtuais.
  • 12. Impacto Econômico - IoT ● U$ 4 a 11 trilhões a partir de 2025
  • 13. A amizade sensor Big Data
  • 16. Sensores sem IoT Data Mart(s) Data Source Sensor
  • 17. Competências Data Scientist ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  • 20. Fundação Apache ● Big Data = Apache = Open Source ● Apache é líder em Big Data! ● ~31 projetos de Big Data incluindo “Apache Hadoop” e “Spark” e Cassandra ●
  • 21. Apache Cassandra ● É um tipo de banco nosql que originalmente foi criado pelo Facebook e que atualmente é mantido pela Apache e outras empresas. ● Banco de dados distribuído baseado no modelo BigTable do Google e no sistema de armazenamento Dynamo da Amazon.com.
  • 22. DataStax ● Principal mantenedora do Cassandra ● Fornece Suporte comercial e uma versão Enterprise do Cassandra ● http://www.datastax.com/
  • 23. Histórico - Versões Top-level Apache project em 2010 ● 0.6 – Abril 2010 ● 1.0 – Outubro 2011 ● 2.0 – Setembro 2013 ● 3.0 – Novembro 2015 ● 3.7 - Julho 2016
  • 24. NoSQL's ● Gráfos: elementos de dados referem-se a cada n outros em um gráfo/rede ● Chave-Valor: teclas de mapear para valores arbitrários de qualquer tipo de dados ● Documento: conjuntos de documentos (JSON) queryable em todo ou em parte ● Coluna Família: chaves mapeados para conjuntos de n-número de colunas digitadas
  • 26. NoSQL X SQL ● Dificuldade de atingir alta disponibilidade e escalabilidade ● Geralmente não tem Replicação multi master ● Mudanças no schema em larga escala são complicadas e complexos ● Não tem suporte a multi datacenter para distribuição geográfica ● Processo de upgrade em escala não é trivial
  • 27. NoSQL X SQL ● Consistência Estrita = Disponibilidade prejudicada ● Transações = deadlock / não escala ● Ad Hoc Queries e Indexação = Devem ser planejadas antes.
  • 28. CAP Theorem ● Consistência ● Disponibilidade ● particionamento
  • 29. CAP Theorem ● Consistência: ver os dados mais recentes, sem um atraso ● Disponibilidade: O sistema deverá dar uma resposta a todos os pedido ● particionamento: significa a distribuição de seus dados em local diferente. ● O teorema diz que você não pode alcançar os 3, você deve ficar com dois e sacrificar um!
  • 30. CAP Theorem ● 1- Se você precisa de consistência e disponibilidade. Você deve esquecer de particionamento porque quando você particionar há uma pequena janela entre a gravação e os dados mais recentes. ● 2- Se a disponibilidade e particionamento é o objetivo que você tem que pagar o custo de consistência, como explicado no 1. ● 3- finalmente, se você escolher o particionamento e consistência que você deve sacrificar disponibilidade para lidar com defasagens de nós deferentes para ter dados mais recentes.
  • 31. Escalabilidade Linear ● A Capacidade pode ser facilmente aumentada simplesmente por adicionar novos nós. ● Exemplo: Se 2 nós pode lidar com 100.000 transações por segundo, 4 nós apoiará 200.000 transações/s e 8 nós vai enfrentar 400.000 transações/s
  • 33. Alta Disponibilidade ● Arquitetura decentralizada ● Sem ponto único de falha ● Fator de Replicação entre os nodes
  • 34. Replicação ● Replicação e Replicação multi data-center
  • 35. Cassandra Cluster ● Distribuir dados entre os nós ● Diminuir requisitos de coerência e esquema ● Otimizar dados para atender às necessidades reais
  • 36. Outras Características ● Descentralizado ● Esquema de Dados flexível ● Suporte a MapReduce com Hadoop ● Suporte a Spark ● Nível de consistência configurável ( tunning )
  • 37. Alto Desempenho Alta performance, com escala horizontal quase linear em casos de uso apropriados
  • 38. Modelagem de Dados Cassandra Query Language (CQL) ● Fornece uma, linha-coluna, a abordagem SQL-like familiarizado: CREATE, ALTER, DROP, SELECT, INSERT, UPDATE, DELETE ● Substituiu o complexo Thrift API orientada para o armazenamento utilizado em versões anteriores ● Fornece definições de esquema claros num contexto flexível esquema (NoSQL)
  • 39. Características ● Nenhum ponto único de falha ● Escreve em Tempo Real ( real-time) com análise de dados operacional ao vivo ● Modelos de dados, facilmente alterados flexíveis ● Horizontalmente Escala ( Near-linear ) entre os servidores de commodities ● Replicação de confiança entre data centers distribuídos ● Esquema de tabela claramente definido em um ambiente NoSQL
  • 40. Quando NÃO é a melhor solução? ● RDBMS tradicional já se sobressai quando você precisa. ● Transações ACID-compliant, com reversão (por exemplo, transferências bancárias) ● Hardware de alta qualidade.
  • 41. Casos de Uso ● Listas e coleções ● Personalização e recomendação motores ● Mensagem/Mensageria ● A detecção de fraudes ● Sensor de Dados
  • 42. Cases ● Big Data na Accenture ● Mensagem ● 5.000-20.000 mensagens por segundo ● Multi Data Centers para coleta de dados ● Hadoop e Cassandra ● http://www.planetcassandra.org/blog/interview/big-data-practice-at- accenture-helps-customers-deploy-cassandra-for-high-speed-data- ingestion
  • 43. Cases ● Plataforma de Recomendação, fornecer recomendações para os serviços de e-commerce. ● Os maiores sites de comércio eletrônico no Brasil usam para atender recomendações de compra personalizadas para seus usuários. ● Migração de MySQL para Cassandra ● Cluster de 48 Nós ● http://www.planetcassandra.org/blog/interview/get-personal-with-chaordic- bringing-personalization-to-e-commerce-with-48-nodes-of-apache-cassandra- and-hadoop/
  • 47. Cassandra X MongoDB ● MongoDB é orientado a documentos e o Cassandra é column-based. Vantagens Cassandra: ● Altamente escalável; ● Volumes de dados massivos; Desvantagens Cassandra ● Maior curva de Aprendizagem Vantagens MongoDB ● Fácil de operar e gerenciar ( baixa curva de aprendizagem ) Desvantagens MongoDB ● Pode não apresentar a mesma facilidade de distribuição de dados entre data centers como o Cassandra.
  • 48. Distribuições Cassandra ● DataStax Enterprise (DSE) ● DataStax Community Edition (DSC) ● Apache Cassandra
  • 49. Por onde Começar! ● Apache Cassandra Documentation v3.7 http://cassandra.apache.org/doc/latest/ ● Academia Cassandra https://academy.datastax.com/ ● * Formação em Curitiba De 16 a 18 de Novembro
  • 50. Referências ● Datastax Documentation http://docs.datastax.com ● Livro: “Cassandra: The Definitive Guide” Eben Hewitt. ● Datastax Academy http://academy.datastax.com ● Academia Chaordic, Florianópolis 2014. ● Apache Cassandra Documentation v3.7 http://cassandra.apache.org/doc/latest/