1) O documento apresenta Everton Gago, um pesquisador que estuda novos métodos de aprendizado de máquina.
2) É discutido a importância da mineração de dados e algumas técnicas como padrão associativo, agrupamento, predição/classificação.
3) O framework MADLib é apresentado como uma ferramenta fácil de usar para aplicar essas técnicas em bancos de dados PostgreSQL/Greenplum de forma paralela.
DevOps e PostgreSQL: Replicação de forma simplificada | Miguel Di Ciurcio
PGDay Campinas 2013 - Mineração de Dados com MADlib
1.
2.
3. Everton Gago
- Doutorando e Mestre em
Eng. Elétrica – UNICAMP;
- Eng. de Software – Dextra;
- Pesquiso novos métodos
numéricos e analíticos para
aprendizado de máquina.
17. Ex de utilização com MADlib:
SELECT * FROM assoc_rules(.25, .5,
'benef_social', 'combinado',
'habitacional','public', true);
SELECT * FROM assoc_rules;
19. Ex de utilização com MADlib:
ALTER TABLE cadastro_social ADD COLUMN row_id
SERIAL;
CREATE TABLE input_points AS SELECT
row_id,array[genero,raca,freq_escola,grau_instrucao,
deficiente,benef_social,reg_cidade]::float8[] AS
points FROM cadastro_social;
SELECT * FROM kmeanspp('input_points','points',
11,'squared_dist_norm2','avg', 100, 0.00000);
29. - Fácil de usar;
- Eficiente e tem bom desempenho;
- Facilita processamento paralelo;
- Mas.... Precisa de algumas melhorias para as
apresentações;
30. Comunidade Acadêmica:
- Cohen, J et al. MAD Skills: New Analysis Practices for Big
Data. VLDB, France, 2009.
- Dernoncourt, F et al. Machine Learning Algorithms for In-
Databases Analytics. Spring 2013.
- Hellerstein, J. M et al. The MADlib Analytics Library.
Technical Report, Electrical Engineering and Computer
Sciences University of California at Berkeley. 2012.
32. Ex de utilização com MADlib:
SELECT * FROM assoc_rules(.25, .5,
'benef_social', 'combinado',
'habitacional','public', true);
SELECT * FROM assoc_rules;