Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Dados abertos, Python eDados abertos, Python e
PostgreSQL: a combinaçãoPostgreSQL: a combinação
perfeitaperfeita
TuricasTu...
$ whoami$ whoami
TuricasTuricas, prazer! =), prazer! =)
Sigam-me os bons:Sigam-me os bons:
{{ ,,
,,
,,
,,
}}
//turicasturi...
AgendaAgenda
Dados abertos
O que são
Aplicações
Problemas
Python
Ferramentas para trabalhar com dados
Live coding
Brasil.I...
Software Livre & PythonSoftware Livre & Python
(desde 2004/2005)(desde 2004/2005)
       
Instagram @turicas
Data PipelineData Pipeline
schoolofdata.org/methodology
-- (definição de )
Dados AbertosDados Abertos
“ Dados abertos são dados que podem
ser livremente usados, reutilizados e
re...
--
“ De acordo com o governo brasileiro, o
controle social é a participação da
sociedade civil nos processos de
planejamen...
Operação Serenata de AmorOperação Serenata de Amor
#civictech#civictech
serenata.ai
R$ 191 em um restaurante cujos pratos não custam R$ 40,
deputado?
Rosie, a robôRosie, a robô
twitter.com/tOa_D/status/1058...
(em conjunto com Juan Torres, para )correio24horas.com.br
Acesse a matéria
(em conjunto com Giulliana Biaconi, para )generonumero.media
Leia a matéria
(em conjunto com Adriano Belisário, para )apublica.org
Acesse a matéria
(em conjunto com Voltdatalab, para )
Aplicações ÚteisAplicações Úteis
EleiçõesEleições
poder360.com.br
Maior parte do tempo dos projetos deMaior parte do tempo dos projetos de
análise de dados:análise de dados:
Qualidade dos DadosQualidade dos Dados
5stardata.info
Trabalho com dados públicosTrabalho com dados públicos
Causos daCausos da
TransparênciaTransparência
BrasileiraBrasileira
Migram-se os ministérios, sem dadosMigram-se os ministérios, sem dados
Estrelando:Estrelando: Ministério da JustiçaMinisté...
Dados dispersos e sem índiceDados dispersos e sem índice
Estrelando:Estrelando: IBGEIBGE
Dado pago! (???)Dado pago! (???)
Estrelando:Estrelando: Receita FederalReceita Federal
https://twitter.com/turicas/status/...
Lentidão ao baixar (ETA: 4d)Lentidão ao baixar (ETA: 4d)
Estrelando:Estrelando: Receita FederalReceita Federal
twitter.com...
Formato ProprietárioFormato Proprietário
Estrelando:Estrelando: Receita FederalReceita Federal
Dado disperso e não padronizadoDado disperso e não padronizado
Estrelando:Estrelando: ConselhoConselho Nacional de Justiça...
Formato não estruturadoFormato não estruturado
Estrelando:Estrelando: INEMA/BAINEMA/BA
Problemas de Usabilidade deProblemas de Usabilidade de
DadosDados
Formato (qualidade técnica)
Exemplo: Boletim de balneabi...
SoluçõesSoluções
Educação tecnológica
Do-it-yourself
Interdisciplinaridade
Libertação de dados
Dados menos dispersos
Forma...
Educação TecnológicaEducação Tecnológica
Curso Gratuito (3.000+ alunos)Curso Gratuito (3.000+ alunos)
Python!Python!
Acesse a matéria
xkcd.com/353
Melhorar ferramentasMelhorar ferramentas
(código ao vivo)
rows convert arquivo.pdf arquivo.csv
github.com/turicas/balneabilidade-brasil
Outros exemplosOutros exemplos
rows print ...
rows schema brasil.csv
rows query ...
rows pgimport ...
rows pgexport ...
UsablidadeUsablidade
Libertação de dados resolve:
[x] Formato
[x] Dispersão
[ ] Quantidade de dados
[ ] Domínio da área
Brasil.IOBrasil.IO
O Brasil em dados libertos
DemonstraçãoDemonstração
Dataset salarios-magistrados
Dataset eleicoes-brasi...
Tecnologias utilizadasTecnologias utilizadas
Captura, normalização e limpeza:
Backend:
(em breve AgensGraph)
Servidores: O...
git push dokku mastergit push dokku master
Visitar site
postgresql.confpostgresql.conf
Ver configuração
pgheropghero
Visitar site
Importando dadosImportando dados
Deleta tabela se já existir
Cria tabela com base nos metadados
Cria triggers (FTS)
django...
CREATE TRIGGERCREATE TRIGGER
Ver código
CREATE INDEXCREATE INDEX
Ver código
O que podeO que pode
melhorar?melhorar?
Funcionalidades (rows)Funcionalidades (rows)
Ver issue
Configurações (PostgreSQL)Configurações (PostgreSQL)
Interface para grafosInterface para grafos
PostgreSQL + Grafos =PostgreSQL + Grafos =
bitnine.net
Interface para grafos (2)Interface para grafos (2)
Interface para grafos (3)Interface para grafos (3)
Contribua com o Brasil.IO!Contribua com o Brasil.IO!
brasil.io/colaborebrasil.io/colabore
Sugerindo otimizações no banco
M...
23 a 28 de outubro, Ribeirão Preto/SP
PythonBrasil 2019PythonBrasil 2019
pythonbrasil.com.br
23 e 24 de novembro, São Paulo/SP
CODA.BR 2019CODA.BR 2019
coda.escoladedados.org
--
Dúvidas?Dúvidas?
“ Restringir acesso a dados públicos é
elitizar a democracia. ”
Manifesto Brasil.IO
{{ ,,
,,
,,
,,
}}
...
Upcoming SlideShare
Loading in …5
×

5

Share

Download to read offline

Dados abertos, Python e PostgreSQL: a combinação perfeita

Download to read offline

Slides da palestra ministrada no dia 02 de agosto de 2019, durante a PGConf.Brasil 2019, em São Paulo/SP.

Related Books

Free with a 30 day trial from Scribd

See all

Dados abertos, Python e PostgreSQL: a combinação perfeita

  1. 1. Dados abertos, Python eDados abertos, Python e PostgreSQL: a combinaçãoPostgreSQL: a combinação perfeitaperfeita TuricasTuricas akaaka Álvaro JustenÁlvaro Justen PGConf.Brasil 2019PGConf.Brasil 2019 02 de agosto de 201902 de agosto de 2019
  2. 2. $ whoami$ whoami TuricasTuricas, prazer! =), prazer! =) Sigam-me os bons:Sigam-me os bons: {{ ,, ,, ,, ,, }} //turicasturicas twittertwitter githubgithub youtubeyoutube slideshareslideshare instagraminstagram turicas@brasil.ioturicas@brasil.io
  3. 3. AgendaAgenda Dados abertos O que são Aplicações Problemas Python Ferramentas para trabalhar com dados Live coding Brasil.IO O que é Como usamos o PostgreSQL Futuro: melhorias, grafos etc.
  4. 4. Software Livre & PythonSoftware Livre & Python (desde 2004/2005)(desde 2004/2005)        
  5. 5. Instagram @turicas
  6. 6. Data PipelineData Pipeline schoolofdata.org/methodology
  7. 7. -- (definição de ) Dados AbertosDados Abertos “ Dados abertos são dados que podem ser livremente usados, reutilizados e redistribuídos por qualquer pessoa - sujeitos, no máximo, à exigência de atribuição da fonte e compartilhamento pelas mesmas regras. ” OpenData Handbook Open Definition Mais detalhes: Lei de Acesso à Informação: 12.527/2011 kit.dados.gov.br escoladedados.org
  8. 8. -- “ De acordo com o governo brasileiro, o controle social é a participação da sociedade civil nos processos de planejamento, acompanhamento, monitoramento e avaliação das ações da gestão pública e na execução das políticas e programas públicos. ” Wikipedia
  9. 9. Operação Serenata de AmorOperação Serenata de Amor #civictech#civictech serenata.ai
  10. 10. R$ 191 em um restaurante cujos pratos não custam R$ 40, deputado? Rosie, a robôRosie, a robô twitter.com/tOa_D/status/1058495655184871425
  11. 11. (em conjunto com Juan Torres, para )correio24horas.com.br Acesse a matéria
  12. 12. (em conjunto com Giulliana Biaconi, para )generonumero.media Leia a matéria
  13. 13. (em conjunto com Adriano Belisário, para )apublica.org Acesse a matéria
  14. 14. (em conjunto com Voltdatalab, para ) Aplicações ÚteisAplicações Úteis EleiçõesEleições poder360.com.br
  15. 15. Maior parte do tempo dos projetos deMaior parte do tempo dos projetos de análise de dados:análise de dados:
  16. 16. Qualidade dos DadosQualidade dos Dados 5stardata.info
  17. 17. Trabalho com dados públicosTrabalho com dados públicos
  18. 18. Causos daCausos da TransparênciaTransparência BrasileiraBrasileira
  19. 19. Migram-se os ministérios, sem dadosMigram-se os ministérios, sem dados Estrelando:Estrelando: Ministério da JustiçaMinistério da Justiça twitter.com/turicas/status/1112491956314259457
  20. 20. Dados dispersos e sem índiceDados dispersos e sem índice Estrelando:Estrelando: IBGEIBGE
  21. 21. Dado pago! (???)Dado pago! (???) Estrelando:Estrelando: Receita FederalReceita Federal https://twitter.com/turicas/status/1019272233095745537
  22. 22. Lentidão ao baixar (ETA: 4d)Lentidão ao baixar (ETA: 4d) Estrelando:Estrelando: Receita FederalReceita Federal twitter.com/turicas/status/1114185311372873729
  23. 23. Formato ProprietárioFormato Proprietário Estrelando:Estrelando: Receita FederalReceita Federal
  24. 24. Dado disperso e não padronizadoDado disperso e não padronizado Estrelando:Estrelando: ConselhoConselho Nacional de JustiçaNacional de Justiça
  25. 25. Formato não estruturadoFormato não estruturado Estrelando:Estrelando: INEMA/BAINEMA/BA
  26. 26. Problemas de Usabilidade deProblemas de Usabilidade de DadosDados Formato (qualidade técnica) Exemplo: Boletim de balneabilidade em PDF (INEMA/BA) Dispersão Exemplo: Filiações partidárias em 945 ZIPs com CSVs (TSE) Quantidade de dados Exemplo: 18 milhões de sócios (RFB) Domínio da área Exemplo: o que é unidade eleitoral? (TSE)
  27. 27. SoluçõesSoluções Educação tecnológica Do-it-yourself Interdisciplinaridade Libertação de dados Dados menos dispersos Formato aberto Melhorar ferramentas Software livre Pressão por dados melhores Dar visibilidade aos problemas Usar a LAI
  28. 28. Educação TecnológicaEducação Tecnológica Curso Gratuito (3.000+ alunos)Curso Gratuito (3.000+ alunos)
  29. 29. Python!Python! Acesse a matéria
  30. 30. xkcd.com/353
  31. 31. Melhorar ferramentasMelhorar ferramentas
  32. 32. (código ao vivo) rows convert arquivo.pdf arquivo.csv github.com/turicas/balneabilidade-brasil
  33. 33. Outros exemplosOutros exemplos rows print ... rows schema brasil.csv rows query ... rows pgimport ... rows pgexport ...
  34. 34. UsablidadeUsablidade Libertação de dados resolve: [x] Formato [x] Dispersão [ ] Quantidade de dados [ ] Domínio da área
  35. 35. Brasil.IOBrasil.IO O Brasil em dados libertos DemonstraçãoDemonstração Dataset salarios-magistrados Dataset eleicoes-brasil Dossiê Odebrecht
  36. 36. Tecnologias utilizadasTecnologias utilizadas Captura, normalização e limpeza: Backend: (em breve AgensGraph) Servidores: OVH Canadá PaaS: dokku Python3 scrapy rows Python3 Django PostgreSQL Neo4J
  37. 37. git push dokku mastergit push dokku master Visitar site
  38. 38. postgresql.confpostgresql.conf Ver configuração
  39. 39. pgheropghero Visitar site
  40. 40. Importando dadosImportando dados Deleta tabela se já existir Cria tabela com base nos metadados Cria triggers (FTS) django.contrib.postgres.search.SearchVectorField Executa rows pgimport Executa VACUUM ANALYZE na tabela Cria índices para filtros Preenche "choices"
  41. 41. CREATE TRIGGERCREATE TRIGGER Ver código
  42. 42. CREATE INDEXCREATE INDEX Ver código
  43. 43. O que podeO que pode melhorar?melhorar?
  44. 44. Funcionalidades (rows)Funcionalidades (rows) Ver issue
  45. 45. Configurações (PostgreSQL)Configurações (PostgreSQL)
  46. 46. Interface para grafosInterface para grafos PostgreSQL + Grafos =PostgreSQL + Grafos = bitnine.net
  47. 47. Interface para grafos (2)Interface para grafos (2)
  48. 48. Interface para grafos (3)Interface para grafos (3)
  49. 49. Contribua com o Brasil.IO!Contribua com o Brasil.IO! brasil.io/colaborebrasil.io/colabore Sugerindo otimizações no banco Melhorando os scripts de coleta Coletando novos datasets Publicando tutoriais no Doando no blog.brasil.io apoia.se/brasilio
  50. 50. 23 a 28 de outubro, Ribeirão Preto/SP PythonBrasil 2019PythonBrasil 2019 pythonbrasil.com.br
  51. 51. 23 e 24 de novembro, São Paulo/SP CODA.BR 2019CODA.BR 2019 coda.escoladedados.org
  52. 52. -- Dúvidas?Dúvidas? “ Restringir acesso a dados públicos é elitizar a democracia. ” Manifesto Brasil.IO {{ ,, ,, ,, ,, }} //turicasturicas twittertwitter githubgithub youtubeyoutube slideshareslideshare instagraminstagram turicas@brasil.ioturicas@brasil.io
  • MiguelAlves22

    May. 21, 2020
  • telles

    Aug. 13, 2019
  • RichardsonSouza4

    Aug. 3, 2019
  • MarceloHenriqueGonal

    Aug. 2, 2019
  • JacksonSdeJesus

    Aug. 2, 2019

Slides da palestra ministrada no dia 02 de agosto de 2019, durante a PGConf.Brasil 2019, em São Paulo/SP.

Views

Total views

360

On Slideshare

0

From embeds

0

Number of embeds

20

Actions

Downloads

11

Shares

0

Comments

0

Likes

5

×