1) O documento discute conceitos estatísticos como distribuições de frequências, medidas de tendência central, inferência estatística e testes de hipóteses;
2) É apresentada a distribuição normal e suas propriedades, utilizada para modelar amostras retiradas de populações;
3) É mostrado um exemplo de teste de hipóteses para verificar se a média salarial de uma amostra difere da média populacional.
7. Distribuições de freqüências: Variáveis contínuas Como idade é uma variável contínua, à medida que o número de observações tende a infinito, podemos abolir os intervalos de classe, sendo cada valor de idade representado na abscissa. Neto, AMS. Biestatística Sem Segredos. 2008
12. Distribuição Normal / Gaussiana Curva teórica para população infinita Abraham de Moivre / Carl Friederich Gauss
13. Os estatísticos utilizam distribuições probabilísticas como modelo gráfico e matemático para as distribuições de freqüências A finalidade é lançar mão das propriedades teóricas das primeiras como ferramentas para inferir os resultados obtidos em uma amostra para a população mais ampla de onde esta amostra foi retirada
14.
15. Distribuições de freqüências Distribuições probabilísticas A área sob a curva representa uma probabilidade. Se X = idade, x 1 = 35 e x 2 = 45, por exemplo, a área sombreada corresponde à probabilidade de obtermos indivíduos com idade entre 35 e 45 anos. Neto, AMS. Biestatística Sem Segredos. 2008
16. Cálculo de área: Figuras geométricas perfeitas Área do círculo = . r 2
19. Probabilidade = 95% -1,96 DP +1,96 DP Exemplo: n = 311 agentes penitenciários Média idades ± DP = 40,27 ± 7,60 anos 40,27 – [1,96x(7,60)] = 40,27 – 14,896 = 25,374 40,27 + [1,96x(7,60)] = 40,27 + 14,896 = 55,166 Probabilidade dos agentes apresentarem idade entre 25 e 55 anos = 95%
20.
21.
22.
23.
24. Exemplo: qual a área sob a curva correspondente a valores de Z menores do que 2,00? Neto, AMS. Biestatística Sem Segredos. 2008
25.
26. Exemplo: qual a área sob a curva correspondente a valores de Z menores do que 2,00? Neto, AMS. Biestatística Sem Segredos. 2008 A área sob a curva entre - ∞ e z = 2,00 é 0,9772. Podemos então afirmar que há uma probabilidade de 97,72% de um valor qualquer de Z selecionado aleatoriamente estar entre - ∞ e 2,00.
27. Exemplo: n = 311 agentes penitenciários Média idade 40,27 anos com desvio padrão 7,60 anos. Qual a probabilidade de um agente penitenciário ter idade > 47 anos? - 1º passo: transformar 47 anos em um valor de Z.
28.
29. Exemplo: n = 311 agentes penitenciários Média idade 40,27 anos com desvio padrão 7,60 anos. Qual a probabilidade de um agente penitenciário ter idade > 47 anos? - 1º passo: transformar 47 anos em um valor de Z. - 47 anos equivale a 0,88 DP acima da média - 2º passo: encontrar a área entre - ∞ e z = 0,88 na tabela - área = 0,8106 - como queremos área z > 0,88, fazemos 1-0,8106 = 0,1894 Resposta: a probabilidade de um agente penitenciário selecionado aleatoriamente dessa amostra ter idade > 47 anos = 18,94%
31. POPULAÇÃO ( N = 1.000) AMOSTRA ( n = 50) RESULTADO: Tempo médio de serviço = 13,73 ± 5,23 anos Neto, AMS. Biestatística Sem Segredos. 2008
32.
33. POPULAÇÃO ( N = 1.000) AMOSTRA 1 ( n = 50) RESULTADO: Tempo médio de serviço = 13,73 anos AMOSTRA 2 ( n = 50) RESULTADO: Tempo médio de serviço = 13,90 anos AMOSTRA 3 ( n = 50) RESULTADO: Tempo médio de serviço = 12,60 anos AMOSTRA 4 ( n = 50) RESULTADO: Tempo médio de serviço = 19,27 anos AMOSTRA 5 ( n = 50) RESULTADO: Tempo médio de serviço = 15,80 anos
41. POPULAÇÃO ( N = 1.000) AMOSTRA ( n = 50) RESULTADO: Tempo médio de serviço = 13,73 ± 5,23 anos Tempo médio de serviço 16,5 ± 5,53 anos
42.
43. ƒ( x ) Tempo médio de serviço P 2,5 P 97,5 Níveis de significância estatística 95,0% Todos os valores localizados entre estes limites de significância estatística seriam considerados como estatísticamente iguais à verdadeira média populacional Valores esperados por variação amostral Valores não esperados por variação amostral Valores não esperados por variação amostral
44.
45.
46.
47. ƒ( x ) Tempo médio de serviço P 2,5 P 97,5 µ 0 95,0% H A : µ < 16,5 será testado nesta cauda H A : µ > 16,5 será testado nesta cauda 16,5
60. CONCLUSÃO DO TESTE REALIDADE SOBRE H 0 É VERDADEIRA É FALSA Aceitação de H 0 (“não-significante”) Conclusão correta Erro tipo II β (0,20) Falso negativo Rejeição de H 0 (“significante”) Erro tipo I α (0,05) Falso positivo Conclusão correta (poder)
Preciso exemplificar melhor o exemplo do teste Z e procurar uma forma de fazer isto no computador para mostrar
Fórmula matemática de uma distribuição normal
A primeira propriedade é comum à todas as distribuições probabilísticas PROPRIEDADES DA DISTRIBUIÇÃO DE GAUSS: W é simétrica em torno da média, tem a forma de um sino - cada lado é uma imagem no espelho do outro lado m - média ocupa o centro da distribuição. Média = mediana = moda. Ç - área total sob a curva é igual a 1, estando 50% à direita e 50% à esquerda s - cerca de dois terços da população está a 1 desvio padrão da média, para mais e para menos (68,27%), 95% dos valores estão compreendidos dentro de 1,96 (aproximadamente 2) desvios padrão da média para mais e para menos e 99,7% dos valores estão a 3 desvios padrão da média. É assintótica, ou seja, as extremidades se aproximam, mas não tocam a linha das abscissas. DEFINIÇÃO DOS LIMITES DE NORMALIDADE ATRAVÉS DA APROXIMAÇÃO DE GAUSS: Normal = x ± 1,96 . s (utilizando-se 1,96 se está considerando 5% como anormal - definição estatística de normal) Assim, sabendo-se que a média da temperatura sérica em adultos hígidos é de 36,8 ° C e o desvio padrão é de 0,27 ° C, o intervalo da normalidade para a temperatura de adultos será: Limite inferior da normalidade= 36,8 – 1,96 X 0,27 = 36,8 – 0,5292 = 36,2708 Limite superior da normalidade= 36,8 – 1,96 X 0,27 = 36,8 + 0,5292 = 37,3292 Por esta fórmula consideramos febre quando a temperatura corporal estiver acima do limite superior e hipotermia quando a temperatura estiver abaixo do limite inferior. Esta fórmula é utilizada para determinar a maioria dos valores normais usados na área da saúde. Quando a variável tiver uma distribuição assimétrica ou não normal, o cálculo do intervalo de normalidade não poderá ser feito desta forma. Neste caso são usados geralmente os percentis. Tudo o que estiver abaixo do percentil 3 ou acima do percentil 97 será considerado anormal.
W é simétrica em torno da média, tem a forma de um sino - cada lado é uma imagem no espelho do outro lado. m - média ocupa o centro da distribuição. Média = mediana = moda. Ç - área total sob a curva é igual a 1, estando 50% à direita e 50% à esquerda s - cerca de dois terços da população está a 1 desvio padrão da média, para mais e para menos (68,27%), 95% dos valores estão compreendidos dentro de 1,96 (aproximadamente 2) desvios padrão da média para mais e para menos e 99,7% dos valores estão a 3 desvios padrão da média. É assintótica, ou seja, as extremidades se aproximam, mas não tocam a linha das abscissas.
Sabendo-se que a glicemia em jejum em pessoas sadias tem distribuição normal, com média igual a 90 mg/100ml e desvio padrão de 5 mg/100ml, qual a probabilidade de se encontrar ao acaso um indivíduo pertencente a esta população com glicemia acima de 100 mg/100ml? Para se fazer este cálculo é necessário primeiro trabalhar com a curva normal padrão, ou seja, converter a média de qualquer variável para uma distribuição normal padronizada com média igual a zero e desvio padrão igual a 1. Esta distribuição, chamada normal reduzida ou normal padrão tem média zero e desvio padrão um. Ela é chamada também distribuição “z”, onde z é quantidade de desvios padrão do qual o valor encontra-se afastado da média. Z mede o afastamento dos valores de x em relação à média em unidades de desvio padrão. Para se obter as probabilidades precisamos primeiro transformar o nosso valor x em z e depois consultar a tabela da distribuição normal padrão, usando-se a fórmula abaixo: z =(x - µ)/ σ No nosso exemplo: z= ( 100-90 ) /5 = 2 Isso significa que o valor 100 está a 2 desvios padrão da média. Vamos agora consultar a curva normal padrão. Desejamos saber qual a área correspondente a valores de z acima de 2, pois queremos saber qual a probabilidade de um indivíduo tomado ao acaso ter glicemia acima de 100 mg/100ml. 1) A curva toda tem área igual a 1, portanto a área à direita de zero é 0,5 2) Na tabela da curva normal, verifica-se que a área entre z=0 e z=2,00 é 0,4772 3) A área à direita de z=2 é, portanto, 0,5-0,4772 = 0,0228 4) A probabilidade de um indivíduo tomado ao acaso da população ter glicemia acima de 100 mg/100ml é 0,0228 x 100= 2,3%.
Distribuição normal padrão: média ZERO, DP 1. Valores de Z (unidades de desvio-padrão). Todas as áreas sob a curva normal padrão já foram calculadas e colocadas sob forma de tabela (TABELA Z).
Em estatística muitas vezes desejamos estimar a proporção com que determinado evento ocorre. Queremos saber, por exemplo, qual a prevalência de fumo entre os estudantes de Medicina da UFMA. Se desejarmos saber esta prevalência sem erro aleatório teremos que estudar toda a população dos estudantes. A teoria estatística nos ensina que, se tomarmos uma amostra aleatória da população de estudantes, podemos estimar com uma probabilidade de erro conhecida, a verdadeira prevalência de fumo na população de estudantes. Estimação é o processo pelo qual, usando-se um valor amostral (estatística) inferimos o valor populacional (parâmetro). Há duas formas de estimação.
O DP pode ser da população ou da amostra estudada
É com base nele que utilizaremos a distribuição normal como modelo para fazermos inferência estatística sobre médias, já que podemos assumir que, seja qual for o tipo de distribuição de frequências de uma variável em uma população, a distribuição de frequências dos resultados obtidos para as médias dessa variável em numerosas amostras retiradas dessa população será normal (se o tamanho da amostra for suficientemente grande).
Amostra suficientemente grande (n 30)
P = porcentil Situações de escolha de alfa > 0,05: regressão logística, quando se está estudando interação entre variáveis (embora as associações não sejam muito fortes, elas podem interagir de forma importante). Alfas de 0,15 a 1,25 são recomendáveis na fase inicial de análise.
Amostra suficientemente grande (n 30)
No teste bi-caudado, o valor de p encontrado na tabela z é multiplicado por 2 (2 caudas); os valores críticos de z são ± 1,96 No teste uni-caudado, o valor de p encontrado na tabela z não é multiplicado por 2 (1 cauda); os valores críticos de z são ± 1,65
P = porcentil Situações de escolha de alfa > 0,05: regressão logística, quando se está estudando interação entre variáveis (embora as associações não sejam muito fortes, elas podem interagir de forma importante). Alfas de 0,15 a 1,25 são recomendáveis na fase inicial de análise.
Amostra suficientemente grande (n 30) P é uma probabilidade sob uma distribuição probabilística (ex: distribuição normal)
DP: variabilidade em 1 amostra ou 1 população EP: variabilidade em diversas amostras
Amostra suficientemente grande (n 30) P é uma probabilidade sob uma distribuição probabilística (ex: distribuição normal)
Amostra suficientemente grande (n 30) P é uma probabilidade sob uma distribuição probabilística (ex: distribuição normal)
Erro tipo I – probabilidade mais freqüentemente admitida é 5% (alfa) – MAIS GRAVE Erro tipo II – probabilidade mais freqüentemente admitida é 20% (beta) – MENOS GRAVE Probabilidade de erro do tipo I - geralmente fixado em 0.05 Probabilidade de erro do tipo II - geralmente fixado em 0.20 Poder do teste- (1-b) – geralmente fixado em 0,80 Quando se diminui a probabilidade de erro do tipo I se aumenta a probabilidade de erro do tipo II e vice-versa. Para se diminuir ambos os erros ao mesmo tempo é necessário aumentar o tamanho da amostra.
Intervalo que contenha mi com 95% de probabilidade
Preciso exemplificar melhor o exemplo do teste Z e procurar uma forma de fazer isto no computador para mostrar