Este documento discute conceptos estadísticos fundamentales como población, objetividad y probabilidad. Explica que algunos aspectos como definir las unidades de observación y las variables a medir son subjetivos, mientras que los resultados de las mediciones no dependen de la voluntad del investigador. También diferencia entre probabilidad clásica para poblaciones finitas y probabilidad propensivista para poblaciones infinitas.
Conceptos de Población, Objetividad y Probabilidad en Estadística
1. 1
Los conceptos de Población y su relación
con Objetividad y Probabilidad.
Colegio de Posgraduados
50 años de la Maestría en Estadística.
1964-2014
Colegio de Posgraduados
28 de febrero de 2014
San Miguel de Allende, Gto. Colg
-Ignacio Méndez Ramírez. IIMAS UNAM.
-Hortensia Moreno Macías. UAM-I.
-Chiharu Murata. INP
- Ignacio Méndez Gómez Humáran. CIMAT Ags.
-Felipe de Jesús Zaldívar López. GAMI (por invitación)
2. 2
La estadística es un valioso auxiliar en
la investigación.
Se conoce poco el marco filosófico,
epistemológico de sus fundamentos.
Se presentan algunas ideas respecto a la
situación epistemológica de conceptos básicos
en todas las investigaciones que usan la
estadística. Tales como población, objetividad,
probabilidad, entre otros.
4. Se conjugan los conceptos de Población,
Objetividad y Probabilidad de acuerdo al uso
frecuente de las aplicaciones de la estadística.
Se parte de la diferenciación de las
poblaciones en Finitas e Infinitas. También se
considera el proceso de obtención de
muestras, así como conceptos de probabilidad
adecuados en cada caso y su estatus en
relación a la objetividad.
4
6. Objetivo.
No depende de la voluntad de los
investigadores. “es como es”. “Así salió”. Es
un reflejo de la “realidad”. Nos informa sobre
como es el mundo. Es comunicable y esta
abierto a la crítica
Ejemplos:
Se mide la estatura del próximo estudiante,
se determina la diversidad de plantas en una
hectárea de bosque. Se observa la evolución
de un paciente. Se toma una muestra de 400
individuos de la población de habitantes en
México y se obtiene un estimado de la
proporción de obesos.
En todos los casos los investigadores no
determinan el resultado. 6
7. Subjetivo.
Si depende de la voluntad de los investigadores.
Es lo que nos parece, lo que nos gusta, lo que
creemos que conviene. Se elige arbitrariamente
dentro de una gama de posibilidades.
Ejemplos:
Elección de carrera para estudiar o de esposa.
¿Qué película ir a ver?
Planteamiento de un problema de investigación
Selección de un método para medir algo.
Selección de un diseño de investigación.
En todos los casos hay arbitrariedad en la
elección o formulación, es al “gusto” de los
investigadores. (aun que en ocasiones las
opciones son limitadas) 7
9. Subjetivamente especificar:
1.- Qué elementos son Ui. Unidades
observacionales o unidades experimentales.
(Viviendas, Arboles, Pacientes, etc.)
2.- Qué características son comunes a todos
los elementos. ABCD. Automáticamente pueden
variar un numero potencialmente infinito de
factores EFG…..
3.- Qué variables se quieren medir en las
unidades Y, X, …Z. (numéricas, pesos tallas,
ingresos, duración de vida, presión arterial
sistólica, etc.), o categóricas (sexo,
derechohabiente, con pisos de tierra, etc.)
4.- Qué procedimiento se usará para
obtener la medición de las variables. A cada Ui
se le asocia un valor o una categoría. 9
10. Los aspectos 1 a 4 son subjetivos, se determinan
según criterios, teorías, preferencias, recursos,
objetivos de los investigadores, etc. (puede haber
intersubjetividad en el método, se acuerda el
protocolo entre varios investigadores).
5.- Resultados objetivos. (son básicos, a partir
de ellos se tienen parámetros, distribuciones,
etc.). Los valores particulares de las variables en
cada unidad Ui, estos son Yi, Xi, …,Zi. Son objetivos,
el investigador no los determina según su
conveniencia. Son los que ocurrieron en la realidad.
10
11. La variabilidad entre los valores de las
variables se conceptualiza que se debe a la
presencia diferencial de los factores no comunes o
“fuentes de error”.
Una unidad Ui presentó valores particulares Yi, Xi,
…, Zi debidos a los factores no comunes Ei,Fi,Gi, …
Posición de Popper :
determinista epistemológicamente
e indeterminista ontológicamente
11
12. 12
Ui
Todos tienen A, B , C, D
Yi =25, tiene propiedad Q
Yj =32, no tiene la propiedad Q
Yk =45, tiene la propiedad Q
Promedio
poblacional
de
las
Yi
llamado
Y.
distribución
de
probabilidades
poblacional
de
las
Yi
Subjetivo.
El investigador
d e c i d e a
voluntad, o elige
de acuerdo a su
gusto , intuición y
m a r c o t e ó r i c o
estos aspectos
Los resultados de la mediciones en las Ui no dependen de la voluntad
del investigador.
Población finita Hay N elementos
Probabilidades clásicas
13. 13
Ui
Todos tienen A, B , C, D
Yi =25, tiene propiedad Q
Yj =32, no tiene la propiedad Q
Yk =45, tiene la propiedad Q
Promedio
poblacional
de
las
Yi
llamado
μ
distribución
de
probabilidades
poblacional
de
las
Yi
Subjetivo.
El investigador
d e c i d e a
voluntad, o elige
de acuerdo a su
gusto y marco
t e ó r i c o e s t o s
aspectos
Los resultados de la mediciones en las Ui no dependen de la voluntad
del investigador.
Fracción disponible
Población infinita Es un proceso
Probabilidades Propensivistas
14. N=100
Nazul=70
Nroja=30
Selección al azar de
una unidad con
igual probabilidad
1/100, para
cualquiera de las N.
P(azul)=Nazul/N =70/100=0.7
Que sea roja:
P(rojo)=Nrojo/N
=30/100=0.3.
Son desconocidas pero reales
La
probabilidad
de
que
la
Ui
seleccionada
sea
Azul
:
Se
aplica
la
definición
clásica
de
probabilidad.
Casos
favorables/casos
posibles
14
15. N=100
Nazul=70
Nroja=30
Cada extracción de
una Ui es un “ensayo
de Bernoulli”. Puede
ser azul con
probabilidad P(azul)
P(azul)=Nazul/N
=70/100=.7
P(rojo)=Nrojo/N
=30/100=.3
Muestra aleatoria con reemplazo de
n=10. p es la probabilidad estimada
Representativa
p(azul) =P(azul)=0.7
p(roja)=P(roja)= 0.3 Las Probabilidades
estimadas son las poblacionales. 15
16. Binomial n =10, p=0.7
Muestra representativa
7 azules y 3 rojas
La mas probable de
todas las muestras
16
17. N=100
Nazul=70
Nroja=30
Selección de una
unidad con igual
probabilidad 1/100,
para cualquier
unidad
P(azul)=Nazul/N
=70/100=.7
P(rojo)=Nrojo/N
=30/100=.3
Muestra aleatoria con
reemplazo de n=10.
No representativa
p(azul)=1.0
p(roja)= 0,0 17
19. N=100
Nazul=70
Nroja=30
Selección de una
unidad con igual
probabilidad 1/100,
para cualquier
unidad
P(azul)=Nazul/N
=70/100=0.7
P(rojo)=Nrojo/N
=30/100=0.3
Muestra aleatoria con
reemplazo de n=10.
Casi representativa
=p(azul)=0.6
p(roja)= 0.4 19
20. Muestra aleatoria con
reemplazo de n=10.
Casi representativa
p(azul)=0.6
p(roja)= 0.4
Probable, aun que menos que
la representativa.
20
21. Probabilidades estimadas de que
sea azul.
P(azul)
=0.7
p(azul)
1.0
0.80
0.70
0.60
0.35
0.0
n
Probabilidades estimadas de que
sea azul. p(azul)
21
Secuencia
de
esHmaciones
p(azul)
al
incrementar
n
,
el
tamaño
de
muestra.
Al
aumentar
n
son
cada
vez
mas
probables
las
muestras
representaHvas
P(azul)
p(azul)
22. Muestra de n=100,000 elementos con P=0.7
Población con N grande, (10,000,000)
N(azul)=7,000,000 y N(rojo)=3,000,000
n
azul
Muestras representativas o casi
69,500 a 70,500 azules
Casi con seguridad es representativa
probabilidad estimada de azules
entre 0.695 o 0.705
22
Se alcanzó la
regularidad
estadística. Las
posibles p están
muy cerca de P
23. 23
La proporción de azules en la población es un
parámetro de ella. Es decir es una propiedad
objetiva desconocida de la población.
P(azul) dadas las Ui con ABCD constante.
Si se plantea una variable que valga 1 si la bola
es azul y 0 si no. Se conoce esa variable como
“indicadora”. Entonces P(azul) es la media de
todos los valores 1 o 0 de la variable en cada
bola unidad de la población.
La proporción poblacional es la media de la
variable indicadora y es la probabilidad de que
en una extracción salga azul.
Proporción
poblacional
=
probabilidad
en
una
extracción=
Media
de
la
variable
indicadora
24. Promedio de las caras de un dado
El
promedio
poblacional
es
3.5,
este
valor
no
puede
ocurrir
al
lanzar
una
vez
el
dado
Es
una
propiedad
del
arreglo
experimental
para
infinitos
lanzamientos
24
Promedio
muestral
Promedio
poblacional
3.5
25. 25
Suponga ahora que la población finita, esta
constituida por todas las mujeres que habitan
en la república mexicana en 2012, y a cada una
se le asocia el numero de hijos que tiene. Serán
valores 0,1,2,3,4,……,25. Suponga también que
el promedio de todos los valores en la
población es 2.3, es llamado µ.
Ciertamente ninguna mujer tiene 2.3 hijos. El
promedio es una propiedad de la población. El
promedio no existe como valor para una mujer, pero
si existe y es objetivo para la población. Podemos
decir que es objetivo virtual, resultado de la
operación de promediar los valores de la variable en
la población.
Promedio
2.3 hijos
por mujer
26. 26
Si se considera que en las finitas, n es muy
pequeño relativo a N (n/N<0.1), entonces la
obtención de una muestra aleatoria de la
población finita sin reemplazo se acerca a la
selección de la muestra con reemplazo o la de
una población infinita.
En ambos casos se presenta la regularidad
estadística, pero en el caso finito, se plantea el
concepto de probabilidad clásica. En cambio en el
caso infinito se supone la representatividad de la
m u e s t ra y s e p l a n t e a l a p r o b a b i l i d a d
propensivista.
29. Se llena cuantas veces se quiera,
es la muestra disponible de la
población infinita
Tres
submuestras
de tamaño
10
29
El
color
de
cada
bola
es
un
ensayo
de
Bernoulli
30. Muestra de n=50
Población Infinita con P=0.7
n
azul
Muestras representativas o casi
Frecuencias relativa de azules
probabilidad estimada de azules
entre 0.68 o 0.72
30
En poblaciones
finitas, si n es
p e q u e ñ o e n
relación a N, con
n/N menor que
0.1, se comporta
en la práctica
como población
infinita
31. Muestra de n=100,000 elementos con P=0.7
Población infinita. Propensión 0.7
n
azul
Muestras representativas o casi
frecuencia relativa de azules
0.695 a 0.705
Casi con seguridad
se tiene que la probabilidad estimada de
azules esta
entre 0.696 o 0.705
31
Si
esta
es
una
secuencia
real,
se
considera
que
se
apoya
,
no
se
rechaza
la
hipótesis
de
que
la
propensión
es
P=0.70
Se
alcanzó
la
regularidad
estadísKca.
32. 32
Propensión
de
azul
Pazul=0.7
Propensión
de
azul
Pazul=0.7
Valores
de
n.
Tamaño
de
muestra
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
Muestreo de población infinita o finita (con n/N<0.1).
Note mucha variación alrededor de P(azul), para
muestras pequeñas .
0.7 es la propensión en población infinita
0.7 es la proporción poblacional en la población finita
36. Mundo
1
Mundo
2
Mundo
3
Átomos, moléculas, órganos,
neuronas, sinapsis,
neurotransmisores, etc.
Física, Química, Biología, Sociedad
Sentimientos (no observable) y
emociones (si observable vía
comportamiento). creencias, melancolía,
afecto, deseos, “qualia”, ¿ a que
sabe el mamey?, etc.
Obras de arte, sinfonías, teorías,
matemática, leyes, validación,
relaciones lógicas, ciencia, etc.
Conocimiento compartible. Cultura
Conjeturas Hipótesis
36
37. ulacion37s
Antonio Damasio “The feeling of what happens”. A
Harvest Book. Hartcour, Inc. 1999, p.55
Razonamiento
Sentimientos
Emociones
Regulación
básica de la vida
Regulaciones metabólicas ,
reflejos, maquinaria biológica
que sustenta dolor, agradable,
éxtasis.
E s t e r e o t i p o s c o m p l e j o s d e
respuesta. Emociones primarias
(p.e. tristeza, alegría, dolor,
felicidad, miedo, sorpresa).
Emociones secundarias y de fondo.
Patrones de sensibilidad que
s e ñ a l a n d o l o r , a g r a d o , y
emociones que se hacen imágenes
Planes de respuesta complejos,
flexibles y que se formalizan en
imágenes conscientes y pueden ser
ejecutadas como comportamiento.
Retirarse o explicar por que hay dolor.
Crítica a teoríasConsciencia
38. Conjeturas (H) y refutaciones
Racionalismo crítico
38
Escoger
elegir
diseño:
¿Qué
medir?
¿Cómo?
¿Usar
bloques?,
¿cómo?
¿n
?
¿Cuándo
O
no
concuerda
con
E
?
P<0.05
Conducción
del
diseño,
observación.
Experimento.
Se
observa
O
Contrastación,
comparación
O
vs
E
Concuerdan,
no
se
rechaza
H.
Nuevas
deducciones.
No
concuerdan,
se
rechaza
H.
Nueva
hipótesis
para
los
nuevos
hechos
39. Mundo
1
Mundo
2
Mundo
3
Regularidad
EstadísHca
Observada.
Afecto
por
la
aleatoriedad,
intuición
en
problemas
estadísKcos
,
etc.
Conocimiento
subjeHvo
Sea
P(Ω)=1
P(Ø)=0
0
≤
P(A)
≤
1
P(U∞
i=1 Ai )=∑∞
i=1
P(Ai )
con
Ai∩Ai´=Ø
(vacio).
Las
consecuencias
de
los
axiomas
son
objeKvas,
no
las
determina
el
invesKgador.
Están
sujetas
a
la
críKca,
Conocimiento
público,
objeHvo.
39
N.
Kolmogorov
1933
40. Mundo
1
Mundo
2
Mundo
3
Regularidad
EstadísHca
Observada.
Para
varias
muestras
grandes
p,
la
proporción
muestral,
cambia
poco
y
está
cerca
de
un
valor
P.
P
es
una
propiedad
de
la
población
.
Conocimiento
objeHvo
Afecto
por
la
aleatoriedad,
intuición
en
problemas
estadísKcos
,
etc.
Ley de los grandes números. Se conceptualza un
proceso infinito que produce elementos , que son
ensayos de Bernoulli. Con probabilidad o
propensión P de tener una propiedad Q. Entonces
Lim n-∞ p=P donde p es la proporción muestral de
elementos con la propiedad Q. Demostración
abierta al publico y a la crítica. Conocimiento
publico objetivo. La P la suponemos. Secuencia
virtual
to40
41. Mundo
1
Mundo
2
Mundo
3
Se produce en la practica un proceso con
condiciones de observación o experimentales
ABCD, que tiene una frecuencia relativa
estabilizada P
Regularidad Estadística Observada.
Para varias muestras grandes p cambia poco y
está cerca de P
Afecto por la aleatoriedad, intuición en
problemas estadísticos , etc.
Se complementa la ley de los grandes números.
Se conceptualiza un proceso con condiciones de
observación o experimentales ABCD, que tiene la
propensión a producir elementos con una
propiedad Q, (azul) en una proporción P. El
resultado del teorema no depende de la
voluntad del investigador. La P es hipotética
41
42. P(Q/ABCD)
Propensión a que ocurra Q
en condiciones ABCD.
Secuencia objetiva
virtual
P(Q/ABCD)
Frecuencia
relativa de
Q en
condiciones
ABCD
n
grande
42
n-∞
Secuencia real
objetiva
43. En poblaciones infinitas se usa el concepto
de probabilidad propensivista de Popper.
Que es objetiva virtual. La estadística
consiste en tratar de conocer los valores de
las probabilidades propensivistas. Se
espera que p se acerque a la P desconocida
con muestras grandes. Además se recurre
a la estadística matemática para valorar el
grado de error entre p y P. Así como
generalizaciones de esta idea.
43
44. 44
Considere una población en la que una variable
Y tiene en la población cualquier distribución
con media µ y varianza σ2.. Si se toman muchas
muestras de tamaño n, se puede imaginar una
nueva población cuyos elementos son la
diversas muestras y a cada muestra se le asocia
el promedio muestral de la variable . Entonces
si n es grande la distribución de los promedios
(de muchas muestras todas de tamaño n) es
normal con media µ y varianza σ2/n.
Se llama Error estándar a la raíz cuadrada de
σ2/n.
49. With
large
enough
np,
Binom(n,
p)
is
normal,
N(np,
sqrt(npq))
n=3
p=0.5
n=10 n=100
49
50. Como consecuencia del Teorema Central de Limite, si
se trata de estimar P, o en el caso general si se trata
de estimar un parámetro θ, el intervalo de confianza
es:
Una consideración epistemológica, es que P, (θ) tiene
una existencia real como una propiedad de la
población como un todo, dada la definición clásica de
probabilidad en poblaciones finitas, aunque su valor
no se conoce.
Sin embargo al considerar las posibles muestras de
tamaño n, se recurre a la probabilidad frecuentista,
las posibles muestras son, en la práctica, infinitas.
Cuando se trata de poblaciones infinitas se
conceptualiza la probabilidad propensivista
( ) ( )ˆ ˆ ˆ ˆ1.96 1.96 0.95P V Vθ θ θ θ θ⎛ ⎞− ≤ ≤ + =⎜ ⎟
⎝ ⎠
50
51. Se conceptualiza que con cada muestra se
construye un intervalo, esos intervalos cubren el
verdadero valor de θ en el 95% de los casos.
Entonces el intervalo particular obtenido con una
muestra de tamaño n, es uno de esa población de
intervalos, pero ese intervalo particular cubre el
valor del parámetro o no. Se tiene una situación
donde se le asocia a un elemento de la población
la probabilidad poblacional de un evento. La
probabilidad como estabilización de frecuencias
relativas es una propiedad de la población, no de
un elemento de la misma. Se usa la probabilidad
propensivista, la que si es aplicable a casos únicos.
51
52. Para aplicar estas ideas a las distribuciones de
probabilidades (o de densidad); tanto en
poblaciones finitas (n/N<0.1) como en infinitas,
se considera que a cada unidad Ui se le asocia
una variable numérica Y, con un número grande
de posibles valores Yi. De manera que para las
variables numéricas con muchos valores
(continuas) en la población como un todo, se
pueden especificar intervalos de valores (h=1,2…
L, usualmente L es grande 15 o 20). Para cada
intervalo se plantea una variable indicadora que
vale 1 si la Ui tiene un valor de Y en el intervalo
h.
52
53. Entonces la proporción o probabilidad como
propensión poblacional Ph es la que se obtiene al
aplicar la definición de propensión para ese
intervalo h. Al considerar esos intervalos en
forma simultánea se tendrá la distribución de
probabilidades propensivistas de esa variable
continua en la población; la distribución queda
especificada por los valores de Yh en cada
intervalo y sus propensiones Ph. Cualquier
función de los valores de Yh y Ph, con h=1, …L
como la media, varianza, etc. (los llamados
parámetros θ), queda especificada por la
distribución de probabilidades propensivista
53
54. Niñas de 14 años, escuelas del DF y del Oro Mex.
Distribución de CLDL. N crece de 30, 50, 70, 86.
Observe estabilización de las Ph.
54
Ph
Ph
ph
ph
estabilización de las Ph
55. Probabilidades en poblaciones infinitas anidadas
• Un
elemento
Ui
puede
pertenecer
a
varias
poblaciones
con
grado
decreciente
de
generalidad.
Así
se
puede
plantear
las
poblaciones
anidadas
con
factores
comunes,
ABC,
ABCD,
ABCDE,
ABCDEF.
• Si
hay
información
respecto
a
la
probabilidad
propensivista
en
muestras
“grandes”,
de
que
Ui
tenga
una
propiedad
Q
en
poblaciones
ABC,
ABCD
se
usa
la
que
tenga
mas
factores
comunes.
Si
además
hay
información,
aun
que
sea
subjeKva,
de
cómo
se
modifica
la
probabilidad
de
Q,
de
acuerdo
a
la
experiencia
y
conocimientos
del
invesKgador,
se
usan
para
modificar
la
probabilidad
de
Q
en
ABCD,
y
pasar
a
la
población
ABCDEF,
aun
que
esta
ulKma
no
exista.
En
este
caso
ya
se
trata
de
probabilidad
subjeKva.
55
56. • Anidamiento
de
poblaciones
56
Hombres
adultos
AB
P(muerte
50-‐51)/AB)
Juan
Pérez
¿
muere
entre
los
50
y
los
51
años?
Hombres,
adultos,
fuman
ABC
P(muerte
50-‐51)/ABC)
Hombres,
adultos,
fuman
,
colesterol
alto
ABCD
P(muerte
50-‐51)/ABCD)
Probabilidades
propensivistas
estudiadas
en
muestras
grandes
Hombres,
adultos,
fuman
,
colesterol
alto,
abuelos
y
padres
longevos
ABCDE
P(muerte
50-‐51)/ABCDE)
Hombres,
adultos,
fuman
,
colesterol
alto,
abuelos
y
padres
longevos
,
nadadores
ABCDEF
P(muerte
50-‐51)/ABCDEF)
Probabilidades
subjeKvas