martes, 27 de mayo de 2008

Distribuciones de Probabilidad

1. Introducción
2. Distribuciones de probabilidad para variables discretas
Recordemos inicialmente que existen las variables aleatorias, siendo aquellas que se asocian a la ocurrencia de un fenómeno aleatorio. Cuando una de estas variables aleatorias toma diversos valores, la probabilidad asociada a cada uno de tales valores puede ser organizada como una distribución de probabilidad, la cual es la distribución de las probabilidades asociadas a cada uno de los valores de la variable aleatoria.
Las distribuciones de probabilidad pueden representarse a través de una tabla, una gráfica o una fórmula, en cuyo caso tal regla de correspondencia se le denomina función de probabilidad.
Consideraremos primero las distribuciones de probabilidad para variables discretas.
Por ejemplo: Consideremos a la variable aleatoria X como la cantidad de águilas observadas cuando se lanzan dos volados. El espacio muestral es el conjunto {AA, AS, SA, SS} y se puede ver que la variable X puede tomar como valores 0, 1 y 2.
Calculando las probabilidades tenemos:
P(de no observar águilas) =
P(SS) =
P(X=0)=¼
P(de observar una águila) =
P(SA È AS) =
P(X=1) = 2/4
P(de observar dos águilas) =
P(AA) =
P(X=2) = ¼
Si ahora se organizan estos resultados con el siguiente formato
X
P(X=x) 0 ¼ 1 2/4 2 ¼
se podrá explicar por qué se usa el nombre "distribución de probabilidad". E, incluso, con esta información se puede construir una gráfica de barras o un histograma como el que sigue:
Las propiedades de las distribuciones de variables discretas son dos, y que posteriormente, al hablar de las distribuciones de variables continuas, se repetirán de manera muy similar:
0 £ P(X=x) £ 1.
SP(X=x) = 1, o que es lo mismo: la suma de todas las probabilidades de los eventos posibles de una variable aleatoria es igual a la unidad.
Hay que hacer notar que estas propiedades se enuncian suponiendo que conocemos el valor de la probabilidad, pero en la realidad ésto no ocurre, es decir que no sabemos la probabilidad y lo que se hace es trabajar con estimaciones. Precisamente esto nos lleva a modelos teóricos que estiman los resultados, los principales son los que a continuación se presentan.
7.2 Modelos de distribuciones de probabilidad de variables discretas
Uniforme. Es la distribución donde todos los eventos elementales tienen la misma probabilidad. Por ejemplo: tirar un dado, donde la función P(X=x)=1/6 para valores de x=1,2,3,4,5,6.
Binomial. Es la que maneja la distribución de la probabilidad de obtener cierta cantidad de éxitos al realizar una cantidad de experimentos con probabilidad de éxito constante y con ensayos independientes.
Geométrica. Es la distribución de la probabilidad de realizar cierto número de experimentos antes de obtener un éxito.
Hipergeométrica. Es similar a la binomial, pero con un tamaño de muestra grande en relación al tamaño de la población. La función de Excel que proporciona sus valores es DISTR.HIPERGEOM
De Poisson. Es la distribución de la probabilidad de que ocurra un evento raro en un periodo de tiempo, un espacio o un lugar. La función de Excel que da los valores de la distribución es POISSON
La que más nos interesará de estas será la distribución binomial que comentaremos un poco más adelante.
7.3 Media y desviación estándar de una distribución de probabilidad para variables discretas
En una *a href*distribución de frecuencias para datos agrupados se calculaba la media utilizando la fórmula , la cual puede expresarse como
Considerando la definición de probabilidad de un evento, P(X) es el cociente de la frecuencia entre el número total de eventos (probabilidad frecuencial de ocurrencia), por lo que la media de una distribución de probabilidad de una variable discreta es:
Por ejemplo: Consideremos la variable X del ejemplo de águilas observadas en dos lanzamientos de monedas. Es decir, X tal que su distribución de probabilidad sea:
X
P(X=x) 0 ¼ 1 ½ 2 ¼
Entonces, para calcular su media m se realiza:
Similarmente, la *a href*varianza se definió como , y haciendo un tratamiento análogo anterior tenemos que
para que, finalmente, la varianza de una distribución de probabilidad de una variable discreta sea:
Consecuentemente, la desviación estándar de una distribución de probabilidad de una variable discreta es:
Por ejemplo: Considerando la misma distribución de probabilidad que en el ejemplo anterior, su desviación estándar se calcula:


3. La distribución binomial


Consideremos los llamados ensayos Bernoulli, éstos son aquellos experimentos cuyo resultado es uno de dos posibles y mutuamente excluyentes, a los que se denominarán éxito y fracaso.
Por ejemplo: Los siguientes son ensayos Bernoulli.
Un tornillo, puede estar defectuoso o no defectuoso.
El sexo de un bebé al nacer: niño o niña.
La respuesta correcta o incorrecta en un examen.
Si consideramos una serie de ensayos Bernoulli que tiene como características:
la probabilidad de éxito permanece constante, ensayo tras ensayo; y
los ensayos son independientes entre sí;
Entonces se tiene lo que se denomina experimento binomial, donde el número de ensayos se denota con n, la probabilidad de éxito con p y la de fracaso con q. Hay que notar que las probabilidades de éxito y de fracaso están relacionadas de la siguiente manera: p+q=1.
Por ejemplo: Consideremos un examen con tres preguntas de opción múltiple, con cuatro opciones, y que será contestado al azar.
Podemos utilizar el siguiente ejemplo <>:
1.- Las flores de la carrastrana frisólea son: a) rojas b) azules c) amarillas d) naranjas2.- Don Luis Inocuo descubrió el trideralto de magnesio en: a) 1518 b) 1635 c) 1457 d) 17063.- El significado de la palabra ^Xkzñ es a) lápiz b) árbol c) miedo d) fiera
Con esto contamos con un experimento binomial, ya que la probabilidad de éxito permanece constante en las tres preguntas (p=¼) y las respuestas de una a otra pregunta son independientes entre sí. Se cuenta con una cantidad n=3 de ensayos y q=1-p=3/4.
Hay que decir que n y p son los llamados parámetros de la distribución.
Tenemos ahora la variable aleatoria X que representará el número de respuestas correctas, siendo sus posibles valores: 0, 1, 2, y 3.
Para calcular la distribución de probabilidad correspondiente, consideraremos como E los éxitos y como F los fracasos (el subíndice indica el número de pregunta). Así pues, tenemos que:
P(X=0) =
P(F1ÇF2ÇF3)=
P(F1)·P(F2)·P(F3)= (3/4)3 = 27/64 = 1·(3/4)3·(1/4)0
P(X=1) =
P[(E1ÇF2ÇF3)È(F1ÇE2ÇF3)ÈÈ(F1ÇF2ÇE3)] = 81/256 =3·(3/4)2·(1/4)1
P(X=2) =
P[(E1ÇE2ÇF3)È(E1ÇF2ÇE3)ÈÈ(F1ÇE2ÇE3)] =9/64 = ·(3/4)1·(1/4)2
P(X=3) =
P(E1ÇE2ÇE3) =
P(E1)·P(E2)·P(E3)=
(1/4)3 = 1/64 = 1·(3/4)0·(1/4)3
Al presentar esta información como tabla y su respectivo histograma se obtiene:
X
P(X=x) 0 0.422 , 1 0.422, 2 0.141, 3 0.016

En general, si se tienen n ensayos Bernoulli con probabilidad de éxito p y de fracaso q, entonces la distribución de probabilidad que la modela es la distribución de probabilidad binomial y su regla de correspondencia es:
, para x=0,1,2,…,n.

Utilizando la función DISTR.BINOM de Excel, o bien las tablas, se pueden obtener los valores que toma esta distribución.
8.2 La media y la desviación estándar de la distribución binomial
La media de una distribución probabilística binomial con parámetros n y p es:
m = np

Por otro lado, la desviación estándar de una distribución probabilística binomial con parámetros n y p es:
Por ejemplo: Consideremos la distribución resultante de aplicar los exámenes del ejemplo anterior. Sus parámetros son n=3 y p=0.25, entonces la media de la distribución es:
m = (3)·(0.25) = 0.75
Y la desviación estándar es:
Esto quiere decir que si se aplicara este examen, en teoría, el promedio de aciertos sería de 0.75 (casi de un acierto) con una dispersión de 0.75.
4. Distribuciones de probabilidad para variables continuas
Hasta el momento se han considerado las distribuciones de probabilidad para variables discretas, donde se podía asignar el valor que toma la función de probabilidad cuando la variable aleatoria tomaba un valor en concreto. Sin embargo, al considerar las variables continuas se encuentra uno el problema de que, lo más probable, los datos que se puedan recabar no sean completamente exactos, o dos o más de ellos no coincidan, por lo que se tienen que trabajar en intervalos y, en ese momento, modelar una función se convierte en un problema serio.
Sin embargo, se pueden realizar aproximaciones y describir la probabilidad a través de modelos teóricos de probabilidad cuya gráfica es una línea continua, a diferencia de las variables discretas que le corresponde un histograma.
Para clarificar cómo se realiza esta aproximación al modelo teórico consideremos el siguiente caso:
Se han registrado los tiempos que le tomó a una empresa de mensajería entregar 190 paquetes con destinatarios diferentes dentro de una misma ciudad. Los datos se han agrupado en una distribución de frecuencias considerando intervalos de cinco días como sigue:
Tiempo de entrega(días)
No. depaquetes
[0,5) 115 [5,10) 31 [10,15) 17 [15,20) 12 [20,25) 10 [25,30) 5
Supongamos que un posible cliente, conociendo esta información, quisiera saber qué probabilidad tiene de que su paquete sea entregado en dos días. El problema es que al manejar intervalos de cinco días estamos suponiendo que dentro de cada intervalo los datos se distribuyen uniformemente, cosa que no es real.
Podríamos aumentar la muestra y seguir recogiendo información para hacer una distribución de frecuencias similar a la anterior, pero se tendría el mismo problema: dentro de cada intervalo se está presuponiendo que los datos se distribuyen uniformemente.
Otra posible solución es reducir la amplitud de los intervalos, de tal suerte que podríamos tomar una amplitud de tres días por intervalo y hacer la siguiente distribución de frecuencias:
Tiempo de entrega(días)
No. depaquetes(frec.)
[0,3) 93 [3,6) 30 [6,9) 18 [9,12) 13 [12,15) 9 [15,18) 8 [18,21) 6 [21,24) 6 [24,27) 4 [27,30) 3
Al seguir reduciendo la amplitud a dos días se obtiene la distribución:
Tiempo de entrega(días)
No. depaquetes(frec.)
[0,2) 76 [2,4) 29 [4,6) 18 [6,8) 13 [8,10) 10 [10,12) 8 [12,14) 6 [14,16) 6 [16,18) 5 [18,20) 4
[22,24) 4 [24,26) 3 [26,28) 2 [28,30) 2
Y al reducirla a intervalos de un día se tiene la distribución:
Tiempo de entrega(días)
No. depaquetes(frec.)
[0,1) 51 [1,2) 25 [2,3) 17 [3,4) 12 [4,5) 10 [5,6) 8 [6,7) 7 [7,8) 6 [8,9) 5 [9,10) 5 [10,11) 4 [11,12)
4 [12,13) 3 [13,14) 3 [14,15) 3 [15,16) 3 [16,17) 3 [17,18) 2 [18,19) 2 [19,20) 2 [20,21) 2 [21,22)
2 [22,23) 2 [23,24) 2 [24,25) 2 [25,26) 1 [26,27) 1 [27,28) 1 [28,29) 1 [29,30) 1
Ahora, veamos. Lo que le interesa al futuro cliente es la probabilidad de que se haga una entrega en un cierto tiempo, por lo que habría que considerar las frecuencias relativas y, como antes, reducir la amplitud de los intervalos. Con esto se obtendrían las siguientes distribuciones de frecuencias:
Intervalos de cinco días
Intervalo
frec.
frec. rel. [0,5) 115 0.605 [5,10) 31 0.163 [10,15) 17 0.089 [15,20) 12 0.063 [20,25) 10 0.053 [25,30) 5 0.026
Intervalos de tres días
Intervalo
frec.
frec. rel.
[0,3) 93 0.489 [3,6) 30 0.158 [6,9) 18 0.095 [9,12) 13 0.068 [12,15) 9 0.047 [15,18) 8 0.042 [18,21) 6 0.032 [21,24) 6 0.032 [24,27) 4 0.021 [27,30) 3 0.016
Intervalos de dos días
Intervalo
frec.
frec. rel.
[0,2) 76 0.400 [2,4) 29 0.153 [4,6) 18 0.095 [6,8) 13 0.068 [8,10) 10 0.053 [10,12) 8 0.042 [12,14) 6 0.032 [14,16) 6 0.032
Intervalo
frec.
frec. rel.
[16,18) 5 0.026 [18,20) 4 0.021 [20,22) 4 0.021 [22,24) 4 0.021 [24,26) 3 0.016 [26,28) 2 0.011 [28,30) 2 0.011
Intervalos de un día
Intervalo
frec.
frec. rel.
[0,1) 510.268 [1,2) 250.132 [2,3) 17 0.089 [3,4) 12 0.063 [4,5) 10 0.053 [5,6) 8 0.042 [6,7) 7 0.037 [7,8) 6 0.032 [8,9) 5 0.026 [9,10) 5 0.026
Intervalo
frec.
frec. rel.
[10,11) 4 0.021 [11,12) 4 0.021 [12,13) 3 0.016 [13,14) 3 0.016 [14,15) 3 0.016 [15,16) 3 0.016
[16,17) 3 0.016 [17,18) 2 0.011 [18,19) 2 0.011 [19,20) 2 0.011
Intervalo
frec.
frec. rel.
[20,21) 20.011[21,22) 20.011 [22,23) 20.011 [23,24) 20.011 [24,25) 2 0.011 [25,26) 10.005
[26,27) 10.005 [27,28) 10.005 [28,29) 10.005 [29,30) 10.005
Y podríamos graficar tal información en histogramas para poder ver cómo se aproximan, si es que ocurre, los valores a una curva continua:

donde las barras rosas (y la línea roja) corresponden a los intervalos de cinco días; las barras y línea azules, a los intervalos de tres días; las barras y línea amarillas, a los intervalos de dos días; y las barras y líneas verdes, a los intervalos de un día. (Para ver una graficación animada de los histogramas haz un click aquí.)
Se han incluido de una vez las líneas que unen los puntos medios de las barras del histograma porque se puede ver que las barras de las frecuencias relativas se "achaparran" y las líneas graficadas están tan separadas del lado izquierdo (en este caso) que no se puede hablar de una aproximación continua a una sóla línea.
Una posible solución es utilizando la densidad del intervalo, que se va a definir como el cociente de la frecuencia relativa entre la amplitud del intervalo:
(De hecho, existe la función de densidad de una distribución de probabilidad, de donde se deriva esta definición de densidad del intervalo.)
De esta manera, a las distribuciones de frecuencias anteriores se les puede añadir la columna correspondiente a la densidad:
Intervalos de cinco días
Intervalo
frec.
frec. rel.
densidad
[0,5) 115 0.605 0.121 [5,10) 310.163 0.033 [10,15) 170.089 0.018 [15,20) 12 0.063 0.013 [20,25) 100.053 0.011 [25,30) 5 0.026 0.005
Intervalos de tres días
Intervalo
frec.
frec. rel.
densidad
[0,3) 93 0.489 0.163 [3,6) 30 0.158 0.053 [6,9) 18 0.095 0.032 [9,12) 13 0.068 0.023 [12,15) 9
0.047 0.016 [15,18) 8 0.042 0.014 [18,21) 6 0.032 0.011 [21,24) 6 0.032 0.011 [24,27) 4 0.021
0.007 [27,30) 3 0.016 0.005
Intervalos de dos días
Intervalo
frec.
frec. rel.
densidad
[0,2) 76 0.400 0.200 [2,4) 29 0.153 0.076 [4,6) 18 0.095 0.047 [6,8) 13 0.068 0.034 [8,10) 10
0.053 0.026 [10,12) 8 0.042 0.021 [12,14) 6 0.032 0.016 [14,16) 6 0.032 0.016
donde las barras rosas, y la línea roja, corresponden a los intervalos de cinco días; las barras y línea verdes, a los intervalos de tres días; las barra y línea amarillas, a los intervalos de dos días; y las barras y línea azules, a los intervalos de un día. (Para ver una graficación animada de los histogramas haz un click aquí.)
Igual que en el caso anterior, se han graficado simultáneamente las barras y las líneas que unen los puntos medios de éstas para observar que con la densidad sí se aproximan los histogramas a una línea continua (que la mejor aproximación presentada es la línea azul) cuando los intervalos se reducen continuamente.
El resultado es una línea continua que es la gráfica de una cierta función denominada función de densidad de la distribución probabilística.
Ahora, considerando la manera en que se definió la densidad de un intervalo como:
y recordando que la frecuencia relativa es la probabilidad de un evento (en el ejemplo de la mensajería sería la probabilidad de entregar un paquete dentro de un intervalo dado de tiempo):
Entonces, despejando en el primer cociente la frecuencia relativa e igualando con esta segunda expresión obtenemos que
probabilidad del evento = (densidad del intervalo) · (amplitud del intervalo)
Es decir, que la probabilidad de que ocurra un evento corresponde al área de las barras del histograma hecho tomando en cuenta la densidad de los intervalos; y que cuando tales intervalos tienen una amplitud que tiende a cero, y la gráfica se convierte en la curva continua de la función de densidad, entonces la probabillidad de que un evento ocurra en un intervalo (a,b) es el área bajo la curva de la función en ese intervalo:
y, por tanto, el cálculo de tal probabilidad se realiza utilizando cálculo integral:
donde f(x) es la función de densidad de la distribución probabilística correspondiente.
Hay que estar conscientes de que en el caso de las variables continuas sólo se puede calcular la probabilidad de que un evento caiga dentro de un intervalo, debido a que la exactitud de los instrumentos de medición siempre es relativa y muy lejana a la "exactitud" de los cálculos matemáticos.
Por esto, la probabilidad de que la variable aleatoria tome un valor exacto es nula:
Esto se puede explicar de la siguiente manera: si, como ya dijimos, la probabilidad (frecuencia relativa) es igual a la densidad del intervalo por la amplitud del intervalo, entonces no importa qué tan grande sea la densidad de tal intervalo porque, como ya también se dijo, por ser variable continua la amplitud del intervalo tiende a cero y, por tanto, la probabilidad es igual a cero.
4.2 Modelos de distribución de probabilidad de variables continuas
Al igual que en el caso de las distribuciones de probabilidad de variables discreta, en el caso de las distribuciones de probabilidad de variables continuas se tienen varios modelos teóricos que en seguida presentamos.
A la derecha de cada modelo aparece la función de densidad correspondiente a cada modelo.
Uniforme. Es la distribución en donde todos los eventos tienen la misma probabilidad.
Exponencial. Se utiliza para estudiar el tiempo entre dos sucesos. La función de Excel que le corresponde es DISTR.EXP.
Beta. Sirve para el estudio de variaciones, a través de varias muestras, de un porcentaje que representa algún fenómeno. La función DISTR.BETA del Excel sirve para obtener sus valores; y la función DISTR.BETA.INV proporciona los valores inversos de la función, es decir, se utiliza como parámetro la imagen de la función y regresa la variabla independiente.
Gamma. Se utiliza para estudiar variables cuya distribución puede ser asimétrica. La función de Excel que le corresponde es DISTR.GAMMA; y la función DISTR.GAMMA.INV es la inversa de la anterior.
ji cuadrada (c²). Es una distribución asociada a la prueba c², y se usa para comparar los valores observados con los esperados. La función DISTR.CHI de Excel sirve para este caso.
Normal. Es la distribución más utilizada porque la mayoría de las variables utilizadas en fenómenos sociales se distribuyen aproximadamente siguiendo este modelo. Es la que tocaremos a continuación y se le llama comúnmente distribución normal.
5. La distribución normal
La curva de la distribución normal puede ser modelada utilizando la función
donde m y s son los parámetros y corresponden a la media y a la desviación estándar, respectivamente, cuyos valores permitidos m son todos los reales, para s son los reales positivos y el dominio de f es el conjunto de los números reales.
Dado que para variables continuas la probabilidad de que x tome un valor en el intervalo (a,b) es el área bajo la curva limitado por rectas verticales que pasan por a y b, entonces se puede encontrar la probabilidad en un intervalo integrando:

aunque resulta más cómodo el uso de las tablas que casi todos los libros y formularios proveen.
Sin embargo, las tablas de los libros corresponden a la distribución normal con m=0 y s=1, por lo que en casos en que los parámetros sean diferentes, entonces hay que realizar una transformación.
5.1 Propiedades de la curva de distribución normal
Las propiedades de la curva son básicamente seis, y su demostración está basada en conceptos de cálculo:
Los valores de la curva son positivos.
La curva es simétrica con respecto al valor de la media.
La curva tiene un valor máximo en el valor de la media.
La curva tiene puntos de inflexión en aquellos valores de x para los cuales a la media se le suma o se le resta una desviación estándar.
La curva, en sus extremos izquierdo y derecho, tiende a acercarse infinitamente al valor cero, es decir, el eje de las abscisas es asíntota horizontal.
El área bajo la curva es la unidad.
5.2 Aproximación de la normal a la distribución binomial
Para ver applets que muestran esta aproximación entre distribuciones de manera interactiva el Rice Virtual Lab in Statistics, de David Lane, de la University of South Carolina tiene uno.

No hay comentarios: