domingo, 25 de marzo de 2012

DISTRIBUCION NORMAL -Teoria




LA DISTRIBUCIÓN NORMAL


Es la única distribución que veremos para variables aleatorias continuas, y constituye la más importante de todas las distribuciones de probabilidad. Fue desarrollada por varios matemáticos, siendo el más destacado Karl Gauss, el cual en el siglo XIX, materializaron los trabajos en los cuales está basada esta distribución, que a menudo se le denomina distribución gaussiana.

Dos razones fundamentales hacen que esta distribución ocupe un lugar tan importante:
  • Tiene propiedades que la hacen aplicable a un gran número de casos en los cuales  es necesario hacer inferencias mediante la toma de muestras.
  • La distribución Normal se enmarca a la perfección a las distribuciones de frecuencias reales, que se observan en la cotidianidad, como son muchos fenómenos físicos (dimensiones y rendimientos), características humanas (pesos, alturas, índices IQ) y otras muchas medidas de importancia para los administradores en general.

Características de la distribución normal de probabilidad
Observando lo especificado en la figura siguiente, se observan las siguientes características:






  1. La curva tiene un solo pico, esto la hace unimodal, tiene la forma de campana. En ocasiones también se le llama a esta gráfica  Campana de Gauss.
  2. En una distribución Normal la media de la población cae en el centro de su curva normal.
  3. La curva es simétrica hacia ambos lados respecto a la línea que pasa por el centro (por la media) haciendo esto que la mediana y la moda también estén en el centro. Es decir que media la mediana y la moda tienen el mismo valor.
  4. Los 2 extremos de la gráfica de la distribución normal se extienden indefinidamente y nunca tocan el eje horizontal (esto constituye una asíntota)

Áreas bajo la Curva Normal
Independiente de los valore de µ y σ para una distribución normal, el área total que esta debajo de la curva es 1.00, por lo que estas áreas o porciones de ellas representan probabilidades. Matemáticamente se ha demostrado que:
Aproximadamente 68% de todos los valores de una población normalmente distribuida se encuentra dentro de +/- 1 desviación estándar respecto a la media.

Aproximadamente 95.5% de todos los valores de una población normalmente distribuida se encuentra dentro de +/-  2 desviaciones estándar respecto a la media.

Aproximadamente 97.7% de todos los valores de una población normalmente distribuida se encuentra dentro de +/- 3 desviaciones estándar respecto a la media.

Estas tres afirmaciones se observan con detalle en la siguiente figura.


En la distribución normal evaluaremos porciones de áreas bajo cualquier curva normal. Para ello emplearemos la Tabla de la Distribución Normal Estándar.


Uso de la Tabla de la Distribución Normal Estándar.

En la tabla que hemos suministrado en el Blog se muestra el área bajo la curva normal y cualquier valor de la variable aleatoriamente distribuida. En la tabla se entra con el valor de z. El valor de z se consigue por la siguiente formula:




En la que:
x = valor de la variable aleatoria que nos interesa.
µ = media de la distribución de la variable aleatoria.
σ = desviación estándar de la distribución.
z = numero de desviaciones estándar que hay desde x a la media de la distribución.

La tabla esta estructurada en base a unidades estándar, mostrando únicamente la mitad del área bajo la curva normal.


Veremos 4 casos de buscar valores de Probabilidad en la tabla (P) si ya previamente hemos calculado z con la formula anterior esto sera en función del numero de cifras decimales que tiene z:

Caso 1: z es un numero entero. Por lo que se observa en la tabla los únicos valores de z que son números enteros son 1, 2 y 3 , que se observan en la 1ra columna. Asumiendo en este caso que z nos dio 1.
Así:

z = 1 buscado en la tabla z = 1.0 columna 0 tendremos que P = 0.3413

Es decir que si z es un numero entero se busca P siempre en la columna 0.

Caso 2: z tiene una cifra decimal. En este casos se busca el valor de z de una cifra decimal en la 1ra columna. Analicemos que ya conocemos a z y esta tiene una cifra decimal como por ejemplo 0.8
Así
z = 0.8 buscado en tabla z = 0.8 columna o P = 0.2881

Observamos que para un numero con una cifra decimal se busca el valor de P en la columna 0 

Caso 3. z tiene 2 cifras decimales. En este caso se busca el valor de z con su parte entera y la 1ra cifra de este en la 1ra columna y luego la 2da cifra decimal se localiza en la columna que tenga esta misma cifra. donde coincidan la fila y columna de ambas estará el valor de P buscado.
Así por ejemplo z es 0.75 lo buscamos como z = 0.7 y la columna 0.05 y en la intercepción de ambas estará el valor de P buscado:

P = 0.0.2734
Observamos que par 2 cifras decimales lo buscamos en la columna que tiene el mismo valor de la 2da cifra decimal.

Caso 4. z tiene mas de 2 cifras decimales. En este caso se redondean las cifras decimales a solo 2 cifras y se trata como el caso 3.
Veamos por ejemplo z= 1.40447
Eliminamos una cifra decimal y tendremos z = 1.4045
Eliminando otra cifra decimal z = 1.405
y eliminando la otra para dejar solo
dos cifras decimales z = 1.41
Con este valor vamos a las tablas y determinamos P


Así P = 0.4207 en este caso.



Ejercicio de aplicación múltiple para distribución Normal.
Una empresa de adiestramiento para gerentes está implementando un programa de capacitación para directores departamentales que es auto aplicable, por lo que cada participante puede tomar un número diferente de horas en concluirlo. La aplicación de este programa en empresas similares ha arrojado que cada participante tarda un promedio de 500 horas con una desviación estándar de 103 horas.

Explicación generalizada del problema: Se trata de un problema de distribución normal pues se observa como datos el número promedio y la desviación estándar esto adicional de que estamos trabajando con una variable continúa como son las horas.

Pregunta 1. ¿Cuál es la probabilidad de que un candidato tarde más de 500 horas en terminar el programa de capacitación?

Solución: Resulta conveniente esquematizar los datos del problema, para tener una mejor visualizacion de este así:




Se observa que el área sombrada es la que es mayor a 500 Horas, que es la 1/2 del área debajo del gráfico. Así que la probabilidad sera de 1/2 o bien el 50%.
P(mas de 500Hrs) = 0.5

Pregunta 2. ¿Cuál es la probabilidad de que un candidato escogido al azar tarde entre 500 y 650 horas en terminar el programa auto-aplicable?

Solución: Sombreamos lo que se nos piden el esquema de la curva así:



Empleando la ecuación de z.


Buscamos ahora en la tabla de la Distribución Normal Estándar. con z = 1.4 en la columna 0.06
P = 0.4279



Pregunta 3. ¿Cuál será la probabilidad de que un candidato escogido al azar tarde mas de 700 horas en concluir el programa de capacitación?

Solución: Si observamos el gráfico vemos que el área que nos interesa, no coincide con la mitad (no esta adyacente a la media). Esta área la hemos sombreado con rayas horizontales, también podemos observar que el área entre la media y el valor de x=700 la hemos sombreado con rayas verticales.



En esta ocasión podemos afirmar que sumando las áreas sombreadas verticales y horizontales nos da 0.5 que es la mitad de la gráfica:





Pregunta 4. ¿Cual sera la probabilidad de que un participante tarde entre 650 y 750 horas en concluir el programa de capacitación?

Solución: Si observamos el gráfico vemos que el área que nos interesa, no coincide con la mitad (no esta adyacente a la media). 

En este caso calcularemos el valor de z entre la media y el mayor valor de x (750) nos dará un valor de P que le le llamaremos P2, luego calcularemos el valor de z entre la media y el valor de menor (650) que nos dará un valor de P que lo llamaremos P1 (este valor ya lo encontramos en la pregunta 2.

Pregunta 5. ¿Cual es la probabilidad de que un candidato elegido al azar tarde menos de 580 horas para completar el programa?

Solución: La solución se obtiene con la suma de las dos áreas sombreadas, tanto el área rayada verticalmente como el área rayada horizontalmente. Por definición el área rayada verticalmente (los valores menores de 500 horas) tiene un valor de P1 igual a 0.5, pues es la 1/2 del total de área debajo de la curva. Calcularemos el valor de z entre 500 y 580, esto nos dará un valor de P2, este valor lo sumaremos al previamente encontrado y nos dará el valor de probabilidad deseado. Observemos el gráfico orientativo:



Pregunta 6. ¿Cual es la probabilidad de que un candidato elegido al azar tarde entre 420 horas y 570 horas para completar el programa? 


Solución: En este caso debemos contemplar 2 áreas situadas a ambos lado de la linea vertical que esta en la media del conjunto de datos (500 horas), (obsérvese la gráfica):