viernes, 26 de junio de 2015

MEDIDA DE DISPERCION

Medidas de dispersión

Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, y cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (desviación media) y otra es tomando las desviaciones al cuadrado (varianza)

Propiedades

  • La varianza es siempre positiva o 0: V_{X}^2 \geq 0
  • Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica.
Y_i = X_i + k1 c S_Y^2 = \frac{\sum (Y_i - \bar{Y})^2}{n} = \frac{\sum [(X_i + k) - (\bar{X} + k)]^2}{n} = \frac{\sum (X_i + k - \bar{X} - k)^2}{n} = \frac{\sum (X_i - \bar{X})^2}{n} = S_X^2
  • Si a los datos de la distribución los multiplicamos por una constante, la varianza queda multiplicada por el cuadrado de esa constante.
Y_i = X_i \cdot k
S_Y^2 = \frac{\sum (Y_i - \bar{Y})^2}{n} = \frac{\sum (X_i \cdot k - \bar{X} \cdot k)^2}{n} = \frac{\sum [k \cdot (X_i - \bar{X})]^2}{n} = \frac{\sum [k^2 \cdot (X_i - \bar{X})^2]}{n} = k^2 \cdot \frac{\sum (X_i - \bar{X})^2}{n} = k^2 \cdot S_X^2
  • Propiedad distributiva: V(X + Y) = V(X) + V(Y) +2COV(X,Y) , siempre y cuando las variables X y Y sean independientes

Covarianza

La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. La formulación clásica se simboliza por la letra griega sigma (σ) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "s_{xy}".
La fórmula suele aparecer expresada como:
\hat{S}_{xy} = \frac{\sum_{i=1}^n x_i y_i}{n-1} = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{n-1}
Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas).
La expresión se resuelve promediando el producto de las puntuaciones diferenciales por su tamaño muestral (n pares de puntuaciones, n-1 en su forma insesgada).
Este estadístico refleja la relación lineal que existe entre dos variables. El resultado numérico fluctúa entre los rangos de +infinito a -infinito. Al no tener unos límites establecidos no puede determinarse el grado de relación lineal que existe entre las dos variables, solo es posible ver la tendencia.
  • -\infty \leq S_{xy} \leq +\infty
  • S_{xy} = \begin{cases} > 0, & \mbox{Correlaci}\acute{o}\mbox{n directa. Recta de regresi}\acute{o}\mbox{n creciente.} \\
                               = 0, & \mbox{No hay correlaci}\acute{o}\mbox{n.} \\
                               < 0. & \mbox{Correlaci}\acute{o}\mbox{n inversa. Recta de regresi}\acute{o}\mbox{n decreciente.}
                 \end{cases}

Coeficiente de Correlación de Pearson

El coeficiente de correlación de Pearson, r, permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raíz cuadrada de las varianzas).
r = \frac{V_{xy}}{\sqrt{V_x V_y}} = \frac{S_{xy}}{\sqrt{S_x^2 S_y^2}} = \frac{S_{xy}}{S_x S_y}
Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:
Ejemplo Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolviéndolo mediante la correspondiente fórmula sería: r = \frac{\frac{\sum x_i y_i}{n} - \bar{x}\bar{y}}
{\sqrt{\left(\frac{\sum x_i^2}{n} - \bar{x}^{2}\right)
\left(\frac{\sum y_i^2}{n} - \bar{y}^{2}\right)}}
r = \frac{n\sum x_i y_i - \sum x_i \sum y_i}
{\sqrt{\left[n\sum x_i^2 - \left(\sum x_i\right)^2\right]
\left[n\sum y_i^2 - \left(\sum y_i\right)^2\right]}}

Propiedades

  • El coeficiente de correlación, r, presenta valores entre –1 y +1.
  • Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.
  • Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.
  • Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente.es
Correlation types.jpg 
EJEMPLOS
 
En seis sábados consecutivos un operador de taxis recibió 9, 7, 11, 10, 13 y 7 llamadas a su sitio para su servicio. Calcule:

No hay comentarios:

Publicar un comentario