Actualizado el: 20 de noviembre de 2023

MANUAL DE REFERENCIA DEL CURSO

Introducción

¿Por qué analizar datos? (Pearson, 218:1)

  • Para comprender lo que ha sucedido o está sucediendo.
  • Para predecir lo que es probable que suceda (o en el futuro o bajo otras circunstancias que no se han dada aún).
  • Para guiarnos en la toma de decisiones.

Análisis exploratorio de datos (AED) está más orientado a comprender nuestros datos, aunque las técnicas de AED son extremadamente útiles para predicir y tomar decisiones).

Definición y relaciones (1)



Estadística: Ciencia que estudia cómo debe emplearse la información y pretende dar una guía de acción en situaciones prácticas que entrañan incertidumbre, además de ofrecer métodos de investigación aplicables al resto de Ciencias.

Definición y relaciones (1)

ESTADÍSTICA DESCRIPTIVA
Recogida de información, descripción y análisis de un grupo de datos utilizando métodos numéricos y gráficos.

  • Notas de un examen.
  • Censo de población.

CÁLCULO DE PROBABILIDADES
(Juegos de azar).
La descripción de la realidad se modeliza utilizando métodos de Análisis Matemático.

INFERENCIA ESTADÍSTICA
Basándose en el cálculo de probabilidades, y a partir de los datos de una muestra, se efectúan estimaciones, decisiones y predicciones.

Permite generalizar sobre un conjunto mayor de datos (población). - Estatura media de los ciudadanos de la Comunidad Valenciana.

Una introducción a la teoría y probabilidad y la inferencia estadística es

Definición y relaciones (2)

El Análisis Exploratorio de datos puede definirse como “the art of looking at one or more datasets in an effort to understand the underlying structure of the data contained there” (Pearson, 2018:4).

“We look at numbers or graphs and try to find patterns. We pursue leads suggested by background information, imagination, patterns perceived, and experience with other data analyses” (cita de Diaconis en Pearson (2018:4)).

Introducción de conceptos (1)

En el proceso de observación y experimentación, se pueden encontrar o pueden acontecer dos tipos de fenómenos:

  • Fenómenos causales o deterministas
    En idénticas condiciones dan los mismos resultados. Dadas unas causas, puede predecirse un resultado final.

  • Fenómenos inciertos, aleatorios o debidos al azar
    Dadas unas causas no puede pronosticarse un resultado final. Influye el azar por lo que para idénticas condiciones nos encontramos con resultados distintos.

Introducción de conceptos (2)

  • VARIABLE ESTADÍSTICA
    Se refiere a una característica que puede tomar cualquier modalidad de un conjunto determinado o “dominio de la variable”.

  • DATO
    Par formado por una unidad observada y su correspondiente característica.
    Ejemplo: un individuo y su edad.

En general, cuando se habla de “datos” (ejemplo: “tenemos un conjunto de datos…”) nos referimos a una matriz en la que las filas corresponden a los individuos (observaciones) y las columna a las variables. En terminología de R hablamos de dataframes.

Introducción de conceptos (3)

Población: es el conjunto de las posibles observaciones de la característica (o variable) común que queremos analizar de un universo. La población puede ser finita o infinita. Si únicamente consideramos las observaciones de una característica del universo obtendremos una población unidimensional; pero si consideramos dos variables tendremos una población bidimensional, si consideramos tres variables una población tridimensional, etc.

Muestra: Es una parte (un subconjunto) representativa de la población. En muchas situaciones no es posible acceder al estudio de la población por diversas razones: imposibilidad, coste, etc. Por esta razón utilizamos la muestra para obtener información relevante acerca de la población.

Introducción de conceptos (4)

METADATOS
Los metadatos son los datos de los datos, es una descripción completa de los datos con los que vamos a trabajar.

La información contenida en los metadatos puede variar ampliamente en términos de su integridad, consistencia y precisión general.

Dado que los metadatos a menudo proporcionan gran parte de nuestra información preliminar sobre el contenido de un conjunto de datos, son extremadamente importantes y cualquier limitación de estos -incompletitud, inconsistencia y/o inexactitud- puede causar serios problemas en nuestro análisis posterior.

Tipos de variables (1)

Cualitativas: No se pueden medir. Pueden hacer referencia a:

  • Nominales: Son variables de tipo nominal, se establecen diferentes categorías.
    • Ejemplo: estado civil, tipo de defecto en la fabricación de un producto, veredicto en un juicio, etc.
  • Ordinales: Aquellas en las que es posible establecer cierta ordenación entre las diferentes categorías.
    • Ejemplo: motivación de los empleados, calidad del servicio prestado, grado de intensidad de la competencia, etc.

Tipos de variables (2)

Cuantitativas: Son medibles. Pueden clasificarse en:

  • Discretas: Cuando su dominio es un conjunto numerable de valores.
    • Ejemplo: número de defectos, volumen de ventas de una empresa, número de proveedores, etc.

Entre dos valores consecutivos la variable no puede tomar ningún valor intermedio.

  • Continuas: Cuando su dominio es continuo, es decir, cuando entre dos valores la variable puede tomar, al menos teóricamente, cualquiera de los infinitos valores existentes entre ellos.
    • Ejemplo: altura, peso, temperatura, potencia, etc.).

Tipos de variables (3)

Cuando trabajamos con un dataframe en el entorno R las variables se clasifican de otra forma (numérica, entero, carácter, lógica, factor), pero básicamente el concepto es el mismo que el visto anteriormente.

Clasificación

Unidimensionales: Se consideran los elementos de UNA característica (variable).

Multidimensionales: Se consideran conjuntamente VARIAS características.

Temporales o cronológicos: Evolución de la característica a lo largo del tiempo.

Atemporales o cross section: : Corte transversal. Serie estudiada en un momento determinado del tiempo.

Representación de los datos (1)

Tabla estadística o distribución de frecuencias (datos no agrupados)

\(x_i\) \(n_i\) \(N_i\) \(f_i\) \(F_i\)
\(x_1\) \(n_1\) \(N_1\) \(f_1\) \(F_1\)
\(x_2\) \(n_2\) \(N_2\) \(f_2\) \(F_2\)
\[ \vdots \] \[ \vdots \] \[ \vdots \] \[ \vdots \] \[ \vdots \]
\(x_i\) \(n_i\) \(N_i\) \(f_i\) \(F_i\)
\[ \vdots \] \[ \vdots \] \[ \vdots \] \[ \vdots \] \[ \vdots \]
\(x_I\) \(n_I\) \(N_I\) \(f_I\) \(F_I\)
\(\sum=n\) \(\sum=1\)

Representación de los datos (2)

\(X\): Variable estadística.

\(x_i\) son cada uno de los valores de la variable.

Frecuencia absoluta ordinaria (\(n_i\)): Número de veces que se repite cada valor de la variable.

Frecuencia absoluta acumulada (\(N_i\)): Número de veces que se repite un valor inferior o igual a \(x_i\), es decir:

\[{{\text{N}}_{\text{i}}} = {{\text{n}}_{\text{1}}} + {{\text{n}}_{\text{2}}} + \cdot\cdot\cdot + {{\text{n}}_{\text{i}}} = \sum\limits_{{\text{i}} = {\text{1}}}^{\text{i}} {{{\text{n}}_{\text{i}}}} \]

Representación de los datos (3)

Frecuencia relativa ordinaria (\(f_i\)): Proporción de veces que se repite cada valor de la variable. Es el cociente entre cada una de las frecuencias absolutas y el número total de observaciones, es decir:
\[{{f_i} = \frac{{{n_i}}}{n}}\]

Frecuencia relativa acumulada (\(F_i\)): Proporción de veces que se repite un valor inferior o igual a \(x_i\), es decir: \({{\text{F}}_{\text{i}}} = {{\text{f}}_{\text{1}}} + {{\text{f}}_{\text{2}}} + \cdot\cdot\cdot + {{\text{f}}_{\text{i}}} = \sum\limits_{{\text{i}} = {\text{1}}}^{\text{i}} {{{\text{f}}_{\text{i}}}}\) \(\qquad\text{o también: }{{F_i} = \frac{{{N_i}}}{n}}\)

El sumatorio de las observaciones se puede identificar como n si trabajamos con una muestra o como N si trabajamos con todas las observaciones, la población.

Representación de los datos (4)

Tabla estadística o distribución de frecuencias (Datos agrupados)

\(L_{i-1} , L_{i}\) \(n_i\) \(N_i\) \(f_i\) \(F_i\)
\(L_{0} , L_{1}\) \(n_1\) \(N_1\) \(f_1\) \(F_1\)
\(L_{1} , L_{2}\) \(n_2\) \(N_2\) \(f_2\) \(F_2\)
\[ \vdots \] \[ \vdots \] \[ \vdots \] \[ \vdots \] \[ \vdots \]
\[ \vdots \] \[ \vdots \] \[ \vdots \] \[ \vdots \] \[ \vdots \]
\(L_{I-1} , L_{I}\) \(n_I\) \(N_I\) \(f_I\) \(F_I\)
\(\sum=n\) \(\sum=1\)

Representación de los datos (5)

Con una distribución de frecuencias de valores agrupados …

Amplitud del intervalo: \[c_i = L_i - L_{i-1}\] Marca de clase: \[x_i = \frac{L_{i-1} + L_i}{2}\]

Representación de los datos (6)

Representaciones gráficas. Muy importantes en el AED las veremos con detalle en el tema 4.

  • Diagrama de sectores.
  • Pictograma.
  • Diagrama de barras.
  • Diagrama de escalera o acumulativo.
  • Histograma.
  • Polígono de frecuencias.
  • Polígono acumulativo.
  • …….

Representación de los datos (7)

Diagrama de sectores.

Se dibuja un círculo que se divide en tantas secciones como categorías o valores distintos presenta la variable objeto de estudio. A cada sección, cuya área es proporcional a su frecuencia, le corresponde un ángulo igual a:
\[{{\text{x}}^{\text{o}}} = {\text{36}}{{\text{0}}^{\text{o}}} \cdot \frac{{{{\text{n}}_{\text{i}}}}}{{\text{N}}} = {\text{36}}{{\text{0}}^{\text{o}}} \cdot {{\text{f}}_{\text{i}}}\]

Representación de los datos (8)

Representación de los datos (9)

Consiste en asociar a cada categoría de la variable un dibujo, relacionado con ésta, cuyo tamaño será proporcional a la frecuencia.

Representación de los datos (10)

Diagrama de Barras: se sitúan en el eje de abscisas (eje X) los valores de la variable y en el eje de ordenadas (eje Y) las frecuencias ordinarias (absolutas o relativas). A continuación se asocia una barra a cada \(x_i\), cuya altura será proporcional a la frecuencia que le corresponda.

Representación de los datos (11)

Diagrama en escalera: en el eje de ordenadas las frecuencias acumuladas (\(N_i\) o \(F_i\)) y uniendo las barras mediante segmentos paralelos al eje de abscisas. Se denomina diagrama en escalera por la forma en escalera que adopta, donde la altura de cada escalón es la frecuencia ordinaria (absoluta o relativa) asociada al correspondiente valor \(x_i\).

Representación de los datos (12)

Histograma: se sitúan en el eje de abscisas los intervalos (\(L_{i-1},L_i\)) y sobre cada uno de ellos se construye un rectángulo de base igual a la amplitud del intervalo y área proporcional a la frecuencia ordinaria (relativa o absoluta).

Representación de los datos (13)

Polígono de frecuencias: Se obtiene al unir, mediante líneas rectas, los puntos medios de los lados superiores de los rectángulos.

Representación de los datos (14)

Polígono de frecuencias acumuladas (OGIVA) Se sitúan en el eje de abscisas los intervalos (\(L_{i-1},L_i\)), y en el eje de ordenadas las frecuencias, absolutas o relativas, acumuladas.

Al acumular frecuencia a lo largo de un intervalo, se supone que ésta se agrega de manera uniforme, por lo que se puede unir mediante una línea recta el extremo inferior y el extremo superior de un intervalo, obteniéndose el polígono acumulativo.

Representación de los datos (15)

Medidas de posición…

Medidas de posición (1)

Medidas de tendencia central: Describen la localización central de un conjunto de observaciones numéricas.

  • Media (aritmética)
  • Mediana
  • Moda
  • Otras medidas: Media ponderada, Media geométrica, Media armónica, Rango medio, etc.

Medidas de tendencia no central.

  • Cuantiles
    • Cuartiles
    • Deciles
    • Centiles/Percentiles

Medidas de posición (2)

Una medida de centralización es aquel valor que es capaz de representar todos los datos.

Media aritmética (\(\bar x\)): es la suma de todos los valores del conjunto de datos dividido entre el número total de observaciones.

A partir de los datos brutos: \[\bar x = {{\sum\limits_{i = 1}^n {{x_i}} } \over n}{\text{ = }}\frac{{{{\text{x}}_{\text{1}}}{\text{ + }}{{\text{x}}_{\text{2}}}{\text{ + ... + }}{{\text{x}}_{\text{n}}}}}{{\text{n}}}\]
A partir de una tabla estadística (o de frecuencias): \[\bar x = \frac{{\sum\limits_{{\text{i = 1}}}^{\text{I}} {{{\text{x}}_{\text{i}}} \cdot {{\text{n}}_{\text{i}}}} }}{{\text{n}}}{\text{ = }}\frac{{{{\text{x}}_{\text{1}}}{{\text{n}}_{\text{1}}}{\text{ + }}{{\text{x}}_{\text{2}}}{{\text{n}}_{\text{2}}}{\text{ + ... + }}{{\text{x}}_{\text{I}}}{{\text{n}}_{\text{I}}}}}{{\text{n}}}\]

Vamos a un ejemplo…

Medidas de posición (3)

1.- \(\sum\limits_{i = 1}^I {({x_i}} - \bar x) \cdot {n_i}=0\)
2.- Si \(\bar x_i\) (i=1,2,..,k) corresponden a las medias de k grupos distintos de tamaño \(N_i\) (i=1,2,..,k), se cumple que la media del conjunto es:
\[\bar x = {{\sum\limits_{i = 1}^k {{{\bar x}_i}{N_i}} } \over {\sum\limits_{i = 1}^k {{N_i}} }} = {{{{\bar x}_1}{N_1} + {{\bar x}_2}{N_2} + \cdots + {{\bar x}_k}{N_k}} \over {{N_1} + {N_2} + \cdots + {N_k}}}\] 3.- A la media le afectan (depende) de los cambios de origen y de unidad (o escala).

Vamos a un ejemplo…

Medidas de posición (3)

Ventajas:

  • Su cálculo es sencillo e intervienen todos los valores de la distribución.
  • Resulta facil de interpretar.
  • Es única.

Inconvenientes:

La media no es la mejor medida para describir o resumir un conjunto de datos que tiene valores extremos.

Medidas de posición (4)

Mediana (\(Me\)): valor del recorrido de la variable que deja aproximadamente el mismo número de observaciones a su izquierda y a su derecha.

Ejemplo

Medidas de posición (5)

La Media es la medida de tendencia central que más se usa, pero como se ve influenciada por valores extremos, en estos casos con frecuencia la Mediana es preferida.

Medidas de posición (6)

Moda (\(Mo\))

Distribución de frecuencias de valores sin agrupar: Valor de la variable de mayor frecuencia (\(n_i\) o \(f_i\)).

Distribución de frecuencias de valores agrupados:

  • Misma amplitud: intervalo modal en el intervalo de mayor frecuencia o altura.
  • Diferente amplitud: intervalo modal en el intervalo de mayor altura.

Medidas de posición (7)

Cuantiles:

  • CUARTILES (k=4): \(\quad C_s\) (s=1,2,3,4)
  • DECILES (k=10): \(\quad D_s\) (s=1,2,3,..,10)
  • PERCENTILES (k=100): \(\quad P_s\) (s=1,2,3,..,100)

Expresión general de cálculo:

\({\text{Si }}\left\{ \begin{gathered} {{\text{N}}_{{\text{i}} - {\text{1}}}} < \frac{{{\text{s}} \cdot {\text{n}}}}{{\text{k}}} < {{\text{N}}_{\text{i}}} \Rightarrow {{\text{Q}}_{\frac{{\text{s}}}{{\text{k}}}}} = {{\text{x}}_{\text{i}}} \hfill \\ {\text{ }}{{\text{N}}_{\text{i}}} = \frac{{{\text{s}} \cdot {\text{n}}}}{{\text{k}}}{\text{ }} \Rightarrow {{\text{Q}}_{\frac{{\text{s}}}{{\text{k}}}}} = \frac{{{{\text{x}}_{\text{i}}} + {{\text{x}}_{{\text{i}} + {\text{1}}}}}}{{\text{2}}} \hfill \\ \end{gathered} \right.\)

Medidas de posición (8)

cuartil (k=4 , s=1, 2, 3)


\(Q_{1/4}\)=\(C_1\): Valor del recorrido de la variable para el cual el 25% de las observaciones son más pequeñas y el 75% son mayores.

¿Cómo interpretamos el valor que toma el \(P_{40} (=Q_{40/100}\))?

¿Cómo calculamos los diferentes Cuantiles?

Nota: Observad que la Mediana es: \(Me=C_2=D_5=P_{50}\)

Medidas de dispersión…

Medidas de dispersión o variación (1)

Medidas de posición: valores alrededor de los cuales se sitúa un grupo de observacioness.

Información insuficiente: no tienen en cuenta la situación relativa de los datos.

Ejemplo: Somos el responsable de compras de una empresa. Buscamos información sobre 2 proveedores y determinamos que ambos tardan por término medio 10 días en servir el pedido.

¿Qué proveedor preferimos?
¿Qué proveedor es más consistentes/confiable?

Medidas de dispersión o variación (2)

Medidas de dispersión absoluta.

  • Rango o recorrido.
  • Recorrido intercuartílico.
  • Varianza.
  • Desviación típica.

Medidas de dispersión relativa.

  • Coeficiente de variación de Pearson.
  • Otras medidas: Recorrido intercuartílico relativo, coeficiente de variación mediano, recorrido relativo, etc.

Medidas de dispersión o variación (3)

La Varianza, a diferencia del Rango y el Recorrido Intercuartílico, consideran cómo se distribuyen o agrupan las observaciones.

La varianza (\(S^2\)): es la media de los cuadrados de las diferencias entre los valores de la variable y su media.

\[S_x^2 = \frac{{\sum\limits_{i = 1}^n {{{({x_i} - \bar x)}^2}} }}{n} \quad o \quad S_x^2 = \frac{{\sum\limits_{i = 1}^I {{{({x_i} - \bar x)}^2} \cdot {n_i}} }}{n}\]

Evalúa la manera en que fluctúan los valores de la variable respecto a la media.

¿Por qué se utiliza el cuadrado de las diferencias?

Medidas de dispersión o variación (4)

Al hacer el cuadrado, las observaciones que se encuentran más lejos de la media adquieren más peso que las más cercanas. Cuanto mayor sea la varianza (\(S^2\)) más dispersión de los datos.

Si en la expresión anterior de la \(S^2\) desarrollamos el cuadrado:

\[S_x^2 = \frac{{\sum\limits_{i = 1}^n {{x_i}^2} }}{n} - {\bar x^2} \quad o \quad S_x^2 = \frac{{\sum\limits_{i = 1}^I {{x_i}^2 \cdot {n_i}} }}{n} - {\bar x^2}\]

  • Utiliza sólo los valores de la variable
  • Más sencillo y rápido de calcular

Vamos a un ejemplo…

Medidas de dispersión o variación (5)

Propiedades de la varianza:

  • Siempre es mayor (o igual) a cero.
  • Es una medida de dispersión óptima.
  • Si a todos los valores \(x_i\) de una distribución de frecuencias se les suma o resta una constante, la varianza no cambia.
  • Si a todos los valores \(x_i\) de una distribución de frecuencias se multiplican o dividen por una constante, la varianza de la nueva distribución queda Multiplicada/dividida por esa misma constante al cuadrado.
  • SSi sobre una variable se aplica un cambio de origen y de unidad, \[Y= a + bX\] la varianza de la nueva variable (Y) será: \(\quad {\text{S}}_{\text{Y}}^{\text{2}}{\text{ = }}{{\text{b}}^{\text{2}}} \cdot {\text{S}}_{\text{X}}^{\text{2}}\)

Medidas de dispersión o variación (6)

  • Rango o recorrido: \(\operatorname{Re} = {x_{\max }} - {x_{\min }}\)
  • Varianza (o varianza poblacional)
    \[S_x^2 = \frac{{\sum\limits_{i = 1}^I {{{({x_i} - \bar x)}^2} \cdot {n_i}} }}{n} \quad o \quad S_x^2 = \frac{{\sum\limits_{i = 1}^I {{x_i}^2 \cdot {n_i}} }}{n} - {\bar x^2}\]
  • Desviación típica
    \[{S_X} = + \sqrt {S_X^2} \geqslant 0\]
  • Cuasivarianza (o varianza muestral)
    \[S_x^{2*} = \frac{{n}}{n-1} \cdot S_X^2\]
  • Coeficiente de variación (de Pearson) (PARA COMPARAR) \[{g_0}(X) = \frac{{{S_X}}}{{|\bar x|}}\]

Medidas de forma…

Medidas de forma: simetria (1)

Coeficiente de asimetría (de Fisher): \[{g_1}(X) = \frac{{\frac{{\sum\limits_{i = 1}^I {{{\left( {{x_i} - \bar x} \right)}^3} \cdot {n_i}} }}{n}}}{{S_X^3}}\]
Son muchos cálculos para hacerlos a mano (lo haremos con el ordenador).

Medidas de forma: simetria (2)

Medidas de forma: apuntamiento

Coeficiente de Curtosis: \[{g_2}(X) = \frac{{\frac{{\sum\limits_{i = 1}^I {{{\left( {{x_i} - \bar x} \right)}^4} \cdot {n_i}} }}{n}}}{{S_X^4}}\]
Son muchos cálculos para hacerlos a mano (lo haremos con el ordenador).

Transformaciones lineales…

Tipificación de variables

Variable tipificada:

\[Z = \frac{{X - \bar x}}{{{S_X}}} \quad amb \quad \bar z = 0 \quad i \quad S_z =1 \]

Valores tipificados:
\[{z_i} = \frac{{{x_i} - \bar x}}{{{S_X}}}\]

Utilidad:

  • Las variables pasan a ser adimensionales.
  • Permite comparar utilizando como distancia el número de desviaciones típicas respecto a la media.
  • Para la detección de valores atípicos (outliers o anómalos).

Valores atípicos (1)

Regla Empírica

Valores atípicos (2)

Diagrama de Caja (Box plot)


Transformaciones lineales

CASOS REALES: ESTADÍSTICA APLICADA…

Encuesta de Estructura Salarial (EES) y Encuesta de Población Activa (EPA)

Lecturas de interés: