Para explicar todo el temario de la asignatura de AED sigo el manual: Introducción al Análisis Exploratorio de Datos. Aplicaciones con R y datos reales.
Actualizado el: 20 de noviembre de 2023
Para explicar todo el temario de la asignatura de AED sigo el manual: Introducción al Análisis Exploratorio de Datos. Aplicaciones con R y datos reales.
¿Por qué analizar datos? (Pearson, 218:1)
Análisis exploratorio de datos (AED) está más orientado a comprender nuestros datos, aunque las técnicas de AED son extremadamente útiles para predicir y tomar decisiones).
Estadística: Ciencia que estudia cómo debe emplearse la información y pretende dar una guía de acción en situaciones prácticas que entrañan incertidumbre, además de ofrecer métodos de investigación aplicables al resto de Ciencias.
ESTADÍSTICA DESCRIPTIVA
Recogida de información, descripción y análisis de un grupo de datos utilizando métodos numéricos y gráficos.
CÁLCULO DE PROBABILIDADES
(Juegos de azar).
La descripción de la realidad se modeliza utilizando métodos de Análisis Matemático.
INFERENCIA ESTADÍSTICA
Basándose en el cálculo de probabilidades, y a partir de los datos de una muestra, se efectúan estimaciones, decisiones y predicciones.
Permite generalizar sobre un conjunto mayor de datos (población). - Estatura media de los ciudadanos de la Comunidad Valenciana.
Una introducción a la teoría y probabilidad y la inferencia estadística es
El Análisis Exploratorio de datos puede definirse como “the art of looking at one or more datasets in an effort to understand the underlying structure of the data contained there” (Pearson, 2018:4).
“We look at numbers or graphs and try to find patterns. We pursue leads suggested by background information, imagination, patterns perceived, and experience with other data analyses” (cita de Diaconis en Pearson (2018:4)).
En el proceso de observación y experimentación, se pueden encontrar o pueden acontecer dos tipos de fenómenos:
Fenómenos causales o deterministas
En idénticas condiciones dan los mismos resultados. Dadas unas causas, puede predecirse un resultado final.
Fenómenos inciertos, aleatorios o debidos al azar
Dadas unas causas no puede pronosticarse un resultado final. Influye el azar por lo que para idénticas condiciones nos encontramos con resultados distintos.
VARIABLE ESTADÍSTICA
Se refiere a una característica que puede tomar cualquier modalidad de un conjunto determinado o “dominio de la variable”.
DATO
Par formado por una unidad observada y su correspondiente característica.
Ejemplo: un individuo y su edad.
En general, cuando se habla de “datos” (ejemplo: “tenemos un conjunto de datos…”) nos referimos a una matriz en la que las filas corresponden a los individuos (observaciones) y las columna a las variables. En terminología de R hablamos de dataframes.
Población: es el conjunto de las posibles observaciones de la característica (o variable) común que queremos analizar de un universo. La población puede ser finita o infinita. Si únicamente consideramos las observaciones de una característica del universo obtendremos una población unidimensional; pero si consideramos dos variables tendremos una población bidimensional, si consideramos tres variables una población tridimensional, etc.
Muestra: Es una parte (un subconjunto) representativa de la población. En muchas situaciones no es posible acceder al estudio de la población por diversas razones: imposibilidad, coste, etc. Por esta razón utilizamos la muestra para obtener información relevante acerca de la población.
METADATOS
Los metadatos son los datos de los datos, es una descripción completa de los datos con los que vamos a trabajar.
La información contenida en los metadatos puede variar ampliamente en términos de su integridad, consistencia y precisión general.
Dado que los metadatos a menudo proporcionan gran parte de nuestra información preliminar sobre el contenido de un conjunto de datos, son extremadamente importantes y cualquier limitación de estos -incompletitud, inconsistencia y/o inexactitud- puede causar serios problemas en nuestro análisis posterior.
Cualitativas: No se pueden medir. Pueden hacer referencia a:
Cuantitativas: Son medibles. Pueden clasificarse en:
Entre dos valores consecutivos la variable no puede tomar ningún valor intermedio.
Cuando trabajamos con un dataframe en el entorno R las variables se clasifican de otra forma (numérica, entero, carácter, lógica, factor), pero básicamente el concepto es el mismo que el visto anteriormente.
Unidimensionales: Se consideran los elementos de UNA característica (variable).
Multidimensionales: Se consideran conjuntamente VARIAS características.
Temporales o cronológicos: Evolución de la característica a lo largo del tiempo.
Atemporales o cross section: : Corte transversal. Serie estudiada en un momento determinado del tiempo.
Tabla estadística o distribución de frecuencias (datos no agrupados)
\(x_i\) | \(n_i\) | \(N_i\) | \(f_i\) | \(F_i\) |
---|---|---|---|---|
\(x_1\) | \(n_1\) | \(N_1\) | \(f_1\) | \(F_1\) |
\(x_2\) | \(n_2\) | \(N_2\) | \(f_2\) | \(F_2\) |
\[ \vdots \] | \[ \vdots \] | \[ \vdots \] | \[ \vdots \] | \[ \vdots \] |
\(x_i\) | \(n_i\) | \(N_i\) | \(f_i\) | \(F_i\) |
\[ \vdots \] | \[ \vdots \] | \[ \vdots \] | \[ \vdots \] | \[ \vdots \] |
\(x_I\) | \(n_I\) | \(N_I\) | \(f_I\) | \(F_I\) |
\(\sum=n\) | \(\sum=1\) |
\(X\): Variable estadística.
\(x_i\) son cada uno de los valores de la variable.
Frecuencia absoluta ordinaria (\(n_i\)): Número de veces que se repite cada valor de la variable.
Frecuencia absoluta acumulada (\(N_i\)): Número de veces que se repite un valor inferior o igual a \(x_i\), es decir:
\[{{\text{N}}_{\text{i}}} = {{\text{n}}_{\text{1}}} + {{\text{n}}_{\text{2}}} + \cdot\cdot\cdot + {{\text{n}}_{\text{i}}} = \sum\limits_{{\text{i}} = {\text{1}}}^{\text{i}} {{{\text{n}}_{\text{i}}}} \]
Frecuencia relativa ordinaria (\(f_i\)): Proporción de veces que se repite cada valor de la variable. Es el cociente entre cada una de las frecuencias absolutas y el número total de observaciones, es decir:
\[{{f_i} = \frac{{{n_i}}}{n}}\]
Frecuencia relativa acumulada (\(F_i\)): Proporción de veces que se repite un valor inferior o igual a \(x_i\), es decir: \({{\text{F}}_{\text{i}}} = {{\text{f}}_{\text{1}}} + {{\text{f}}_{\text{2}}} + \cdot\cdot\cdot + {{\text{f}}_{\text{i}}} = \sum\limits_{{\text{i}} = {\text{1}}}^{\text{i}} {{{\text{f}}_{\text{i}}}}\) \(\qquad\text{o también: }{{F_i} = \frac{{{N_i}}}{n}}\)
El sumatorio de las observaciones se puede identificar como n si trabajamos con una muestra o como N si trabajamos con todas las observaciones, la población.
Tabla estadística o distribución de frecuencias (Datos agrupados)
\(L_{i-1} , L_{i}\) | \(n_i\) | \(N_i\) | \(f_i\) | \(F_i\) |
---|---|---|---|---|
\(L_{0} , L_{1}\) | \(n_1\) | \(N_1\) | \(f_1\) | \(F_1\) |
\(L_{1} , L_{2}\) | \(n_2\) | \(N_2\) | \(f_2\) | \(F_2\) |
\[ \vdots \] | \[ \vdots \] | \[ \vdots \] | \[ \vdots \] | \[ \vdots \] |
\[ \vdots \] | \[ \vdots \] | \[ \vdots \] | \[ \vdots \] | \[ \vdots \] |
\(L_{I-1} , L_{I}\) | \(n_I\) | \(N_I\) | \(f_I\) | \(F_I\) |
\(\sum=n\) | \(\sum=1\) |
Con una distribución de frecuencias de valores agrupados …
Amplitud del intervalo: \[c_i = L_i - L_{i-1}\] Marca de clase: \[x_i = \frac{L_{i-1} + L_i}{2}\]
Representaciones gráficas. Muy importantes en el AED las veremos con detalle en el tema 4.
Diagrama de sectores.
Se dibuja un círculo que se divide en tantas secciones como categorías o valores distintos presenta la variable objeto de estudio. A cada sección, cuya área es proporcional a su frecuencia, le corresponde un ángulo igual a:
\[{{\text{x}}^{\text{o}}} = {\text{36}}{{\text{0}}^{\text{o}}} \cdot \frac{{{{\text{n}}_{\text{i}}}}}{{\text{N}}} = {\text{36}}{{\text{0}}^{\text{o}}} \cdot {{\text{f}}_{\text{i}}}\]
Consiste en asociar a cada categoría de la variable un dibujo, relacionado con ésta, cuyo tamaño será proporcional a la frecuencia.
Diagrama de Barras: se sitúan en el eje de abscisas (eje X) los valores de la variable y en el eje de ordenadas (eje Y) las frecuencias ordinarias (absolutas o relativas). A continuación se asocia una barra a cada \(x_i\), cuya altura será proporcional a la frecuencia que le corresponda.
Diagrama en escalera: en el eje de ordenadas las frecuencias acumuladas (\(N_i\) o \(F_i\)) y uniendo las barras mediante segmentos paralelos al eje de abscisas. Se denomina diagrama en escalera por la forma en escalera que adopta, donde la altura de cada escalón es la frecuencia ordinaria (absoluta o relativa) asociada al correspondiente valor \(x_i\).
Histograma: se sitúan en el eje de abscisas los intervalos (\(L_{i-1},L_i\)) y sobre cada uno de ellos se construye un rectángulo de base igual a la amplitud del intervalo y área proporcional a la frecuencia ordinaria (relativa o absoluta).
Polígono de frecuencias: Se obtiene al unir, mediante líneas rectas, los puntos medios de los lados superiores de los rectángulos.
Polígono de frecuencias acumuladas (OGIVA) Se sitúan en el eje de abscisas los intervalos (\(L_{i-1},L_i\)), y en el eje de ordenadas las frecuencias, absolutas o relativas, acumuladas.
Al acumular frecuencia a lo largo de un intervalo, se supone que ésta se agrega de manera uniforme, por lo que se puede unir mediante una línea recta el extremo inferior y el extremo superior de un intervalo, obteniéndose el polígono acumulativo.
Medidas de tendencia central: Describen la localización central de un conjunto de observaciones numéricas.
Medidas de tendencia no central.
Una medida de centralización es aquel valor que es capaz de representar todos los datos.
Media aritmética (\(\bar x\)): es la suma de todos los valores del conjunto de datos dividido entre el número total de observaciones.
A partir de los datos brutos: \[\bar x = {{\sum\limits_{i = 1}^n {{x_i}} } \over n}{\text{ = }}\frac{{{{\text{x}}_{\text{1}}}{\text{ + }}{{\text{x}}_{\text{2}}}{\text{ + ... + }}{{\text{x}}_{\text{n}}}}}{{\text{n}}}\]
A partir de una tabla estadística (o de frecuencias): \[\bar x = \frac{{\sum\limits_{{\text{i = 1}}}^{\text{I}} {{{\text{x}}_{\text{i}}} \cdot {{\text{n}}_{\text{i}}}} }}{{\text{n}}}{\text{ = }}\frac{{{{\text{x}}_{\text{1}}}{{\text{n}}_{\text{1}}}{\text{ + }}{{\text{x}}_{\text{2}}}{{\text{n}}_{\text{2}}}{\text{ + ... + }}{{\text{x}}_{\text{I}}}{{\text{n}}_{\text{I}}}}}{{\text{n}}}\]
1.- \(\sum\limits_{i = 1}^I {({x_i}} - \bar x) \cdot {n_i}=0\)
2.- Si \(\bar x_i\) (i=1,2,..,k) corresponden a las medias de k grupos distintos de tamaño \(N_i\) (i=1,2,..,k), se cumple que la media del conjunto es:
\[\bar x = {{\sum\limits_{i = 1}^k {{{\bar x}_i}{N_i}} } \over {\sum\limits_{i = 1}^k {{N_i}} }} = {{{{\bar x}_1}{N_1} + {{\bar x}_2}{N_2} + \cdots + {{\bar x}_k}{N_k}} \over {{N_1} + {N_2} + \cdots + {N_k}}}\] 3.- A la media le afectan (depende) de los cambios de origen y de unidad (o escala).
Ventajas:
Inconvenientes:
La media no es la mejor medida para describir o resumir un conjunto de datos que tiene valores extremos.
Mediana (\(Me\)): valor del recorrido de la variable que deja aproximadamente el mismo número de observaciones a su izquierda y a su derecha.
Ejemplo |
---|
La Media es la medida de tendencia central que más se usa, pero como se ve influenciada por valores extremos, en estos casos con frecuencia la Mediana es preferida.
Moda (\(Mo\))
Distribución de frecuencias de valores sin agrupar: Valor de la variable de mayor frecuencia (\(n_i\) o \(f_i\)).
Distribución de frecuencias de valores agrupados:
Cuantiles:
Expresión general de cálculo:
\({\text{Si }}\left\{ \begin{gathered} {{\text{N}}_{{\text{i}} - {\text{1}}}} < \frac{{{\text{s}} \cdot {\text{n}}}}{{\text{k}}} < {{\text{N}}_{\text{i}}} \Rightarrow {{\text{Q}}_{\frac{{\text{s}}}{{\text{k}}}}} = {{\text{x}}_{\text{i}}} \hfill \\ {\text{ }}{{\text{N}}_{\text{i}}} = \frac{{{\text{s}} \cdot {\text{n}}}}{{\text{k}}}{\text{ }} \Rightarrow {{\text{Q}}_{\frac{{\text{s}}}{{\text{k}}}}} = \frac{{{{\text{x}}_{\text{i}}} + {{\text{x}}_{{\text{i}} + {\text{1}}}}}}{{\text{2}}} \hfill \\ \end{gathered} \right.\)
cuartil (k=4 , s=1, 2, 3)
\(Q_{1/4}\)=\(C_1\): Valor del recorrido de la variable para el cual el 25% de las observaciones son más pequeñas y el 75% son mayores.
¿Cómo interpretamos el valor que toma el \(P_{40} (=Q_{40/100}\))?
¿Cómo calculamos los diferentes Cuantiles?
Nota: Observad que la Mediana es: \(Me=C_2=D_5=P_{50}\)
Medidas de posición: valores alrededor de los cuales se sitúa un grupo de observacioness.
Información insuficiente: no tienen en cuenta la situación relativa de los datos.
Ejemplo: Somos el responsable de compras de una empresa. Buscamos información sobre 2 proveedores y determinamos que ambos tardan por término medio 10 días en servir el pedido.
¿Qué proveedor preferimos?
¿Qué proveedor es más consistentes/confiable?
Medidas de dispersión absoluta.
Medidas de dispersión relativa.
La Varianza, a diferencia del Rango y el Recorrido Intercuartílico, consideran cómo se distribuyen o agrupan las observaciones.
La varianza (\(S^2\)): es la media de los cuadrados de las diferencias entre los valores de la variable y su media.
\[S_x^2 = \frac{{\sum\limits_{i = 1}^n {{{({x_i} - \bar x)}^2}} }}{n} \quad o \quad S_x^2 = \frac{{\sum\limits_{i = 1}^I {{{({x_i} - \bar x)}^2} \cdot {n_i}} }}{n}\]
Evalúa la manera en que fluctúan los valores de la variable respecto a la media.
¿Por qué se utiliza el cuadrado de las diferencias?
Al hacer el cuadrado, las observaciones que se encuentran más lejos de la media adquieren más peso que las más cercanas. Cuanto mayor sea la varianza (\(S^2\)) más dispersión de los datos.
Si en la expresión anterior de la \(S^2\) desarrollamos el cuadrado:
\[S_x^2 = \frac{{\sum\limits_{i = 1}^n {{x_i}^2} }}{n} - {\bar x^2} \quad o \quad S_x^2 = \frac{{\sum\limits_{i = 1}^I {{x_i}^2 \cdot {n_i}} }}{n} - {\bar x^2}\]
Propiedades de la varianza:
Coeficiente de asimetría (de Fisher): \[{g_1}(X) = \frac{{\frac{{\sum\limits_{i = 1}^I {{{\left( {{x_i} - \bar x} \right)}^3} \cdot {n_i}} }}{n}}}{{S_X^3}}\]
Son muchos cálculos para hacerlos a mano (lo haremos con el ordenador).
Coeficiente de Curtosis: \[{g_2}(X) = \frac{{\frac{{\sum\limits_{i = 1}^I {{{\left( {{x_i} - \bar x} \right)}^4} \cdot {n_i}} }}{n}}}{{S_X^4}}\]
Son muchos cálculos para hacerlos a mano (lo haremos con el ordenador).
Variable tipificada:
\[Z = \frac{{X - \bar x}}{{{S_X}}} \quad amb \quad \bar z = 0 \quad i \quad S_z =1 \]
Valores tipificados:
\[{z_i} = \frac{{{x_i} - \bar x}}{{{S_X}}}\]
Utilidad:
Regla Empírica
Diagrama de Caja (Box plot)
Lecturas de interés: