2025-03-05
Queremos comparar dos grupos.
\(x_{ij}\) (\(y_{ij}\)) es la expresión de la i-ésima característica en la j-ésima muestra del primer grupo (segundo grupo).
Tomamos los logaritmos (en base 2 o log2
) de los valores originales: \[
u_{ij} = \log_2(x_{ij}), \ v_{ij} = \log_2(y_{ij}).
\]
Para cada gen, tendremos las expresiones medias para la i-ésima característica \[\bar{x}_{i \cdot} = \sum_{j=1}^{n_1} \frac{x_{ij}}{n_1}\] \(\bar{y}_{i \cdot}\), \(\bar{u}_{i \cdot}\), \(\bar{v}_{i \cdot}\).
¿Qué se entiende por fold-change?
Dos son las interpretaciones distintas de este valor. \[ FC^{(1)}_i = \frac{\bar{x}_{i \cdot}}{\bar{y}_{i \cdot}}. \] y \[ FC^{(2)}_i = \bar{u}_{i \cdot} - \bar{v}_{i \cdot}, \]
El log-fold change es el logaritmo en base 2 de los fold-change que acabamos de definir.
Si el cociente anterior es mayor que c
entonces diríamos que el gen se expresa de un modo diferencial en ambos grupos.
Tenemos una expresión diferencial del gen \(i\) si
\[\bigg |\log_2 \big ( FC_i \big ) \bigg| \geq c\]
Calculamos \[T = \frac{\bar{X} - \bar{Y}}{S_p \sqrt{\frac{1}{n}+\frac{1}{m}}}\] con \[S_p = \hat{\sigma}^2 = \frac{(n-1) S^2_X + (m-1) S^2_Y}{n+m-2}\] siendo \[S^2_X = \sum_{i=1}^n \frac{(X_i - \bar{X})^2}{n-1}.\] y \(S^2_Y\) lo mismo sustituyendo \(X_i\) por \(Y_i\).
Rechazamos la hipótesis nula cuando \[ |T| > t_{\nu,1-\alpha/2} \]
El p-valor viene dado por \[ p= P(|T| \geq t_0) \] siendo \(t_0\) el valor observado de \(T\) en cada caso.
Two Sample t-test
data: x0 by y0
t = 1.3685, df = 27, p-value = 0.1824
alternative hypothesis: true difference in means between group healthy and group multiple sclerosis is not equal to 0
95 percent confidence interval:
-0.0581131 0.2908712
sample estimates:
mean in group healthy mean in group multiple sclerosis
4.034384 3.918005
Hacemos un t-test para todos los genes
¿Cuándo tests mostrarían una expresión diferencial entre ambos grupos?