2025-04-09
Consideramos el gen \(i\)-ésimo y tomamos una medida de localizacion como la mediana: \(u_i\).
Sea \(q_{p_1}(u)\) sería el correspondiente percentil de orden \(p_1\) de los valores \(u_i\).
Consideramos una medida de dispersión como el coeficiente intercuartílico: \(v_i\).
Sea \(q_{p_2}(v)\) el correspondiente percentil de orden \(p_2\) de los valores \(v_i\).
Nos quedamos con los genes tales que \[ \{i: i = 1,\ldots,N; u_i \geq q_{p_1}(u); v_i \geq q_{p_2}(v)\}, \]
Lo lógico es usar bien mediana y rango intercuartílico o bien media y desviación estándar.
Otra opción en lugar de localización: k-sobre-A: al menos k muestras tiene un nivel de expresión por encima de un valor mínimo A.
ExpressionSet
.c
y tenemos n muestras podemos pedir que un gen determinado se considere activo si en al menos k muestras del total de n su nivel de expresión supere este nivel mínimo de actividad. 0% 25% 50% 75% 100%
2.042694 3.721179 5.201626 7.128468 14.822599
c
.Queremos comparar dos grupos.
\(x_{ij}\) (\(y_{ij}\)) es la expresión de la i-ésima característica en la j-ésima muestra del primer grupo (segundo grupo).
Tomamos los logaritmos (en base 2 o log2
) de los valores originales: \[
u_{ij} = \log_2(x_{ij}), \ v_{ij} = \log_2(y_{ij}).
\]
Para cada gen, tendremos las expresiones medias para la i-ésima característica \[\bar{x}_{i \cdot} = \sum_{j=1}^{n_1} \frac{x_{ij}}{n_1}\] \(\bar{y}_{i \cdot}\), \(\bar{u}_{i \cdot}\), \(\bar{v}_{i \cdot}\).
¿Qué se entiende por fold-change?
Dos son las interpretaciones distintas de este valor. \[ FC^{(1)}_i = \frac{\bar{x}_{i \cdot}}{\bar{y}_{i \cdot}}. \] y \[ FC^{(2)}_i = \bar{u}_{i \cdot} - \bar{v}_{i \cdot}, \]
El log-fold change es el logaritmo en base 2 de los fold-change que acabamos de definir.
Si el cociente anterior es mayor que c
entonces diríamos que el gen se expresa de un modo diferencial en ambos grupos.
Tenemos una expresión diferencial del gen \(i\) si
\[\bigg |\log_2 \big ( FC_i \big ) \bigg| \geq c\]
PROBEID ENTREZID ENSEMBL
1938 1554564_a_at 121665 ENSG00000157837
t.test
Tenemos datos relativos a niveles de expresión bajo dos condiciones experimentales.
Denotamos por \(Y_1\) el nivel de expresión aleatorio que observamos bajo la primera condición y por \(Y_2\) lo mismo pero con la segunda condición.
\(Y_1 \sim N(\mu_1,\sigma^2)\)
\(Y_2 \sim N(\mu_2,\sigma^2)\)
Nos planteamos el contraste \[ H_0: \mu_1 = \mu_2, \] \[ H_1: \mu_1 \neq \mu_2. \]
Calculamos \[T = \frac{\bar{Y}_1 - \bar{Y}_2}{S_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\] con \[S_p = \hat{\sigma}^2 = \frac{(n_1-1) S^2_1 + (n_2-1) S^2_2}{n_1+n_2-2}\] siendo \[S^2_1 = \sum_{i=1}^{n_1} \frac{(Y_{1i} - \bar{Y}_1)^2}{n_1-1}.\] y \(S^2_2\) lo mismo sustituyendo \(Y_{1i}\) por \(Y_{2i}\).
Rechazamos la hipótesis nula cuando \[ |T| > t_{\nu,1-\alpha/2} \]
El p-valor viene dado por \[ p= P(|T| \geq t_0) \] siendo \(t_0\) el valor observado de \(T\) en cada caso.
Two Sample t-test
data: y0 by x0
t = -3.5777, df = 25, p-value = 0.001452
alternative hypothesis: true difference in means between group healthy and group multiple sclerosis is not equal to 0
95 percent confidence interval:
-0.7543060 -0.2031418
sample estimates:
mean in group healthy mean in group multiple sclerosis
4.029890 4.508614
Hacemos un t-test para todos los genes
statistic dm p.value
1007_s_at -3.0779491 -0.20712393 0.005003033
1053_at 3.3695549 0.21636794 0.002445187
117_at 0.2727579 0.03740568 0.787279726
121_at -0.5428162 -0.02430009 0.592063311
1255_g_at -1.1845653 -0.05402389 0.247329067
1294_at -1.2452406 -0.09874406 0.224589177
Exact two-sample Kolmogorov-Smirnov test
data: exprs(gse21942)[1345, ] by pData(gse21942)[, "FactorValue..DISEASE.STATE."]
D = 0.7, p-value = 0.001305
alternative hypothesis: two-sided
¿Cuántas sondas son significativas?
pacman::p_load(coin)
(per1345 = coin::oneway_test(exprs(gse21942)[1345,]~
pData(gse21942)[,"FactorValue..DISEASE.STATE."]))
Asymptotic Two-Sample Fisher-Pitman Permutation Test
data: exprs(gse21942)[1345, ] by
pData(gse21942)[, "FactorValue..DISEASE.STATE."] (healthy, multiple sclerosis)
Z = -2.9672, p-value = 0.003005
alternative hypothesis: true mu is not equal to 0
Otra vez podemos repetir el análisis para todas las filas.
¿Cuántos son significativos?