\(Y_{ij}\) (\(y_{ij}\)) el conteo aleatorio (observado) del gen \(i\) en la muestra \(j\).
Denotamos \(L_i\) la longitud del gen \(i\) y \(m_j\) es el total de lecturas de la librería \(j\) (o tamaño de la librería \(j\)).
En (Robinson and Oshlack 2010) se asume que la media de \(Y_{ij}\) verifica \[
E \bigg [Y_{ij} \bigg ] = \frac{\mu_{ij} L_i}{c_j} m_j,
\]
siendo \(c_j = \sum_{i=1}^N \mu_{ij} L_i\). Notemos que \(c_j\) nos está representando el total de RNA en la muestra.
La producción total de RNA, \(c_j\), no es conocida.
Podemos estimar el cociente de estos valores para dos muestras \[
f_j = \frac{c_j}{c_{j'}}
\]
Elegimos una muestra como muestra de referencia. Por ejemplo, la muestra \(r\) denota a partir de ahora la muestra tomada (arbitrariamente) como de referencia.
Nos fijamos en la muestra \(j\) y vamos a determinar la constante por la que multiplicaremos los conteos originales.
En lo que sigue tanto \(j\) como \(r\) son fijos y las cantidades definidas dependen de \(i\) que denota el gen.
Se define \[
M_{ij}^{(r)} = \log_2 \frac{y_{ij}/m_j}{y_{ir}/m_r} =
\log_2 (y_{ij}/m_j) -\log_2 ( y_{ir}/m_r),
\] y \[
A_{ij}^{(r)} = \frac{1}{2} \bigg ( \log_2 (y_{ij}/m_j) +
\log_2 (y_{ir}/m_r) \bigg )
\]
Se eliminan los valores extremos tanto de los \(M_{ij}^{(r)}\) como de los \(A_{ij}^{(r)}\).
En concreto eliminamos un porcentaje de los \(M_i\) más pequeños y el mismo porcentaje de los más grandes.
Lo mismo hacemos para los valores \(A_i\).
También eliminamos aquellos índices \(i\) tales que $y_{ij} =0 $ o bien \(y_{ir} =0\).
El conjunto de índices i restante lo denotamos por \(G^*\).
Finalmente, el factor de normalización sería \[
\log_2(TMM_j^{(r)}) =
\frac{\sum_{i \in G^*} w_{ij}^{(r)} M_{ij}^{(r)}}{\sum_{i \in G^*} w_{ij}^{(r)}}
\] con \[
w_{ij}^{(r)} = \frac{m_j - y_{ij}}{m_jy_{ij}} +
\frac{m_r - y_{ir}}{m_r y_{ir}}.
\]
La muestra de referencia \(r\) es fija y lo que acabamos de calcular es el factor por el que multiplicamos los conteos originales de la muestra \(j\). Este factor viene dado por \(TMM_j^{(r)}\).
Obviamente tenemos que \(TMM_r^{(r)} = 1\) y esta muestra de referencia no se normaliza.