Invalid Date
Es ingente la cantidad de publicaciones científicas que llevan tratamientos estadísticos.
Los investigadores suelen saber qué quieren estudiar. Diseñan un experimento y observan datos.
Lo que se hace después no lo suelen conocer.
No suelen conocer las técnicas que han utilizado.
Citan los procedimientos estadísticos y no indican el software utilizado si está disponible en la red o, en el caso de que sea propio de los autores, dónde se puede conseguir.
Sin duda alguna el control de la calidad de los tratamientos estadísticos descansa en que cada lector de una publicación científica tenga a su disposición el artículo (que básicamente es la explicación de lo que se ha hecho) así como los datos sin ningún tipo de preprocesamiento.
Se debiera de disponer de todo el código necesario para reproducir todo el tratamiento estadístico realizado con los datos.
Sin esto, no se puede realizar un control adecuado de un tratamiento estadístico de datos de alto rendimiento (de hecho, de ningún tipo de datos).
Esto nos lleva a los conceptos de programación literaria o comentada (literate programming) propuesto por Donald K. Knuth: http://en.wikipedia.org/wiki/Literate_programming y, de un modo más genérico, a la investigación reproducible http://en.wikipedia.org/wiki/Reproducibility
R/Bioconductor incorpora muchas herramientas para realizar investigación reproducible: http://cran.r-project.org/web/views/ReproducibleResearch.html
En particular, este texto está realizado utilizando knitr.
Todos los datos que se utilizan están disponibles en bases de datos públicas.
No de todos los datos que se utilizados tenemos los datos sin procesado previo.
Los usamos por haber sido analizados en otros textos o en ejemplos de R/Bioconductor o, simplemente, porque son bonitos de estudiar.