University of Valencia logo Logo Computer Science Department Logo del portal

Antonio Fabregat, guanyador del Premi Extraordinari de Doctorat de la UV

  • July 12nd, 2021
Antonio Fabregat, guanyador del Premi Extraordinari de Doctorat de la UV

Antonio Fabregat Mundo ha rebut el Premi Extraordinari de Doctorat en l'àrea d'Enginyeria atorgat per la Universitat de València per al curs 2020-2021. Aquest premi destaca l'aplicació de l'enginyeria informàtica en l'àrea de la biomedicina el valor de la qual es posa de manifest en la seva tesi doctoral «Performance optimisation of biological pathway data storage, retrieval, analysis and its interactive visualisation».

La tesi va ser dirigida pels doctors Pablo Marín, expert en bioinformàtica clínica, i Vicente Arnau, professor de la ETSE-UV. L'objectiu d'aquesta recerca era optimitzar el rendiment de l'emmagatzematge, accés, anàlisi i visualització interactiva de dades de rutes biològiques (biological pathways). Per a això, Fabregat va adoptar una sèrie de noves tecnologies i una varietat d'estructures de dades, algorismes i estratègies altament optimitzades en les diferents capes del programari. Tot això amb l'objectiu de construir una solució robusta, d'alt rendiment i extensible alhora que mantenible. Aquesta solució està implantada en Reactome, una base de dades de rutes biològiques accessible públicament.

Entrant en els detalls sobre el treball, cal dir que les rutes biològiques estan compostes per una sèrie de petits passos, anomenats reaccions, mitjançant els quals les cèl·lules controlen el seu metabolisme i funcionalitat. Així mateix, el conjunt de rutes biològiques està connectat entre si formant una complexa xarxa entrellaçada. El primer desafiament que Fabregat va haver de superar va ser dissenyar i desenvolupar una eina web per a l'exploració interactiva de rutes biològiques anomenada «Pathway Browser». Aquesta eina va ser creada amb el doble objectiu de ser usada a gran escala al mateix temps que havia de ser extensible per a facilitar la integració de diferents mòduls que, entre altres coses, permetessin als usuaris incloure i analitzar les seves pròpies dades.

En bioinformàtica, els mètodes d'anàlisis de rutes biològiques es poden usar per a identificar les proteïnes o gens principals, dins d'una ruta biològica coneguda, respecte a un experiment determinat o a una condició patològica. Aquests mètodes també es poden usar per a definir noves rutes biològiques a partir de proteïnes o gens identificats com a elements principals en un experiment. Segons indica Fabregat «un altre desafiament en aquesta tesi va ser el desenvolupament d'una eina d'alt rendiment per a permetre realitzar l'anàlisi de dades al llarg de tot el genoma en qüestió de segons». Una vegada desenvolupada aquesta eina, anomenada «Pathway Analysis Tool», també es va integrar en el «Pathway Browser» permetent així l'exploració i l'anàlisi de les dades dels usuaris de manera interactiva en el context de les rutes biològiques.

La visualització dels resultats de l'anàlisi de rutes biològiques és un component important dins del procés que segueixen els investigadors per a arribar a una sèrie de conclusions. Per aquest motiu, Fabregat aborda la visualització de rutes biològiques en dos nivells de granularitat; un nivell global, mitjançant el «Pathways Overview», on cada ruta biològica es representa amb un node dins d'un graf els eixos del qual defineixen la seva organització jeràrquica «parent-child» i un nivell específic per a cadascuna de les rutes biològiques, on es mostren les reaccions químiques juntament amb les molècules que formen part d'aquestes, en un component anomenat «Pathway Diagram Viewer».

Tant el «Pathways Overview» com el «Pathway Diagram Viewer» permeten la superposició dels resultats de les anàlisis dutes a terme amb les dades dels usuaris. Amb el «Pathways Overview», l'objectiu és distingir fàcilment els nodes relacionats amb les àrees més importants de la biologia representada en aquestes dades. Una vegada reduït el conjunt de rutes biològiques a investigar, amb el «Pathway Diagram Viewer» l'objectiu és trobar quines molècules, de les especificades en les dades dels usuaris, juguen un paper crucial en la patologia investigada per a poder identificar les que són clau.

En el cas del «Pathways Overview» per a calcular de manera automàtica la disposició gràfica dels nodes del graf, associats amb cadascuna de les rutes biològiques, es va desenvolupar un nou algorisme determinista que segueix una representació radial. Al seu torn, per al «Pathway Diagram Viewer» es va dissenyar i va implementar una nova versió de l'eina que com explica Fabregat; «va aconseguir la càrrega i visualització del 97% dels diagrames emmagatzemats en la base de dades en menys d'1 segon». Aquesta millora en la visualització dels diagrames s'aconsegueix minimitzant la càrrega de treball de la CPU gràcies a l'ús d'una estratègia HTML5 Canvas multicapa i una estructura de dades de partició de l'espai (QuadTree). Un altre avantatge d'aquesta optimització va ser que va permetre introduir una sèrie de noves funcionalitats que milloren encara més l'experiència de l'usuari.

Finalment, per a millorar el rendiment a l'hora d'emmagatzemar i accedir a les dades, el treball es va centrar en l'adopció d'una base de dades de grafs (Neo4j) i en la creació d'un nou servei web (REST API), anomenat «Content Service». Les dades s'emmagatzemen en el graf seguint el complex model definit en Reactome per a representar les rutes biològiques. L'ús de Neo4j i el seu llenguatge de consulta, Cypher, permet un accés eficient a aquestes dades, la qual cosa facilita la seva exploració i el descobriment de nou coneixement. L'adopció d'aquesta tecnologia i estratègia va millorar enormement l'eficiència de les consultes, reduint el temps mitjà de resposta en un 93%.

Accedeix a la tesi: https://roderic.uv.es/handle/10550/67008

Enllaços a la publicació de la tesi: