Genètica

Un projecte d’IA per comprendre el genoma humà

L'Idibell forma part del consorci internacional que busca desenvolupar nous tractaments per a malalties que avui no tenen cura

Interpretació del genoma humà
3 min

GinebraUn equip on participa l’Institut d'Investigació Biomèdica de Bellvitge (Idibell) ha posat en marxa un projecte revolucionari per explotar les dades del genoma humà amb intel·ligència artificial. El projecte s’emmarca en l'Structural Genomics Consortium (SGC), un consorci publicoprivat mundial format per set universitats i nou empreses farmacèutiques. L’objectiu és facilitar el descobriment de la funció de moltes de les proteïnes del genoma i accelerar així el descobriment de nous fàrmacs per a malalties que encara no tenen cura.

Tot i que fa més de 25 anys que es va seqüenciar el genoma humà, els científics encara coneixen molt poc de les funcions de cadascun dels gens que hi conté. Entendre'n la funció és essencial per comprendre molts dels processos que succeeixen al nostre cos i poden desencadenar l’aparició de malalties.

"Un 30% dels gens no sabem què fan perquè ningú els estudia", afirma Albert Antolín, cap del grup de recerca en química mèdica i disseny de fàrmacs de l'Idibell i un dels coordinadors de la iniciativa.

De la mateixa manera, també es desconeixen els compostos químics que interaccionen amb cadascun d’aquests gens i que permeten activar-los o inhibir-los. "Aquest consorci incentiva la recerca en proteïnes poc estudiades", afegeix Antolín.

Un cribratge de milers de proteïnes

Per tenir una millor comprensió dels processos que tenen lloc a l’interior de les cèl·lules cal explotar la gran quantitat de dades que hi ha contingudes al genoma. La intel·ligència artificial es perfila com una eina fonamental per dur a terme aquesta tasca. No obstant això, per poder entrenar els models d’IA cal recollir un gran nombre de dades experimentals.

"La limitació és que no hi ha prou dades per entrenar bé els models i s’entrenen amb conjunts de dades molt petits i fragmentats", declara Antolín, que afegeix que "l’objectiu durant els pròxims cinc anys és generar una quantitat enorme de dades per crear models d’IA més precisos". El projecte s’emmarca dins una iniciativa global anomenada Target 2035, que ambiciona descobrir un compost químic per a cada proteïna humana d'aquí a l'any 2035.

L’article amb els detalls del projecte es publicarà pròximament a la revista Nature Reviews in Chemistry. Mitjançant tècniques avançades de cribratge, el projecte creuarà experimentalment més de mil proteïnes presents al genoma humà amb milers de milions de compostos químics els pròxims cinc anys.

"No n'hi ha prou que un compost químic s'uneixi a la proteïna, també cal que aquest compost sigui selectiu". L’objectiu a llarg termini és realitzar aquest mateix procés amb les aproximadament 20.000 proteïnes que formen el genoma. L’estudi de les funcions d’una gran varietat de proteïnes en condicions fisiològiques o patològiques permetria conèixer com inhibir-les, per exemple. Això podria tenir importants conseqüències en el tractament i la prevenció de molts tipus de càncer així com de malalties neurodegeneratives com l’Alzheimer.

Un projecte de ciència oberta

El projecte Target 2035 s’engloba en una iniciativa de ciència oberta amb l’objectiu de facilitar el descobriment de nous fàrmacs amb un especial èmfasi en l’estudi de proteïnes poc estudiades. Les dades extretes pel consorci podran ser utilitzades per qualsevol centre de recerca o empresa farmacèutica per entrenar els seus propis models d’IA. "És molt important que la ciència fonamental sigui oberta i que tothom pugui accedir a aquesta informació", comenta Antolín.

Aquest projecte és una col·laboració entre institucions públiques de renom i grans entitats privades del món farmacèutic. "La recerca en moltes malalties requereix assajos clínics que són molt costosos. La col·laboració publicoprivada accelera aquest procés sobretot a les primeres etapes del desenvolupament d’un nou fàrmac", explica Antolín.

Una xarxa mundial d’experts que hi donen suport

Per avançar en la creació de models potents i precisos, la col·laboració té en el punt de mira la realització de competicions obertes, on diferents centres de recerca i institucions posin a prova els seus sistemes d’intel·ligència artificial. Aquestes competicions permeten comparar el rendiment dels diversos models de forma directa i també l’intercanvi d’idees i informació d’una manera col·laborativa. El primer repte competitiu, anomenat Dream Challenge, està obert i els equips que vulguin poden inscriure-s'hi i tenir accés a les dades. "Els equips participants disposen de conjunts de dades molt grans provinents dels repositoris d'interacció de dades genòmiques per entrenar els seus models. El repte és predir amb precisió el resultat d’un altre conjunt de dades diferent", explica Antolín.

D’entre els participants en aquesta competició hi ha una xarxa mundial de científics experts en IA i química computacional anomenada MAINFRAME, liderada pel mateix Antolín i que ja té més de 180 membres procedents de 43 països. La idea al darrere d’aquestes competicions és també participar en els debats que es generin al voltant de la manera de millorar els models d’aprenentatge automàtic i d’IA. "Hem d'aconseguir que en aquestes competicions hi participi molta gent. És la millor manera d’aprendre i progressar", conclou Antolín.

stats
OSZAR »