GCAT presenta una nueva herramienta abierta para facilitar la reutilización de datos genómicos
El equipo de GCAT|Genomes for Life, un proyecto estratégico del Instituto de Investigación Germans Trias i Pujol (IGTP), ha desarrollado PolyGenie, una nueva herramienta que facilita la exploración y reutilización de datos genómicos por parte de la comunidad investigadora. Esta iniciativa representa un nuevo paso en la estrategia del proyecto para promover datos FAIR, recursos reutilizables e infraestructuras abiertas al servicio de la investigación biomédica. La plataforma y su aplicación en la cohorte GCAT se describen en un artículo publicado en la revista NAR Genomics and Bioinformatics.
La generación de datos es solo el primer paso del proceso científico. Su valor aumenta cuando estos datos pueden reutilizarse, combinarse con otras fuentes de información y transformarse en nuevo conocimiento. Con esta visión, el equipo de GCAT ha contribuido al desarrollo de PolyGenie, una herramienta diseñada para facilitar el análisis, la exploración y la reutilización de datos genómicos por parte de la comunidad investigadora.
La plataforma se ha creado para facilitar los llamados estudios phenome-wide association (PheWAS), una aproximación que permite analizar cómo la predisposición genética a una determinada enfermedad o característica se relaciona con cientos o miles de otros fenotipos, incluidas enfermedades, factores de estilo de vida o datos moleculares. Para ello, PolyGenie utiliza puntuaciones de riesgo poligénico (polygenic risk scores, PRS), que integran el efecto de miles de variantes genéticas para estimar la susceptibilidad a distintos rasgos y enfermedades.
Más de 200.000 asociaciones analizadas con datos de la cohorte GCAT
Para demostrar sus capacidades, los investigadores aplicaron PolyGenie a los datos de la cohorte GCAT, un estudio poblacional que incluye cerca de 20.000 personas de entre 40 y 65 años de Cataluña. Para esta implementación se analizaron cerca de 5.000 participantes genotipados, combinando 135 puntuaciones de riesgo poligénico con 1.483 fenotipos diferentes, incluidas enfermedades, variables de estilo de vida y datos metabolómicos. Esto permitió evaluar más de 200.000 posibles asociaciones entre riesgo genético y fenotipos, demostrando la capacidad de la plataforma para explorar de forma sistemática las relaciones entre el riesgo genético y una amplia variedad de características relacionadas con la salud.
Como ejemplo, el equipo exploró las relaciones entre una puntuación de riesgo asociada a la fragilidad y distintos resultados clínicos. Los análisis mostraron que la prevalencia de la obesidad aumentaba progresivamente a medida que aumentaba el riesgo genético de fragilidad. También se observó una asociación entre este riesgo genético y el trastorno depresivo mayor, con una prevalencia más elevada en mujeres. Este tipo de análisis ilustra la capacidad de PolyGenie para identificar patrones compartidos entre enfermedades y factores biológicos, facilitando la generación de nuevas hipótesis de investigación.

Reutilizar datos genómicos para generar nuevo conocimiento
"Aunque ya existen herramientas para calcular puntuaciones de riesgo poligénico y otras plataformas para visualizar resultados, hasta ahora faltaban recursos que facilitaran la aplicación sistemática de este tipo de análisis en diferentes cohortes. PolyGenie cubre este vacío mediante un pipeline de código abierto desarrollado con Nextflow, diseñado para analizar puntuaciones de riesgo poligénico independientemente del método utilizado para generarlas, lo que facilita su aplicación en distintos entornos de investigación", explica Natàlia Blay, investigadora de GCAT y coautora del estudio.
Otra de las fortalezas de la plataforma es que incorpora herramientas de visualización interactiva que facilitan la exploración de los resultados. Además, puede adaptarse fácilmente a nuevas cohortes mediante archivos de configuración y metadatos, sin necesidad de modificar el código.
Para GCAT, esta iniciativa representa un paso más en la construcción de recursos abiertos para la investigación. Durante los últimos años, la cohorte ha evolucionado desde un recurso poblacional hacia una plataforma científica que promueve la reutilización responsable de datos, la colaboración entre instituciones y el desarrollo de nuevos recursos para la comunidad investigadora. PolyGenie ejemplifica esta evolución, transformando información genómica compleja en un recurso más accesible para investigadores que trabajan en ámbitos como la medicina de precisión, la genética poblacional o el estudio de los determinantes biológicos de la salud.
Como recurso integrado en el nodo español de ELIXIR Spain y conectado con infraestructuras europeas como el European Genome-phenome Archive (EGA), GCAT está plenamente alineado con los principios de la ciencia abierta y de los datos FAIR (Findable, Accessible, Interoperable and Reusable). "La ciencia abierta no consiste únicamente en compartir datos. Consiste en crear las herramientas y las infraestructuras que permitan transformar esos datos en conocimiento útil para la sociedad", comenta Xavier Farré, investigador de GCAT y coprimer autor del estudio. Añade también que "iniciativas como PolyGenie ejemplifican cómo la inversión pública no solo permite generar datos de gran valor científico, sino también desarrollar las infraestructuras digitales necesarias para que esos datos sean accesibles, reutilizables y útiles".
El siguiente paso: incorporar los datos de toda la cohorte GCAT
Este avance ha sido posible gracias a la financiación de los Fondos de Resiliencia a través del proyecto GEPETO (Genome Profiling in the GCAT, an Electronic Health Record Population-Based Cohort Study to Improve Prevention, Diagnosis and Treatment of Common Diseases Using Polygenic Risk Scores; TED2021-130626B-I00), financiado por el Ministerio de Ciencia, Innovación y Universidades desde 2023. Este proyecto estratégico tiene como objetivo principal completar el genotipado de toda la cohorte GCAT y poner estos datos a disposición de la comunidad científica como un recurso abierto, interoperable y de alto valor para la investigación biomédica.
El estudio actual y la demostración de la herramienta PolyGenie se han desarrollado sobre los primeros 5.000 participantes genotipados de la cohorte. Sin embargo, en los próximos meses se incorporarán los datos de cerca de 20.000 participantes, generados en el marco del proyecto GEPETO, completando así el recurso poblacional previsto inicialmente. Esta ampliación multiplicará el potencial de la cohorte para estudios genómicos, epidemiológicos y de medicina de precisión.
Referencia
Farré X, Gasco M, Blay N, de Cid R. PolyGenie: a reproducible Nextflow pipeline for phenome-wide association studies using polygenic risk scores. NAR Genom Bioinform. 2026 Jun 9;8(2):lqag056. DOI: 10.1093/nargab/lqag056.