IA matemática para ciencias moleculares

By Abner Roa | Created: August 23, 2023 | Last updated: June 19, 2025 | Read Time: 11 minutes

ciencias moleculares

Las ciencias basadas en datos están ampliamente consideradas como el cuarto paradigma de las ciencias que cambiará fundamentalmente la sociedad y nuestra vida cotidiana. De hecho, los modelos de inteligencia artificial (IA) ya han revolucionado y transformado varios sectores con un uso intensivo de datos. Los modelos de aprendizaje automático y aprendizaje profundo han logrado un rendimiento extraordinario sin precedentes para el análisis de datos de imágenes, texto, audio, vídeo y redes. Los grandes éxitos se deben principalmente a tres razones, a saber, la acumulación de una cantidad gigantesca de datos, una potencia computacional cada vez mayor y el diseño de algoritmos altamente eficientes. Además, el notable logro de AlphaFold2 para los problemas de plegamiento de proteínas ha inaugurado una nueva era para el análisis de datos moleculares basado en IA para materiales, química y biología.

El entusiasmo y las oportunidades van acompañados de retos. En la actualidad, uno de los principales retos del análisis de datos moleculares basado en la IA es la representación molecular, que consiste en identificar o diseñar descriptores moleculares o huellas dactilares adecuados. Los descriptores adecuados deben preservar las propiedades moleculares más importantes e intrínsecas y la información que determina directamente las funciones moleculares. De este modo, pueden ser mejor "comprendidos" por los modelos de aprendizaje automático. De hecho, el rendimiento de muchos métodos de aprendizaje depende en gran medida de la elección de la representación y featurización de los datos, lo que constituye un problema de larga data para la quimioinformática y la bioinformática. Los descriptores moleculares tradicionales son propiedades obtenidas a partir de la geometría/topología estructural, la conformación química, el grafo químico, así como la fórmula molecular, la hidrofobicidad, las propiedades estéricas y las propiedades electrónicas. Estos descriptores se utilizan ampliamente en la relación cuantitativa estructura-actividad (QSAR) y en los modelos de aprendizaje.

La IA matemática para las ciencias moleculares se propone para la representación molecular, la featurización y el aprendizaje. Como se ha ilustrado anteriormente, varios tipos de datos, en particular los datos moleculares de materiales, química y biología, pueden representarse utilizando modelos topológicos, incluidos grafos, complejos simpliciales, hipergrafos, etc. A partir de estas representaciones, se obtienen diversas invariantes matemáticas utilizando modelos matemáticos avanzados de topología algebraica, geometría discreta, combinatoria, etc. Estas invariantes matemáticas se utilizan como características de entrada para los modelos de aprendizaje. A diferencia de los modelos anteriores, los datos moleculares se modelan utilizando topologías de mayor dimensión, como complejos simpliciales e hipergrafos, y representaciones multiescala inducidas por filtración. Además, los rasgos basados en invariantes matemáticos caracterizan las propiedades más intrínsecas y fundamentales y tienen una mejor transferibilidad para el aprendizaje de modelos.

Se puede encontrar una breve introducción al área en las conferencias de la escuela de invierno de 2021 en Dalian, la charla de AATRN y los trabajos del profesor Guowei Wei (noticias de SIAM, charla de Harvard, noticias de D3R).

Damos la bienvenida a estudiantes y postdoctorados altamente motivados para que se unan a nuestro grupo.

  • Aprendizaje automático basado en espectros persistentes (PerSpect ML) para el diseño de fármacos

ciencias moleculares

La relación estructura-función tiene una importancia esencial para el análisis de la flexibilidad, la dinámica, las interacciones y las funciones biomoleculares. La topología estudia la información de redes y conexiones dentro de los datos y proporciona una forma eficaz de caracterización de estructuras. Como se ilustra en las figuras, existen tres representaciones topológicas básicas para las estructuras moleculares: el grafo, el complejo simplicial y el hipergrafo. A partir de estas representaciones pueden obtenerse características para el aprendizaje de modelos. La idea esencial es utilizar propiedades basadas en el espectro propio como descriptores moleculares.

Nuestra teoría espectral persistente (PerSpect) abarca tres modelos básicos: el grafo PerSpect, el complejo simplicial PerSpect y el hipergrafo PerSpect. Estos modelos son métodos espectrales multidimensionales basados en filtraciones. Desde el punto de vista matemático, la teoría espectral de grafos, el complejo simplicial espectral y el hipergrafo espectral se han desarrollado a partir de grafos, complejos simpliciales e hipergrafos. Estos modelos utilizan distintos tipos de matrices de conexión, en particular, matrices laplacianas (combinatorias) de Hodge, para representar la conexión de estructuras. La representación multidimensional se consigue mediante un proceso de filtración. La persistencia y la variación de la información del espectro propio durante el proceso de filtrado se caracterizan por funciones o atributos persistentes, que se utilizan posteriormente como características moleculares o huellas dactilares.

Referencia: Zhenyu Meng y Kelin Xia, "Persistent spectral based machine learning (PerSpect ML) for protein-ligand binding affinity prediction", Science Advances (2021).

  • Aprendizaje automático basado en la curvatura de Ricci persistente

ciencias moleculares

La curvatura de Ricci es uno de los conceptos fundamentales de la geometría diferencial y la física teórica. Se han desarrollado dos formas discretas de curvatura de Ricci, a saber, la curvatura de Ricci de Ollivier (ORC) y la curvatura de Ricci de Forman (FRC), para caracterizar distintos aspectos de la curvatura de Ricci clásica. La ORC se define como la distancia de Wasserstein entre dos medidas de probabilidad asociadas en espacios métricos. Capta las propiedades de agrupación y coherencia de las estructuras globales y locales de las redes. En cambio, la FRC se define como una propiedad combinatoria de los símplex superior-adyacente, inferior-adyacente y paralelo en complejos CW. Esta curvatura combinatoria puede derivarse directamente de la descomposición combinatoria Bochner-Weitzenbock. Caracteriza la propiedad de dispersión geodésica y la información topológica algebraica dentro de las redes. Aunque las dos formas discretas pueden tener valores totalmente distintos, a veces incluso signos, para las subestructuras de red, se ha comprobado que están muy correlacionadas en varias redes complejas. En general, las ORC o FRC positivas suelen encontrarse en conglomerados o "comunidades" densamente empaquetados, mientras que las ORC o FRC negativas suelen representar puentes o enlaces entre conglomerados.

La curvatura de Ricci persistente se propone para combinar representaciones multiescala basadas en la filtración con curvaturas de Ricci para la featurización molecular. Las curvaturas de Ricci se evalúan sistemáticamente en todos los gráficos/complejos simplificados/hipergráficos en el proceso de filtrado. Las propiedades estadísticas y combinatorias de las curvaturas de Ricci durante el filtrado se utilizan como descriptores moleculares.

Referencias: JunJie Wee y Kelin Xia, "Forman persistent Ricci curvature (FPRC) based machine learning models for protein-ligand binding affinity prediction", Briefings In Bioinformatics (2021)

JunJie Wee y Kelin Xia, "Ollivier persistent Ricci curvature (OPRC) based machine learning for protein-ligand binding affinity prediction", Journal of Chemical Information and Modeling, https://doi.org/10.1021/acs.jcim.0c01415 (2021)

  • Aprendizaje automático basado en hipergrafos persistentes

ciencias moleculares

Los hipergrafos son potentes representaciones topológicas que pueden caracterizar información estructural más general que los grafos y los complejos simpliciales. Un hipergrafo se compone de hiperborde, que son conjuntos de vértices. En esencia, un hipergrafo puede considerarse una generalización de los símplex sin la proximidad en condiciones de contorno. Las interacciones entre moléculas a nivel atómico pueden representarse bien como hipergrafos. Matemáticamente, un hipergrafo puede definirse como un conjunto de vértices (átomos) que tienen al menos uno de cada molécula. Por ejemplo, en las interacciones proteína-ligando, un hipergrafo se define entre los átomos de la proteína y el ligando, pero tiene al menos un átomo de la proteína y otro del ligando. De este modo, los hiperconjuntos representan interacciones (de muchos átomos) entre átomos de proteína y ligando.

Los modelos de elementos específicos se utilizan ampliamente para descomponer complejos moleculares en una serie de combinaciones de átomos específicos. Más concretamente, las proteínas pueden descomponerse en al menos 5 tipos de conjuntos de átomos, es decir, C, O, N, S y H, mientras que los ligandos suelen tener al menos 10 tipos de átomos, entre ellos C, N, O, S, P, F, Cl, Br, I y H. De este modo, pueden obtenerse hasta 50 combinaciones de átomos y construirse los hipergrafos correspondientes. Los invariantes topológicos y geométricos pueden obtenerse sistemáticamente a partir de estos hipergrafos y utilizarse posteriormente como características para modelos de aprendizaje automático.

Referencia: Xiang Liu, Huitao Feng, Jie Wu y Kelin Xia, "Persistent spectral hypergraph-based machine learning (PSH-ML) for protein-ligand binding affinity prediction", Briefings In Bioinformatics (2021).

Xiang Liu, Xiangjun Wang, Jie Wu, y Kelin Xia, "Hypergraph-based persistent cohomology (HPC) for molecular representations in drug design", Briefings In Bioinformatics (2021)

Modelización geométrica y variacional

  • Modelos variacionales multiescala

ciencias moleculares

Desarrollamos modelos geométricos y algoritmos computacionales para estructuras biomoleculares a partir de dos fuentes de datos: Protein Data Bank (PDB) y Electron Microscopy Data Bank (EMDB) en la representación euleriana (o cartesiana). La superficie molecular (MS) contiene singularidades geométricas no suaves, como cúspides, puntas y facetas auto-intersectivas, que a menudo conducen a inestabilidades computacionales en simulaciones moleculares y violan el principio físico de minimización de energía libre de superficie. Se proponen definiciones variacionales de superficies multiescala basadas en flujos geométricos y análisis de solvatación de sistemas biomoleculares. Las superficies resultantes están libres de singularidades geométricas y minimizan la energía libre total del sistema biomolecular. Los filtros no lineales de alto orden basados en ecuaciones diferenciales parciales (EDP) se emplean para el procesamiento de datos EMDB. Tras la construcción de las superficies multiresolución de proteínas, exploramos el análisis y la caracterización de la morfología de la superficie mediante la consideración de la curvatura gaussiana, la curvatura media, la curvatura máxima, la curvatura mínima, el índice de forma y la curvatura. Basándonos en la curvatura y el análisis electrostático de nuestras superficies multiresolución, introducimos un nuevo concepto, la curvatura polarizada, para la predicción de sitios de unión a proteínas.

  • Análisis de la flexibilidad y rigidez de las proteínas

ciencias moleculares

La fluctuación estructural de las proteínas, medida normalmente por los factores de Debye-Waller o los factores B, es una manifestación de la flexibilidad de las proteínas, que está estrechamente relacionada con su función. El índice de flexibilidad-rigidez (FRI) es un método propuesto recientemente para la construcción de funciones de rigidez atómica necesarias en la teoría de la elasticidad continua con rigidez atómica, que es un nuevo formalismo multiescala para describir sistemas biomoleculares excesivamente grandes. El método FRI analiza la rigidez y la flexibilidad de las proteínas y es capaz de predecir los factores B de las proteínas sin recurrir a la diagonalización de matrices. Un supuesto fundamental utilizado en el FRI es que las estructuras de las proteínas están determinadas únicamente por diversas interacciones internas y externas, mientras que las funciones de las proteínas, como la estabilidad y la flexibilidad, están determinadas únicamente por la estructura. De este modo, se puede predecir la flexibilidad de la proteína sin recurrir al Hamiltoniano de interacción de la proteína. Además, proponemos algoritmos FRI anisotrópicos (aFRI) para el análisis de la dinámica colectiva de proteínas. Los vectores propios obtenidos a partir de los algoritmos aFRI propuestos son capaces de demostrar movimientos colectivos.

Computación científica

  • Método MIB para el problema de la interfaz multimaterial

ciencias moleculares

Los problemas de interfaz multimaterial están omnipresentes en la ciencia, la ingeniería y la vida cotidiana. La solución de esta clase de problemas se convierte en un reto excepcional cuando más de dos materiales heterogéneos se unen en un punto del espacio y forman una singularidad geométricaprimaria. Basándose en el método MIB, se han construido varios esquemas para resolver ecuaciones elípticas 2D con coeficientes discontinuos asociadas a interfaces de tres materiales. La idea esencial es extender suavemente las funciones a través de la interfaz y emplear los valores ficticios en los puntos irregulares. Para las singularidades geométricas, se consideran simultáneamente dos conjuntos de condiciones de interfaz. Se realizan experimentos numéricos intensivos para validar los esquemas propuestos. Se obtiene una precisión de segundo orden para las singularidades geométricas y geométricas complejas.

  • Método MIB basado en malla adaptativa

ciencias moleculares

Los métodos de deformación de malla fallan para problemas de interfaz de EDP elípticas, ya que se requieren condiciones adicionales de salto de interfaz para mantener la buena propuesta de la ecuación gobernante. Se introduce una estrategia de malla deformada adaptativa basada en una técnica de interfaz para resolver problemas de interfaz elípticos. Aprovechamos la alta precisión, flexibilidad y robustez del método MIB para construir un método de interfaz basado en malla deformada adaptativamente. El método propuesto genera mallas deformadas en el dominio físico y resuelve las ecuaciones gobernadas transformadas en el dominio computacional, que mantiene mallas cartesianas regulares. La deformación de la malla se realiza mediante una EDP de transformación de malla, que controla la redistribución de la malla mediante un término fuente. El término fuente consiste en una función de monitorización, que construye reglas de contracción de la malla. Tanto las mallas deformadas basadas en la geometría de la interfaz como las mallas deformadas basadas en el gradiente de solución se construyen para reducir los errores en la resolución de problemas elípticos de interfaz. El método de interfaz basado en malla deformada adaptativa propuesto se valida ampliamente mediante numerosos experimentos numéricos. Los resultados numéricos indican que el método de interfaz basado en malla deformada adaptativamente supera al método MIB original para tratar problemas de interfaz elíptica.

  • Método MIB Galerkin

ciencias moleculares

Se desarrolla una formulación MIB Galerkin para resolver el problema de la interfaz elíptica. En este enfoque, construimos dos conjuntos de elementos, respectivamente, en dos subdominios extendidos, que incluyen ambos la interfaz. Como resultado, los dos conjuntos de elementos se solapan cerca de la interfaz. Las soluciones ficticias se definen en la parte solapada de los elementos, de modo que las operaciones de diferenciación de las EDP originales puedan discretizarse como si no hubiera interfaz. Los coeficientes adicionales de las funciones de base polinómica, que proporcionan los elementos superpuestos y resuelven las soluciones ficticias, se determinan mediante condiciones de salto de interfaz. Por consiguiente, las condiciones de salto de interfaz se aplican rigurosamente en la interfaz. El presente método utiliza mallas cartesianas para evitar la generación de mallas en los métodos de elementos finitos (MEF) convencionales. La precisión, estabilidad y robustez del método MIB Galerkin 3D propuesto han sido ampliamente validadas. Se ha confirmado una precisión cercana al segundo orden. Hasta donde sabemos, es la primera vez que un MEF muestra una convergencia cercana al segundo orden en la resolución de la ecuación de Poisson con superficies proteicas realistas. Además, el presente trabajo ofrece el primer método conocido de precisión cercana al segundo orden para soluciones C_1 continuas o H_2 continuas asociadas con una interfaz Lipschitz continua.

Original article: https://personal.ntu.edu.sg/xiakelin/research.html


Author profile
Abner Roa

A seasoned writer, Abner Roa excels in weaving compelling stories and detailed analyses across various topics. With a sharp eye for detail, he provides thought-provoking articles that resonate with readers on multiple platforms, from print to digital media.


Related Articles
logo
Estadísticas Descriptivas Estadísticas Descriptivas CSR
Original article: https://hawksites.newpaltz.edu/glenngeher/descriptivestats/By: Dr. Glenn Geher
logo
Una charla divertida sobre teletransportación Una charla divertida sobre teletransportación CSR
Artículo original: https://www-users.york.ac.uk/~sb54/tport.html
logo
Limitaciones de la arquitectura IBM PC Limitaciones de la arquitectura IBM PC CSR
Limitaciones de la arquitectura IBM PC
logo
Confrontación con las Autoridades en Greenville, Alabama Confrontación con las Autoridades en Greenville, Alabama CSR
Articulo Original: https://www.crmvet.org/lets/65wolfe.htm