Texto académico
Autores
Eduardo Ochoa Hernández
Lizbeth Guadalupe Villalon Magallan
Nicolás Zamudio Hernández
Pedro Gallegos Facio
Gerardo Sánchez Fernández
Rogelio Ochoa Barragán
Monica Rico Reyes
Módulo 2. La biología de sistemas vista panorámica
2.1 Contexto
La vida en un contexto científico amplio se puede definir como el fenómeno que surge de partículas de materia inorgánica organizadas en moléculas que interactúan entre sí dentro de una célula[1]. Esta propiedad es sistémica porque solo aparece en el sistema y no en sus partes[2]. Los sistemas vivos son estructuras complejas, modulares y jerárquicas. De hecho, un organismo multicelular está formado por moléculas, como ácido desoxirribonucleico (ADN), ácido ribonucleico (ARN), proteínas, lípidos y metabolitos implicados en reacciones químicas y estructuras de las células. Las células se organizan en tejidos que forman órganos con funciones específicas que son necesarias para la salud del organismo. Las propiedades sistémicas aparecen en cada nivel, por ejemplo, homeostasis y respuesta a estímulos en una única red intracelular, metabolismo, crecimiento, adaptación, reproducción en una sola célula. La información que define a un organismo y su capacidad para reaccionar a su entorno está codificada en su ADN y se expresa de forma diferencial en el espacio y el tiempo a lo largo de la vida. Los estudios típicos en biología han utilizado hasta hace poco el enfoque reduccionista y han abordado cuestiones específicas empleando uno o unos pocos tipos de moléculas a pequeña escala, cada una de las cuales arroja luz sobre solo una pequeña fracción de fenómenos enormemente complejos. Algunos hallazgos fueron notables, como el descubrimiento de la estructura del ADN y, más tarde, la forma en que la información genética almacenada en el ADN se transcribe en el ARN mensajero (ARNm) y luego se traduce en proteínas, componentes esenciales de la maquinaria celular y motores de la vida. La acumulación de ese conocimiento sobre moléculas y mecanismos llevó al enfoque "de abajo hacia arriba" para modelar sistemas biológicos, utilizando genes como elementos centrales para simular células, órganos y todo el organismo. Esto era complementario a la visión "de arriba hacia abajo" de un organismo como un sistema fisiológico que integra información de sus diversos componentes y su interacción con el medio ambiente.
Los grandes avances tecnológicos de los últimos 15 años han permitido a los biólogos recopilar información a mayor escala en varios tejidos, incluidas muestras obtenidas con métodos no invasivos, como la recolección de sangre y orina. El aumento masivo del rendimiento ha tenido varias consecuencias. Primero, los biólogos ahora pueden estudiar la gran mayoría de constituyentes, es decir, "algunos", de un elemento dado, por ejemplo, genes de un sistema ya sea un organismo, órgano, célula o para todos los genes de su genoma. En segundo lugar, el gran tamaño de los conjuntos de datos implica que su análisis se basa cada vez más en herramientas computacionales y en el poder disponible para los analistas. En tercer lugar, porque la caracterización de varios "omis", por ejemplo el genoma, transcriptoma, proteoma y metaboloma, progresa rápidamente junto con otras disciplinas como la imagen y, en particular, la investigación farmacéutica con quiminformática, bibliotecas de compuestos, cribado de alto rendimiento, seguridad y datos clínicos[3], ahora se puede intentar desentrañar las interacciones entre los diferentes elementos de un sistema biológico, o 'interactoma', para comprender su comportamiento a través de varias escalas de manera holística, en salud y enfermedad[4].
Aproximaciones a la biología de sistemas en la industria farmacéutica. Ómicas (el enfoque de abajo hacia arriba) se centra en la identificación y medición global de componentes moleculares. El modelado (el enfoque de arriba hacia abajo) intenta formar modelos integradores (a través de escalas) de la fisiología y la enfermedad humanas, aunque con las tecnologías actuales, dicho modelado se centra en preguntas relativamente específicas a escalas particulares, por ejemplo, a nivel de vías o de órganos. Un enfoque intermedio, con el potencial de unir los dos, es generar datos de perfiles (p. ej., perfiles de actividad biológicamente multiplexados o datos BioMAP) a partir de ensayos de alto rendimiento diseñados para incorporar complejidad biológica en múltiples niveles: múltiples vías activas que interactúan, múltiples células intercomunicadas tipos y múltiples entornos diferentes. Un enfoque de sistemas celulares tan complejo aborda la necesidad de datos sobre las respuestas celulares a los estímulos fisiológicos y a los agentes farmacéuticos como ayuda para los modeladores, y también como un enfoque práctico para la biología de sistemas en la red de señalización celular y las escalas de interacción célula-célula[5].
2.1.2 Objetivos y conceptos
La Biología de Sistemas es el estudio integrador de sistemas complejos en la vida con un enfoque holístico ahora basado en conjuntos de datos a gran escala analizados iterativamente con modelos matemáticos y herramientas de simulación[6]. Comprender cada componente de un sistema complejo de forma aislada no es suficiente para caracterizar el sistema. De hecho, las propiedades del sistema no solo se definen mediante la simple adición de funciones elementales, sino que también surgen de las interacciones entre los elementos[7]. Estas propiedades emergentes se estudian infiriendo redes de interacciones entre estos constituyentes, p. ej. genes, proteínas y ligandos, y desentrañando sus mecanismos reguladores. Debido al gran número de elementos en estas redes, tal esfuerzo se basa en conceptos definidos en el marco de la teoría de sistemas complejos[8] y sus límites de reduccionismo. La biología de sistemas no solo tiene como objetivo comprender las relaciones entre los diferentes niveles de expresión de la información genética, a través de la integración de datos, sino también definir el sistema como un todo y producir un modelo matemático convincente, vinculando las interacciones altamente complejas entre sus componentes a sus propiedades emergentes[9]. En este contexto, la enfermedad puede verse como un cambio de la homeostasis del rango normal debido a un gran conjunto de perturbaciones en la red de biomoléculas que interactúan en todo el organismo. Por tanto, distintas perturbaciones pueden dar lugar a un único fenotipo de enfermedad, de acuerdo con nuestra comprensión de las enfermedades complejas. Por el contrario, el cambio del sistema a una homeostasis saludable se puede lograr de múltiples maneras y apuntando a varios puntos de la red[10].
La biología de sistemas sigue un enfoque integrador e iterativo que se basa en métodos experimentales y matemáticos (Fig. 1.1). En primer lugar, los datos existentes relacionados con los diferentes niveles jerárquicos del sistema y se integran en modelos matemáticos o gráficos para generar hipótesis, para comprender los mecanismos en juego y construir predicciones sobre las funciones de ese sistema. Luego, algunos componentes del sistema se alteran experimentalmente, como modelos in vitro o in vivo de una enfermedad. El resultado se evalúa en el contexto del modelo y las hipótesis iniciales se revisan en consecuencia. Estas hipótesis revisadas finalmente informan nuevos experimentos de perturbación. El enfoque se repite hasta que el modelo simula fielmente el comportamiento del sistema[11]. Se agrega mayor complejidad cuando se consideran los factores ambientales del modelo.
Fig. 2.1 Modelado en biología de sistemas. El modelado comienza con la integración de diferentes datos experimentales en una única base de conocimientos para organizar y almacenar datos. Las descripciones matemáticas de la interacción entre los elementos del modelo permiten (1) la simulación del comportamiento emergente del sistema, (2) la comparación de este comportamiento simulado con datos experimentales, (3) el ajuste del modelo y (4) el diseño de experimentos adicionales. Cuando el modelo se ajusta a los datos experimentales, el estudio del papel de las características particulares del diseño puede ayudar a identificar los mecanismos en juego y los principios del diseño. El modelo también se puede utilizar en el diseño de fármacos, biotecnología o bioingeniería.
2.1.3 Estrategias
Tres estrategias principales apuntan a construir el vínculo entre los componentes del sistema y sus propiedades emergentes: "de abajo hacia arriba", "de arriba hacia abajo" y "medio hacia afuera" (Fig. 2.2[12]). Los pasos principales del enfoque "de abajo hacia arriba" son modelar gráfica o matemáticamente las relaciones entre los componentes del sistema, comenzando con aquellos en el nivel más bajo de la estructura multiescala, por lo tanto, "abajo", p. Ej. genes y proteínas, establezca los parámetros del modelo utilizando valores experimentales y verifique el modelo comparando su comportamiento sistémico con el comportamiento de un sistema real. El término ascendente también se refiere a la dirección elegida: de las propiedades conocidas o supuestas de los componentes se deducen las funciones del sistema[13]. Esta estrategia de biología molecular ha tenido éxito en el modelado de sistemas biológicos con un número relativamente bajo de componentes, por ejemplo para una sola red intracelular o una sola célula procariota. Sin embargo, puede que no sea adecuado para la reconstrucción de la aparición de sistemas más grandes, por ejemplo, el comportamiento fisiológico de todo el cuerpo en mamíferos. Por el contrario, el enfoque "de arriba hacia abajo" o fisiológico se basa en el comportamiento sistémico. Primero implica definir las formas en que la complicada función sistémica de interés varía con las condiciones y/o el tiempo, y luego inferir las estructuras hipotéticas responsables de esta función. Se perturba el comportamiento del sistema y se estudian los efectos a nivel de los componentes del sistema, es decir, genoma, transcriptoma, proteoma y metaboloma. Esta estrategia está limitada en cierta medida por el desafío de inferir secuencias de ADN a partir de fenotipos. Además, los modelos construidos con enfoques descendentes deben actualizarse con cada nuevo experimento utilizando todos los experimentos existentes, lo que hace que los desafíos analíticos y computacionales sean cada vez más difíciles. Por el contrario, los modelos construidos con el enfoque ascendente, como un modelo de celda in silico, comprenden módulos que se actualizan independientemente unos de otros[14]. La estrategia "intermedia" pretende superar las limitaciones intrínsecas de los enfoques anteriores, teniendo en cuenta que las cadenas de causalidad pueden operar en los sistemas biológicos en ambas direcciones, comenzando en cualquier nivel de organización biológica. El comportamiento de un único sistema funcional se modela así en términos de interacciones entre entidades a un nivel suficientemente bien descrito por datos experimentales ("medio"), típicamente de los niveles inferiores de organización, pero no necesariamente hasta las moléculas. Luego, el modelo se extiende a niveles superiores e inferiores ("fuera") de forma iterativa mediante la combinación de enfoques "de abajo hacia arriba" y "de arriba hacia abajo". Se implementó con éxito en el proyecto Physiome[15]. La biología de sistemas jugará un papel crucial en el desarrollo de la medicina personalizada, ya que permitirá la integración de diferentes tipos de datos para perfilar a los pacientes, identificar biomarcadores no sesgados y producir fenotipos de enfermedades precisos. Por tanto, ayudará a la prevención, el diagnóstico y el tratamiento de la Medicina de Sistemas[16].
Fig. 1.2 Estrategias de escala múltiple en Biología de Sistemas. Comenzando a nivel molecular, las interacciones entre el ADN, los factores epigenéticos, el ARN, las proteínas, los lípidos y los metabolitos definen los procesos biológicos básicos necesarios para las funciones de orden superior. Estos procesos están definidos por redes de interacción molecular, que se comunican entre sí dentro de una célula determinada, entre células del mismo tejido o tejidos distintos, o entre órganos de un organismo complejo (http://www.libertadacademica.com/PDFeditorial1/PDF31/ele/).
2.2 Introducción a la genómica funcional, proteómica, metabolómica y bioinformática
La genómica es el estudio de la secuencia, estructura y contenido del genoma, en particular los genes y su número, estructura, función y organización a lo largo del genoma. La genómica funcional es el estudio de la función de los genes y la regulación de su expresión a nivel de la célula, órgano u organismo, espacialmente y en diferentes momentos y/o estado de salud, mediante el descifrado de la dinámica de transcripción, traducción y proteína de genes. Interacciones de proteínas a escala genómica utilizando tecnologías de alto rendimiento. Las principales herramientas experimentales a gran escala utilizadas para estudiar la epigenética (epigenómica) y la expresión génica (transcriptómica) han incluido hasta ahora microarrays y, más recientemente, la secuenciación de próxima generación. La espectrometría de masas se usa ampliamente para estudiar proteínas (proteómica), metabolitos (metabolómica) y, más recientemente, compuestos orgánicos volátiles (COV) en el condensado del aire exhalado (aliento). Los avances técnicos también llevaron al desarrollo de herramientas computacionales para manejar y analizar su salida.
2.2.1 Tecnologías de secuenciación
La secuenciación del genoma completo comenzó con la secuenciación de un bacteriófago en 1977 utilizando la técnica de secuenciación de Sanger. El desarrollo y la maduración de la secuenciación Sanger automatizada de 4 colores produjo los instrumentos que secuenciaron el genoma humano[17]. Posteriormente surgieron varias técnicas de secuenciación de alto rendimiento, o secuenciación de próxima generación (NGS), que eran inferiores a la técnica Sanger automatizada más establecida, siendo más lentas por ejecución, menos precisas, con una longitud de lectura más corta y más costosa, pero muy superior en virtud del número mucho mayor de nucleótidos leídos[18]. Ahora, las estrategias de secuenciación de tercera generación emplean nanoporos y lecturas de una sola molécula, y prometen aumentar el rendimiento y reducir el costo de secuenciación de manera sorprendente. Se están desarrollando herramientas computacionales para procesar la gran cantidad de lecturas cortas y de baja calidad de NGS y ensamblarlas en una secuencia del genoma[19]. Las secuencias del genoma de más de sesenta pro y eucariotas se anotan en los navegadores públicos en línea del genoma[20]. El conocimiento de genomas completos también permitió el estudio a gran escala de la expresión génica y el desarrollo de la genómica funcional. De hecho, NGS se puede utilizar para análisis de secuencias de ADN o ARN y tiene varias ventajas sobre los microarrays: no requiere un diseño de arreglo, permite estudios de genoma completo a mayor escala, resolución mejorada, más flexibilidad, especificidad de alelo, menor costo y cantidad de material de entrada. NGS ahora también permite el descubrimiento rutinario de variantes en exomas completos e incluso genomas grandes[21] como en Human with the 1000 Genomes Project[22], en la investigación del cáncer[23] y estudios de la especificidad de alelos en la expresión génica[24]. NGS también catalizó el desarrollo masivo de la metagenómica[25] y, por lo tanto, las Máquinas de aprendizaje ayudarán a descifrar las interacciones huésped-gen-microbiano[26].
Sin embargo, NGS no es lo suficientemente maduro para su uso rutinario en el campo clínico[27]. La velocidad, la calidad y la gama cada vez mayores de las aplicaciones de los métodos de secuenciación han creado un enorme flujo de datos y requisitos desafiantes relacionados, no solo para la potencia informática, la memoria y el almacenamiento[28], sino también para el intercambio de datos[29]. Las lecturas mapeadas en un genoma de referencia se pueden mostrar con otras fuentes de anotación como NCBI[30] con los navegadores Ensembl[31] y UCSC[32].
2.2.2 Espectrometría de masas
La espectrometría de masas (MS) se basa en la deflexión de átomos cargados por campos magnéticos en el vacío para medir su relación masa/carga (m/z). Un experimento típico sigue cinco pasos: (1) introducción de la muestra, (2) ionización de sus partículas, (3) aceleración, (4) deflexión proporcional a la masa y carga del ion, y (5) detección, registrada como un espectro que muestra picos en un gráfico de cantidad relativa en función de la relación m/z. Varios métodos de introducción, ionización y tipos de espectrómetros permiten una amplia gama de análisis. Los métodos de introducción son la cromatografía de gases (CG) para mezclas térmicamente estables, la cromatografía líquida (LC) para mezclas térmicamente lábiles y las sondas sólidas. Algunos compuestos, como proteínas grandes y polímeros, deben ionizarse directamente. Los métodos de ionización pueden ser duros o blandos. La ionización fuerte introduce una gran cantidad de energía en las moléculas que da como resultado la fragmentación y, por lo tanto, ayuda a identificar el compuesto, pero los espectros resultantes rara vez contienen el ion molecular. ElectroSpray Ionisation (ESI) utiliza alto voltaje para dispersar e ionizar macromoléculas a través de una boquilla de pulverización. Es suave, limita la fragmentación y produce iones de carga múltiple, lo que permite la detección de compuestos grandes con un valor de masa/ carga más baja y, por lo tanto, aumenta el rango de masa del analizador. ESI a menudo se combina con LC/MS. Las mezclas que contienen moléculas no volátiles también se pueden analizar con Fast Atom Bombardment (FAB) y Matrix Assisted Laser Desorption Ionisation (MALDI). MALDI se utiliza para analizar moléculas extremadamente grandes, hasta 200.000 Da, a menudo junto con MS de tiempo de vuelo (ToF). La espectrometría de masas por ionización por desorción láser mejorada en la superficie (SELDI-MS) separa subconjuntos de proteínas fijadas a una superficie de acuerdo con propiedades biofísicas específicas, por ejemplo con hidrofobicidad. Por tanto, el análisis de proteínas, péptidos y nucleótidos se puede realizar con ESI, SELDI, MALDI y FAB[33].
Existen varios tipos de analizadores. En un analizador de masas de cuadrupolo (QMS), los iones se desvían mediante campos eléctricos positivos y negativos oscilantes. Un triple QMS contiene tres QMS uno tras otro donde el primer QMS permite la identificación de compuestos conocidos, el segundo en su fragmentación y el tercero en la identificación de los fragmentos, aclarando así la estructura del compuesto. Otros tipos de analizadores incluyen trampa de iones, ToF, Orbitrap y resonancia de ciclotrón de iones por transformada de Fourier (FT-ICR) con una resolución de masa y una precisión crecientes. Los Orbitraps son más baratos, más robustos y tienen un rendimiento más alto que los FT-ICR. La EM en tándem implica varios pasos de selección del compuesto utilizando EM. Los métodos de EM mencionados anteriormente varían en rendimiento, robustez, sensibilidad, selectividad y facilidad de uso.
2.2.3 Bioinformática
La bioinformática comprende enfoques matemáticos y algoritmos aplicados a la biología y la medicina utilizando herramientas de tecnología de la información, por ejemplo, bases de datos y software de minería[34]. El análisis de datos ómicos suele seguir cuatro pasos: (1) procesamiento de datos e identificación de moléculas, (2) análisis de datos estadísticos, (3) análisis de rutas y redes, y (4) modelado de sistemas. Los ejemplos incluyen el ensamblaje del genoma de novo, la anotación del genoma, la identificación de genes coexpresados ??o expresados ??diferencialmente a nivel de transcripciones o proteínas y la inferencia de redes de interacción proteína-proteína. La bioinformática también permite la integración de conjuntos de datos heterogéneos de alto rendimiento producidos por un estudio dado y conjuntos de datos existentes utilizando herramientas de gestión del conocimiento, anotación y minería de texto, como los dos vocabularios estructurados, Ontología genética (GO) para genes y procesos biológicos asociados, componentes celulares y funciones moleculares[35] y la ontología Microarray Gene Expression Data (MGED[36]), la base de datos PRoteomics IDEntifications (PRIDE[37]), Functional Genomics Experiment data model (FuGE[38]), Systems Biology Markup Language[39], la notación gráfica de biología de sistemas[40], BioMART[41], tranSMART[42], bioXM[43], GARUDA[44], Nexbio[45] e incluye Biología de sistemas[46].
Estos esfuerzos apuntan colectivamente a desentrañar las vías moleculares que sustentan la fisiología y a identificar biomarcadores para describir un sistema con una combinación de medidas ambientales, clínicas y fisiológicas para mejorar la detección y el seguimiento de un fenómeno, como las enfermedades en la investigación médica, para facilitar el diagnóstico y la terapia. El descubrimiento de biomarcadores se basa en dos tipos de estudios: no sesgados, que solo dependen de la técnica utilizada, y dirigidos, que se centran en biomarcadores predefinidos medidos mediante métodos específicos.
Los métodos y herramientas experimentales y bioinformáticos mencionados en el siguiente texto se enumeran en las Tablas 2.1 y 2.2.
Tabla 2.1 Ejemplos de métodos y herramientas para genómica funcional, proteómica y metabolómica. Esta lista no es exhaustiva.
__________________________________________
Métodos de epigenómica: Metilación del ADN: Endonucleasas (MMASS, CHARM, Methyl-seq), conversión de bisulfito (BS) (RRBS, MethylC-seq) y afinidad (MeDIPchip, MeDIP-seq, MDB-seq). A continuación, se pueden medir los niveles de metilación con micromatrices y técnicas de secuenciación; Accesibilidad a la cromatina (DNAseI-seq, FAIRE-seq, Sono-seq, 3C, 4C, 5C, ChIA-PET); Posicionamiento de nucleosomas (CATCH-IT, MNase-se, haploChIP).
Herramientas de epigenómica: Proyecto Enciclopedia de elementos de ADN (ENCODE), el esfuerzo de Epigenomics Roadmap de NIH, el Proyecto de Epigenoma Humano y recientemente BLUEPRINT.
Métodos de transcriptómica: Microarreglo de ADN, SAGE, RNA-seq, ChIP-seq, CLIP-seq.
Herramientas de transcriptómica: ArrayExpress, GEO, MIAME, MINSEQE.
Métodos proteómicos: ELISA, electroforesis en gel 2D, RMN, MS, iTRAQ, SILAC, SRM, SELDIToF herramientas de proteómica MIAPE, TransProteomic.
Métodos metabolómicos: NMR, MS, IMS.
Herramientas de metabolómica: MetabolomeExpress, metaP, KEGG, proyecto del metaboloma humano.
Métodos lipidómicos: MS, orbitraps, IMS.
Herramientas lipidómicas: LIPID MAPS, XCMS, MZmine2.
______________________________________________________
Tabla 2.2 Ejemplos de métodos y herramientas para bioinformática. Esta lista no es exhaustiva.
_____________________________________________________
Bioinformática: Datos de expresión génica de microarrays (MGED) ontología, base de datos de identificaciones proteómicas (PRIDE), modelo de datos de experimentos de genómica funcional (FuGE), lenguaje de marcado de biología de sistemas, notación gráfica de biología de sistemas, BioMART, tranSMART, bioXM [57], GARUDA [58], nexbio.
Clustering: Babelomics, BASE, MCAM.
Selección de características: Sin supervisión, supervisada; filtros (prueba t de Student, prueba de suma de rangos de Wilcoxon, CFS, EFS, filtrado general de Markov), envoltorios (kNN, Naive Bayes, búsqueda secuencial hacia adelante), métodos híbridos, programación matemática, enfoques de procesamiento de señales.
Análisis de predicción: Sin supervisión (agrupamiento, selección de características, reducción de dimensiones, estimación de densidad y aprendizaje de la estructura del modelo, métodos de reducción de dimensiones no lineales); supervisado (SVM, bosque aleatorio); semisupervisado; serie temporal (HMM).
Redes de literatura: NER, iHOP, FActa +, AliBaba, IntAct, CoPub.
Análisis de ruta o Pathway analysis: Filtrado de expresión diferencial, estadísticas de sobrerrepresentación, GSEA, PAGE, GAGE, ontologizer, GeneCodis, análisis de flujo elemental, vías extremas.
_________________________________________________________
2.3 Genómica funcional, proteómica y metabolómica
2.3.1 Epigenómica
La epigenómica es el estudio de todo el genoma de las modificaciones de la cromatina, es decir, el ADN y las proteínas asociadas, que desempeñan un papel importante en la regulación de los genes, las interacciones entre los genes y el medio ambiente, el desarrollo y enfermedades como la inflamación y el cáncer[47]. Tales modificaciones involucran al ADN mismo pero no a su secuencia, es decir, una citosina metilada (mC) adyacente a una guanina (dinucleótidos CpG en mamíferos) y de proteínas de cromatina, es decir, metilación, acetilación y fosforilación de histonas. La epigenómica también cubre la accesibilidad de la cromatina, la remodelación de nucleosomas, las interacciones de cromatina de largo alcance y las firmas de cromatina específicas de alelos. Los avances tecnológicos permiten ahora los estudios de asociación de todo el genoma o EWAS, similar a los estudios de asociación del genoma amplio o GWAS[48], y estudios a gran escala en diferentes tipos de células y tejidos, como en el proyecto ENCyclopedia Of DNA Elements (ENCODE) humano[49], el esfuerzo de NIH Roadmap Epigenomics[50], el Proyecto Epigenoma Humano[51] y recientemente BLUEPRINT que tiene como objetivo determinar el epigenoma de 100 tipos diferentes de células sanguíneas[52].
La metilación del ADN en CpG se estudia ampliamente, ya que media la represión de genes de una manera específica de la célula al evitar que la maquinaria transcripcional acceda al ADN. El ADN metilado se puede detectar con tres tipos de tratamientos de ADN, es decir, endonucleasas, conversión de bisulfito (BS) y afinidad. Los niveles de metilación se pueden medir con micromatrices y técnicas de secuenciación. Las endonucleasas cortan el ADN en sitios específicos, son sensibles a la metilación y permiten varias técnicas de análisis de ADN. Los métodos recientes permiten el análisis de una sola muestra, por ejemplo, evaluación de metilación de muestras individuales basada en microarrays (MMASS[53]), mejores análisis estadísticos y métodos para el diseño de arreglos, por ejemplo con conjunto completo de alto rendimiento para metilación relativa (CHARM[54]) y la secuenciación NGS ampliamente utilizada de ADN enriquecido para regiones que contienen CpG (Metil-seq[55]).
La conversión de BS modifica la citosina no metilada en CpG en un uracilo y, por lo tanto, transforma una diferencia epigenética en una genética detectable mediante microarrays de ADN específicos de metilación con resolución de un solo nucleótido[56]. Excepto por mC, el ADN tratado con BS comprende solo tres tipos de bases y, por lo tanto, tiene una complejidad de secuencia y una especificidad de hibridación reducidas. Esto se supera enriqueciendo los segmentos que contienen CpG como en la secuenciación de bisulfito de representación reducida (RRBS) con tratamiento BS y NGS. Las alternativas incluyen la secuenciación de BS de genoma completo, aunque es costosa, y la MetilC-seq ampliamente utilizada, es decir, NGS de ADN tratado con BS. El rendimiento y la cobertura pueden aumentar con la secuenciación de nanoporos que puede secuenciar mC directamente, sin tratamiento con BS[57].
La identificación de todo el genoma de los sitios de unión al ADN y las proteínas de unión correspondientes se logra principalmente con el enfoque de inmunoprecipitación de cromatina (ChIP) basado en afinidad mediante el cual proteínas de unión al ADN, por ejemplo las histonas y los factores de transcripción se entrecruzan in vivo en células que luego se lisan. El ADN se fragmenta mediante sonificación, se recupera calentando complejos ADN-proteína y se detecta con microarrays (chip-chip) o NGS (seq-ChIP[58]). La inmunoprecipitación de ADN metilado (MeDIP-chip y MeDIP-seq) utiliza un anticuerpo monoclonal contra la citosina metilada para enriquecer el ADN metilado de una sola hebra. Algunas alternativas se basan en cambio en la unión de alta afinidad de un complejo proteico de dominio de unión metil-CpG (MBD) para ADN metilado de doble hebra (por ejemplo, MDB-seq[59]). Los sitios de unión del factor de transcripción se predicen luego en las secuencias identificadas[60]. ChIP también se usa ampliamente para estudiar patrones de modificaciones de histonas y modificadores de cromatina[61]. Puede integrarse a otros conjuntos de datos, como con Segway[62], lo que ayuda al desarrollo del modelo de cromatina[63]. El chip junto con la PCR cuantitativa en tiempo real permite el estudio de la dinámica de las interacciones entre el ADN y las proteínas en células vivas durante varios minutos, y ahora se ha adaptado a la tecnología de microfluidos para reducir el número de células y el tiempo necesario[64].
En los tres tipos de tratamiento, existen al menos 13 métodos analíticos basados ??en matrices y 10 seq, cuya elección depende de sus características, la cobertura y resolución requeridas, los tipos de sesgo, precisión y reproducibilidad, y también del número de muestras, calidad de ADN disponible (alta para técnicas de afinidad) y cantidad (alta para técnicas de nucleasa) y, en particular, para métodos basados ??en matrices: el organismo. Los métodos basados ??en NGS más utilizados se basan en enfoques de BS (RRBS y MethylC-seq) o de afinidad (MeDIP-seq y MBD seq[65]). El procesamiento de datos de microarrays se ocupa de los artefactos de imagen y escaneo, la corrección de fondo, la normalización de lotes y arreglos y la corrección del contenido de GC y la densidad de CpG. La proporción de moléculas metiladas a no metiladas para un locus dado es una métrica ampliamente utilizada. Se analiza con herramientas desarrolladas para datos de expresión génica, potencialmente erróneamente ya que se basan en suposiciones violadas por los datos de metilación del ADN, por ejemplo, independencia del número de sitios metilados y no metilados, y similitud de la intensidad de la señal en las muestras[66]. El procesamiento de las lecturas de secuenciación implica el mapeo de las lecturas del genoma de referencia, el recuento y/o el análisis de los datos de bisulfito[67].
Las regiones genómicas de accesibilidad a la cromatina, es decir, un contenido nucleosómico bajo y una estructura de cromatina abierta, albergan potencialmente secuencias reguladoras y pueden identificarse con un ensayo de hipersensibilidad a la DNAsa I de alto rendimiento (DNAseI-seq también conocido como DHS-seq) [87], aislamiento asistido por formaldehído de reguladores elementos seguidos de secuenciación (FAIRE – seq[68]) y Sono-seq[69]. Y la interacción cromosómica de largo alcance se identifica con captura de conformación cromosómica (3C[70]), 3C en chip (4C[71]), copia de carbón 3C[72] (5C) y se acopla con NGS como en el uso de Hi-C [ 94] y ChIA PET[73]. El posicionamiento y la remodelación de los nucleosomas se estudian con CATCH-IT[74] y MNase-seq[75], mientras que haploChIP identifica perfiles de cromatina específicos de alelos[76], incluidos los SNPS que afectan la expresión génica[77]. Los métodos para integrar datos epigenómicos son recientes y se están desarrollando actualmente. Los ejemplos incluyen la integración con datos de expresión génica, utilizando un modelo empírico de Bayes[78] y la agrupación de datos de metilación del ADN seguidos de análisis de regresión no lineal[79]. Las herramientas de visualización pueden mostrar datos sin procesar en todo el genoma como con Circos[80] o la salida del análisis de una manera similar a la utilizada para GWAS, utilizando el valor p log10, pero en dos ejes: prueba de diferencia en el estado de metilación y prueba de diferencia en la expresión génica[81].
2.3.2 Transcriptómica
La transcriptómica es la identificación y cuantificación de todo el genoma de especies de ARN, como ARNm, ARN no codificantes y ARN pequeños, en salud y enfermedad, y en respuesta a estímulos externos. Con los microarrays de ADN, los niveles de expresión génica se miden como la cantidad de ARN en la muestra que coincide con el conjunto de sondas fijadas en el arreglo; Las moléculas de ARN se marcan con fluorescencia y se hibridan en la matriz donde se supone que la intensidad de la señal medida para una sonda determinada es proporcional a la cantidad de ARN unido a ella. Los cambios en los niveles de expresión entre condiciones experimentales o muestras con o sin enfermedad por un lado y la similitud del patrón de expresión con un gen con función conocida por otro lado indican las funciones más probables de los genes. Existen dos repositorios públicos principales para conjuntos de datos de expresión génica: ArrayExpress[82] y Gene Expression Omnibus (GEO[83]), ambos conformes con las directrices de "Información mínima sobre un experimento de microarrays" (MIAME[84]). Aunque los microarrays son una tecnología establecida y muy utilizada[85], todavía se están desarrollando métodos de procesamiento y análisis de datos. Por ejemplo, estudios recientes afirman que los modelos de ruido de fondo basados ??en la distribución gaussiana para la eficiencia computacional pueden no ser apropiados y los métodos no paramétricos pueden albergar una tasa de falsos positivos más baja[86], mientras que la diferencia promedio ponderada parece ser el mejor método para identificar genes expresados ??diferencialmente. Existen dos alternativas principales basadas en secuenciación que, a diferencia de los microarrays, no se basan en un conjunto de sondas predefinidas y, por lo tanto, se consideran no sesgadas: el análisis en serie de expresión génica (SAGE) y el transcriptoma NGS de todo el genoma (RNA-seq).
SAGE implica etiquetas de secuenciación que son únicas para cada gen y no están definidas a priori. SAGE se utilizó, por ejemplo, para construir perfiles de expresión de ARN no codificantes largos para 26 tejidos normales y 19 cánceres en humanos[87], arrojando luz sobre su función poco conocida[88]. El RNA-seq más reciente proporciona secuencias de transcripciones completas, tiene un ruido de fondo muy bajo, ofrece un rango dinámico muy grande, es altamente preciso y reproducible, permite el descubrimiento de nuevos exones, isoformas y transcripciones RNA-seq ya ha demostrado ser muy prometedor, pero aún no está tan maduro como los microarrays[89]. Las transcripciones raras y transitorias hasta ahora no detectadas por los métodos actuales se identificaron recientemente con transcriptómica dirigida mediante captura en una matriz de mosaico seguida de NGS[90]. Actualmente, algunos protocolos experimentales pueden introducir sesgos debido a los procesos de amplificación, fragmentación y ligadura[91]. El desarrollo de normas y directrices sólidas de control de calidad para microarrays se produjo durante una década, pero debería ser más rápido para RNAseq. Se están desarrollando métodos para describir experimentos que utilizan directrices de 'Información mínima sobre un experimento de secuenciación de alto rendimiento' (MINSEQE) similares a MIAME[92], mapear la gran cantidad de secuencias de lectura corta[93], evaluar los niveles de expresión y detectar transcripciones expresadas diferencialmente[94].
Las estimaciones de los niveles de expresión de las transcripciones de interés deben validarse mediante RT-qPCR y técnicas emergentes como la visualización directa y el recuento de moléculas de ARN[95]. Sin embargo, estos deben estandarizarse y aplicarse en todas las plataformas. Los microarrays siguen siendo relativamente más baratos que RNA-seq, sus sesgos son conocidos y los flujos de trabajo de análisis están maduros. Por lo tanto, todavía se prefieren en el descubrimiento de fármacos, aunque los métodos de RNA-seq probablemente los reemplazarán en los próximos años. Dado que los perfiles de expresión génica obtenidos con ambos métodos se correlacionan bien, la gran cantidad de datos adquiridos con microarrays es complementaria a los nuevos datos producidos por RNA-seq[96].
Otras técnicas como ChIP también se utilizan para identificar proteínas que se unen al ADN (ChIP-seq) y ARN (CLIP-seq también conocido como HITS-CLIP[97]). Estos métodos de alto rendimiento de rápida evolución están mejorando en gran medida nuestra comprensión de la regulación de la expresión génica[98], en los niveles transcripcional y postranscripcional[99].
2.3.3 Proteómica
La correlación entre los niveles de transcripciones y proteínas es incompleta debido a la variación en la velocidad y eficiencia de la traducción y de la degradación del ARNm. Muchas proteínas sufren modificaciones postraduccionales, por ejemplo, fosforilación y ubiquitinación, que modulan su actividad y median en la transducción de señales. Las proteínas también juegan su papel como parte de complejos con otras proteínas o ácidos nucleicos. Un estudio reciente de una línea celular humana identificó más de 10,000 proteínas, con concentraciones que van por encima de siete órdenes de magnitud. Se ha estimado que el proteoma humano comprende varios millones de especies distintas que actualmente no pueden amplificarse y reflejan concentraciones con un rango dinámico muy amplio[100].
Las proteínas se pueden identificar utilizando métodos de anticuerpos de bajo rendimiento, ensayos inmunoabsorbentes ligados a enzimas (ELISA) y electroforesis en gel 2D. La proteómica tiene como objetivo definir todas las proteínas presentes en una célula, un tejido o un organismo (o cualquier otro compartimento biológico) y emplea estudios a gran escala y de alto rendimiento del contenido de proteínas, modificaciones, función, estructura, localización e interacciones. utilizando técnicas de alto rendimiento. Los microarrays de proteínas capturan proteínas usando agentes fijados en su superficie, que pueden ser anticuerpos pero también péptidos, receptores, antígenos, ácidos nucleicos. La detección y cuantificación se basan a menudo en la fluorescencia e identifican interacciones entre proteínas, sustratos de quinasas y activadores de factores de transcripción[101]. La nanoproteómica tiene el potencial de proporcionar métodos rápidos, sensibles y de alto rendimiento utilizando solo una cantidad mínima de muestras[102]. Sin embargo, la EM es actualmente la técnica principal para el estudio del proteoma completo a gran escala con mediciones precisas[103].
La proteómica de escopeta, es decir, LC de escopeta acoplada con MS en tándem (LC -MS/MS) es el enfoque más utilizado. La muestra de péptidos resultante de la digestión de proteínas con tripsina (u otra enzima) se separa mediante cromatografía líquida de alta resolución (HPLC) y los péptidos se identifican mediante EM en tándem: los péptidos se ionizan y separan, produciendo espectros de masas con picos correspondientes a péptidos (primero MS), que luego se identifican mediante una mayor fragmentación y separación de los fragmentos de péptidos resultantes (segundo MS). La inclusión de péptidos sintéticos marcados como muestras de marcado o de adición químicamente (iTRAQ) o metabólicamente (SILAC) mejora la cuantificación[104]. La complejidad de la mezcla se aborda fraccionando la mezcla. La proteómica dirigida permite identificar de 100 a 200 proteínas en una mezcla compleja identificando previamente los '' fragmentos de péptidos de transición '' mediante el uso de un espectrómetro de masas de triple cuadrupolo que separa los fragmentos de péptidos de tripsina y luego los fragmenta aún más en `` transiciones '' 'que se puede cuantificar en el tercer cuadrupolo. Se intenta elegir transiciones que sean exclusivas de proteínas individuales y la adición de péptidos de transición marcados isotópicamente mejora enormemente la cuantificación. La espectrometría de masas dirigida se denomina monitorización de reacciones seleccionadas (SRM) o monitorización de reacciones múltiples (MRM). Recientemente se han desarrollado ensayos de SRM para todo el proteoma humano (más de 20.000 proteínas) (R. Mortiz, comunicación personal). La HPLC-MS es muy sensible, específica y rápida y, por tanto, se utiliza para el bioanálisis, en particular la farmacocinética para medir la velocidad de eliminación del fármaco por el organismo y en el análisis de muestras de orina. Sin embargo, los inconvenientes incluyen un sesgo hacia la identificación de los péptidos más abundantes. SELDI-ToF es más preciso que el enfoque de escopeta y, por lo tanto, se adapta mejor a la cuantificación de biomarcadores, pero puede no ser lo suficientemente preciso para el diagnóstico clínico[105]. Las técnicas recientes producen conjuntos de datos de aproximadamente un millón de espectros, de hasta 100 Gb de tamaño, donde se pueden identificar hasta 8.000 proteínas[106]. El preprocesamiento de espectros en bruto implica filtrado de ruido, sustracción de la línea base, detección de picos y calibración y alineación de mapas LC/MS. El análisis sigue cuatro pasos: (1) identificación de secuencias de aminoácidos, péptidos y proteínas en Peptide-Spectrum Match (PSM), y detección, cuantificación, anotación y alineación de características, (2) análisis de importancia de péptidos y proteínas, (3) descubrimiento y predicción de clases, e (4) integración de datos y análisis de rutas. La identificación de secuencias de aminoácidos implica principalmente la búsqueda de bases de datos de espectros obtenidos experimentalmente o de espectros predichos a partir de secuencias genómicas utilizando digestión in silico, y reportando los PSM con las mejores puntuaciones. La fuerza estadística de las predicciones se indica usando la Tasa de Descubrimiento Falso (FDR) calculada usando bases de datos señuelo o modelos que incluyen las proporciones de identificaciones verdaderas y falsas. Debido a que muchos espectros se asignan a muchos péptidos y muchos péptidos se asignan a muchas proteínas, la identificación de péptidos y proteínas es engorrosa y no está completamente resuelta. El problema se complica aún más por las modificaciones postraduccionales y los polimorfismos de un solo aminoácido. Los métodos actuales identifican aproximadamente dos tercios de los espectros de EM en tándem. Las proteínas se informan sobre la base de la coincidencia de un solo péptido, o más estrictamente de la coincidencia con péptidos específicos de proteasa[107]. Los experimentos se describen utilizando las pautas de Información mínima sobre un experimento de proteómica (MIAPE) similar a MIAME[108].
La diferencia en la abundancia de proteínas se evalúa con la cuantificación de proteínas (estimación de la concentración) y la comparación de clases (cambio en la abundancia entre condiciones). El principio es resumir todos los datos cuantitativos relacionados con la proteína mediante (1) recuento espectral, donde se supone que el número de espectros refleja la abundancia con LC MS-MS, y se limita a grandes cambios para proteínas abundantes en mezclas de baja complejidad, o ( 2) modelos probabilísticos que incorporan todas las características de una proteína y su variación. Estos modelos tienen como objetivo abordar cuestiones importantes, como la representación del diseño experimental, el tratamiento de los datos faltantes y el control de FDR[109]. Estudios recientes han mostrado ejemplos convincentes de esfuerzos proteómicos cuantitativos realizados en diferentes laboratorios y utilizando varias plataformas experimentales. Actualmente, alrededor de dos tercios de las proteínas humanas que se prevé que existan se han detectado con EM, de ahí la necesidad de mejorar la sensibilidad, la reproducibilidad de la identificación y la sensibilidad y precisión de la cuantificación[110].
Las interacciones proteína-proteína y las cascadas de señalización celular se estudian principalmente con los siguientes enfoques: complementación de dos híbridos de levadura, microarrays de proteínas, cromatografía de inmunoafinidad y MS [137], y con un menor rendimiento por inmunoprecipitación y espectrometría de masas en mamíferos[111]. Los intentos de integrar proteómica con otros datos ómicos se ven obstaculizados por los inconvenientes actuales del análisis proteómico: proteoma no muestreado completamente, identificación incierta de la proteína, dificultades para mapear identificadores en las diferentes fuentes ómicas, de ahí la necesidad de bases de conocimiento centradas en proteínas como TransProteomic Pipeline[112], Protein Atlas y neXProt[113].
2.3.4 Metabolómica y lipidómica
2.3.4.1 Metabolómica
La metabolómica es la caracterización de alto rendimiento de la mezcla de todos los metabolitos en un sistema biológico, es decir, moléculas pequeñas endógenas y exógenas[114]. Los metabolitos son lípidos, péptidos y ácidos amino, nucleicos y orgánicos. La metabolómica se usa ahora ampliamente en microbiología, nutrición, agricultura y ciencias ambientales, y en los campos clínico y farmacéutico. Los metabolitos son el producto de reacciones enzimáticas que median procesos biológicos complejos y, por lo tanto, pueden ayudar a comprender los fenotipos. Pueden analizarse mediante espectroscopia de RMN, aunque carece de sensibilidad[115] y la EM (GC y LC) suele preferirse y utilizarse en enfoques dirigidos y no dirigidos. Las estrategias dirigidas son específicas y sensibles, permiten una cuantificación absoluta y, por lo tanto, se utilizan ampliamente en el diagnóstico clínico y el desarrollo de fármacos. Los enfoques dirigidos basados ??en isótopos estables y modelos de redes metabólicas permiten estimar el flujo a través de vías bioquímicas[116]. En contraste, los enfoques no dirigidos albergan una alta cobertura, aunque cualquier identificación de metabolitos es menos específica y sensible, y requiere un análisis computacional más intensivo. Las características que se utilizarán para la identificación se detectan mediante análisis univariados y multivariados y luego se utilizan para buscar en bases de datos como la Enciclopedia de genes y genomas de Kyoto (KEGG[117]).
A menudo se requieren más experimentos para distinguir isómeros y caracterizar metabolitos no identificados utilizando EM en tándem o RMN. La metabolómica también incluye la identificación del sustrato en ensayos in vitro de tres tipos: (1) la proteína se fija a una superficie y se examinan los ligandos, (2) el metabolito se fija y sirve como cebo para las proteínas que interactúan, o (3) se basa en la actividad perfilado de proteínas utilizando sondas químicas y perlas. Por último, pero no menos importante, la ubicación de los metabolitos dentro de las células, tejidos o cuerpos se puede estudiar mediante el acoplamiento de MALDI o MS sin matriz y técnicas de imagen (espectrometría de masas de Imag2, IMS) para obtener espectros escaneando la muestra biológica con el láser y luego compilando un mapa del contenido de metabolitos en esa muestra[118].
Se están desarrollando activamente normas para la descripción de experimentos y herramientas para el procesamiento y análisis de datos metabolómicos[119]. Por ejemplo, MetabolomeExpress y metaP combinan herramientas desde el procesamiento de datos brutos, es decir, la detección de picos de EM, hasta el análisis multivariado. El desarrollo de biomarcadores con metabolómica y la comparación entre conjuntos de datos dependen de: (1) la caracterización de los artefactos técnicos de la EM y las diferencias en los compuestos que discriminan muestras entre analizadores y (2) el tipo de muestra y la variabilidad biológica[120]. El Proyecto del Metaboloma Humano cuantificó más de 4.000 metabolitos en hasta 70 muestras de las 6.826 identificadas por Wishart et al[121].. Otro estudio reciente de metabolómica dirigida a gran escala cuantificó 122 metabolitos en 377 individuos, incluidos pacientes y controles con diabetes tipo 2, e identificó 25 metabolitos en plasma y 15 más en suero con concentraciones diferentes en los dos grupos[122].
2.3.4.2 Lipidómica
Los lípidos desempeñan funciones importantes en la señalización implicada en el metabolismo, el almacenamiento de energía y la proliferación, migración y apoptosis celular[123]. También son los componentes principales de las membranas celulares, junto con las proteínas de membrana. De este modo, mantienen la arquitectura celular y median el tráfico de membranas al permitir el ensamblaje de la maquinaria de proteínas, como por ejemplo en grupos dinámicos que recogen proteínas específicas en balsas de lípidos[124]. Los lípidos son muy diversos en su estructura, propiedades físicas y cantidad. Por ejemplo, los lípidos de señalización y estructurales se encuentran respectivamente en abundancia baja y alta. Los lipidomas, los lípidos presentes en las estructuras biológicas, son poco conocidos en la actualidad[125]. El lipidoma humano puede contener miles de especies[126], mientras que solo el 20% de todos los lípidos pueden haber sido detectables con las tecnologías existentes[127]. Los estudios de lipidómica tienen como objetivo caracterizar el contenido, la localización y la actividad de los lípidos en células y tejidos[128]. La gran mayoría de los lípidos se extraen de células y tejidos lisados, y se analizan con MS ya sea directamente en el método de escopeta, es decir, lipidómica 'de arriba hacia abajo' con analizadores de alta resolución como Orbitraps, o con LC-MS / MS «lipidómica para distinguir lípidos con idéntica relación de carga a masa[129]. Los lípidos también se han analizado con MALDI IMS[130]. Los datos brutos de Lipidomics MS pueden analizarse con herramientas utilizadas para metabolómica, como XCMS[131] y MZmine 2[132].
Los lípidos se identifican y cuantifican mediante el procesamiento de datos sin procesar y el análisis estadístico, seguidos de un análisis de rutas y un modelo[133]. Las principales iniciativas lipidómicas incluyen la "Estrategia de vías y metabolitos lipídicos" (LIPID MAPS), que ha establecido estándares y ha permitido una cuantificación absoluta en lugar de relativa[134], y el lipidoma de macrófagos de ratón[135]. Las cantidades absolutas para proteómica y lipidómica ayudarán a caracterizar complejos que comprenden tanto proteínas como lípidos.
Los futuros avances técnicos deben apuntar a una mayor precisión, mayor coherencia y armonización de los protocolos. Los desarrollos analíticos deben incluir: (1) procesamiento automatizado de datos e identificación y extracción de lípidos, (2) análisis de datos estadísticos para abordar el cálculo de alta dimensionalidad e independiente de la plataforma de la tasa de descubrimiento falso de identificación de lípidos, (3) análisis de vías para identificar bioquímicos, señalización y procesos reguladores que involucran a los lípidos de interés caracterizados en un conjunto de muestras, y (4) modelado en tiempo y espacio dentro del contexto de fisiología y sistemas[136].
2.4 Métodos y herramientas
Las tecnologías actuales de alto rendimiento producen conjuntos de datos muy grandes y han desplazado el cuello de botella de la producción de datos al análisis de datos. Por lo tanto, las herramientas de gestión del conocimiento son muy valiosas para organizar, almacenar y analizar datos, ya sea directamente con software integrado o indirectamente exportando los datos en el formato requerido. Los conjuntos de datos recientes también albergan una dimensionalidad muy alta. La integración de datos tiene como objetivo combinar conjuntos de datos tan grandes y de alta dimensionalidad que difieren en el tipo de datos recopilados. La integración no supervisada tiene como objetivo reducir la dimensionalidad de grandes conjuntos de datos, sin introducir un sesgo inherente a conocimientos e hipótesis previos. Ayuda a detectar patrones dentro y entre conjuntos de datos y complementa las observaciones estándar en la construcción de hipótesis. Luego, estos se prueban analíticamente con métodos supervisados, usualmente solo usando una fracción de las dimensiones disponibles y experimentalmente[137]. A pesar de su poder y sus promesas, la integración de datos es solo un medio para un fin, no un motor automático para generar hallazgos valiosos. De hecho, las respuestas a las preguntas formuladas en un estudio científico dependen directamente del diseño experimental, por ejemplo, los tipos de datos, controles, procesamiento y análisis, y el tamaño de las muestras, dentro de las limitaciones financieras y de tiempo. La siguiente sección describe métodos para agrupamiento, selección de características, análisis de predicción, minería de texto y análisis de rutas (Fig. 2.3).
Fig. 2.3 Descripción general de los métodos de aprendizaje automático. Los métodos supervisados y no supervisados van desde enfoques de reducción de dimensionalidad de nivel inferior hasta técnicas analíticas de nivel superior y sus extensiones para el análisis integrador de datos[138].
2.4.1 Agrupación
Motivación: la agrupación en clústeres es una técnica de exploración de datos para análisis multivariante que divide los datos en función de grupos intrínsecos sin etiquetas predefinidas. Los métodos de agrupamiento se han aplicado a varios aspectos de la investigación biomédica, por ejemplo, expresión génica en el cáncer, para distinguir pacientes o subgrupos de genes en función de los niveles de expresión de un conjunto de genes expresados ??diferencialmente. Los genes agrupados pueden tener funciones similares, estar involucrados en el mismo proceso celular o en vías similares.
Tal conocimiento mejoraría nuestra comprensión de la función de los genes y los procesos biológicos. Los métodos de agrupación se pueden utilizar para visualización, generación de hipótesis y selección de genes para análisis posteriores. Procesamiento previo: la agrupación en clústeres requiere métodos de normalización estándar para datos ómicos[139]. La agrupación requiere específicamente una reducción de dimensionalidad previa y una estandarización de datos, por ejemplo, filtrar genes o proteínas con baja varianza entre las muestras, métodos basados ??en la maximización de una función de covarianzas como en el método de "suma de covarianzas[140]" (SUMCOV), y estandarización de los datos, por ejemplo, estandarización de la desviación absoluta media. Estado de la técnica: se han desarrollado numerosas herramientas de agrupación. Varios algoritmos de agrupación en clústeres conocidos son: agrupación jerárquica, agrupación basada en particiones y densidad y agrupación difusa. Los algoritmos de agrupación desarrollados más recientemente incluyen: métodos subespaciales o bi-agrupación que agrupan tanto genes como muestras[141]. La adquisición automática, el preprocesamiento y el análisis de agrupamiento a través de herramientas basadas en web es posible para varias tecnologías de alto rendimiento, por ejemplo Babelomics[142], entorno de software BioArray (BASE[143]) y metodología de análisis de agrupamiento múltiple (MCAM[144]). Los procedimientos eficientes de validación de grupos son cruciales para la toma de decisiones con una gran cantidad de genes en ausencia de una gran cantidad de muestras y, por lo tanto, serán extremadamente útiles para comprender las interacciones genéticas y diseñar objetivos de fármacos. Casos de uso: la agrupación en clústeres se utiliza ampliamente en el análisis de datos de microarrays y existe una amplia variedad de herramientas. La agrupación de genes puede identificar un grupo de genes con funciones similares, mientras que la agrupación de muestras puede sugerir subgrupos de pacientes para estratificación, respuesta a tratamientos y subtipos o grado de enfermedad, para cáncer de Colon[145], cáncer de mama[146] y asma[147]. Los conglomerados también se pueden integrar con el análisis de rutas[148].
2.4.2 Selección de funciones
Motivación: los métodos de selección de características o atributos tienen una amplia gama de aplicaciones en biología de sistemas. Permiten al experimentador identificar qué genes o proteínas se expresan significativamente diferencialmente en distintas condiciones biológicas en un tipo de célula de interés, y qué subconjuntos de genes o proteínas proporcionan el conjunto combinado de biomarcadores más prometedor para discriminar entre estas condiciones. Además, los enfoques de selección de características, se utilizan a menudo para reducir la dimensión de los datos de entrada antes de aplicar otros métodos de análisis estadístico de nivel superior. Esto alivia una variedad de problemas estadísticos referidos como la maldición de la dimensionalidad en la literatura[149]. Sin embargo, a diferencia de los métodos de reducción de dimensiones basados ??en la transformación de características[150], las características originales de los datos se conservan, lo que facilita la interpretación de los datos en análisis posteriores.
Los algoritmos de selección de características se pueden agrupar en enfoques supervisados[151] ? y no supervisados[152], dependiendo de si incorporan información de etiquetas de clase para las condiciones biológicas. Además, los algoritmos de selección de características que emplean métodos de predicción para puntuar la informatividad de un subconjunto de características se conocen como envoltorios, mientras que otros enfoques univariados y combinatorios para filtrar atributos se denominan filtros[153]. Preprocesamiento: para la mayoría de las plataformas experimentales utilizadas en Biología de sistemas, se requieren varios pasos de preprocesamiento de bajo nivel antes de aplicar métodos de selección de características. Estos incluyen procesamiento de Imag2[154], normalización[155] y enfoques de resumen[156], para datos de expresión génica de microarrays[157] y filtrado de datos brutos[158], detección de picos[159], alineación de picos y métodos de normalización del tiempo de retención para proteómica y metabolómica para datos de espectrometría[160]. Además, algunos métodos de selección de características requieren una discretización previa de los datos, por ejemplo, si se utilizan medidas de asociación especiales, como la información mutua[161].
Estado de la técnica: la elección del método de selección de características depende tanto del objetivo del análisis (por ejemplo identificar biomarcadores individuales o construir un modelo predictivo combinatorio para la clasificación de muestras) como de la compensación deseada entre la eficiencia (la ejecución de la complejidad temporal del algoritmo) y precisión (el poder predictivo de las características seleccionadas). Entre los enfoques de filtro, los estadísticos univariados simples como la prueba t de Student paramétrica y la prueba de suma de rangos de Wilcoxon no paramétrica todavía se utilizan ampliamente, debido a sus ventajas en términos de velocidad y la dificultad de estimar dependencias de características a partir de datos ruidosos de alta dimensión. Métodos combinatorios más complejos como CFS[162], EFS[163] y filtrado general de Markov han ganado influencia recientemente[164].
Los métodos de envoltura son cada vez más populares. Califican subconjuntos de características utilizando métodos de predicción en combinación con un enfoque de exploración espacial de búsqueda y sus selecciones alcanzan el rendimiento predictivo de vanguardia en problemas de clasificación biológica. Los ejemplos incluyen combinaciones de métodos de predicción rápidos y simples[165], por ejemplo kNN y Naïve Bayes, y métodos de búsqueda de exploración espacial, como la búsqueda secuencial hacia adelante[166]. Estos enfoques están siendo reemplazados gradualmente por combinaciones de algoritmos más complejos, incluidos algoritmos evolutivos[167] y métodos de aprendizaje automático basados ??en el núcleo[168]. Finalmente, varias técnicas recientes han mejorado el equilibrio entre velocidad y precisión: (1) combinación de filtros[169], (2) combinación de filtros y envoltorios en métodos híbridos, (3) programación matemática[170] y (4) enfoques de procesamiento de señales[171]. Casos de uso: La identificación y priorización de biomarcadores de genes, proteínas o metabolitos mediante técnicas de selección de características tiene tres objetivos principales: (1) distinguir las condiciones biológicas, por ejemplo, la presencia de cáncer, de infección viral o grados tumorales, (2) median el diagnóstico temprano, la terapia personalizada del paciente, el monitoreo de la progresión de la enfermedad y (3) ayudan a estudiar el tratamiento en un cultivo celular o modelo animal. Sin embargo, los métodos de selección de características también se utilizan para filtrar conjuntos de datos antes de la aplicación de otros métodos de análisis de datos de nivel superior, otros métodos de aprendizaje automático, análisis de sobrerrepresentación de rutas y análisis de redes. Finalmente, la selección de características a menudo se integra con técnicas de clasificación y regresión para disminuir la complejidad de los modelos de aprendizaje automático y maximizar su precisión predictiva.
2.4.3 Análisis de predicción
Motivación: el análisis de predicción se refiere a una familia de métodos que intentan capturar dependencias estadísticas y extraer patrones de un conjunto de datos medidos, para hacer predicciones sobre datos futuros. Estos métodos son muy prometedores en genómica funcional, proteómica, metabolómica y bioinformática, donde las tecnologías recientes proporcionan una gran cantidad de datos, como mediciones de expresión de genes y proteínas, lecturas de secuencias de ADN y ARN. La velocidad a la que se producen estos datos hace que el análisis de predicción automática sea una herramienta indispensable para el biólogo. Los métodos para el análisis de predicciones pueden ser sin supervisión, semi-supervisados ??o supervisados. Estado del arte: los métodos no supervisados ??encuentran regularidades y estructuras ocultas en los datos. Los enfoques típicos incluyen agrupamiento, selección de características, reducción de dimensiones, estimación de densidad y aprendizaje de la estructura del modelo[172]. Los métodos clásicos de reducción de dimensiones lineales son el análisis de componentes principales y el análisis de componentes independientes, pero recientemente han aparecido algunos métodos de reducción de dimensiones no lineales muy poderosos[173].
Los métodos supervisados ??utilizan datos en forma de pares (x, y) y estiman una función que predice el valor de y a partir de una entrada x dada. Cuando y es una cantidad discreta (por ejemplo, una etiqueta de varias condiciones biológicas distintas), el método se llama clasificación y cuando y es continuo, el método se llama regresión. El desafío clave es garantizar que la función estimada pueda generalizarse bien en situaciones invisibles[174]. Dos métodos son populares: (1) máquina de vectores de soporte (SVM) que estima una función discriminativa maximizando el margen de separación de clases[175] y (2) bosque aleatorio, basado en conjuntos de árboles y votaciones[176].
Los métodos semi-supervisados ??combinan ideas de métodos supervisados ??y no supervisados, para capturar la estructura no supervisada en los datos con el fin de mejorar el rendimiento de la clasificación[177]. Los métodos de series de tiempo usan datos medidos en diferentes momentos para modelar y predecir valores futuros de los datos, capturando su estructura y regularidades y contabilizando los efectos estocásticos, como los con modelos ocultos de Markov (HMM[178]). Casos de uso: un ejemplo típico es la clasificación de datos biológicos, como datos de expresión génica, en diferentes clases biológicas, por ejemplo enfermo y saludable, principalmente utilizando SVM y bosques aleatorios. Los métodos de predicción también se aplican al análisis de rutas, la descomposición de redes y la anotación de secuencias. A menudo se combinan con una selección de características para extraer las dimensiones más relevantes en el espacio de datos de entrada[179].
2.4.4 Construyendo redes y caminos a partir de la literatura
Motivación: La mayoría de textos une esfuerzos con las ciencias experimentales para ayudar a la investigación multifacética relacionada con enfermedades. Las redes y los mapas de conectividad se derivan del texto en un intento de encontrar conexiones y relaciones causales entre componentes de sistemas biomédicos complejos, con el fin de dilucidar los mecanismos de la enfermedad y detectar comorbilidades[180]. Preprocesamiento: la preparación de datos textuales consiste en la tokenización, eliminación de signos de puntuación, etiquetado de parte de la voz y, a veces, análisis sintáctico. A continuación, se identifican en el texto los nombres de proteínas, genes, sustancias químicas, fenotipos y enfermedades. El manejo de la terminología biomédica aborda varias cuestiones, como la aparición de nuevos términos, el uso intensivo de acrónimos, abreviaturas y palabras de propósito general que designan genes[181]. La sinonimia y la homonimia imponen desafíos especiales al proceso de reconocimiento y complican la vinculación de un gen nombre a su identificador único en la base de datos[182]. Los sistemas de reconocimiento de identidad (NER) de última generación alcanzan una medida F de aproximadamente el 86[183]% en el corpus biomédico, frente al 93% en los textos en inglés de propósito general.
Estado de la técnica: la reconstrucción de las vías biológicas a partir de la literatura ha evolucionado desde co-ocurrencias de proteína-proteína por pares no dirigidas[184] a eventos biomédicos complejos de interacciones tipificadas y por lo tanto dirigidas que abarcan múltiples proteínas. Estos últimos se basan en gran medida en los corpus ricamente comentados, el análisis sintáctico profundo y las técnicas de aprendizaje automático supervisado. Debido a la complejidad del lenguaje natural, la extracción precisa de eventos biomédicos sigue siendo un desafío. La medida F lograda por los sistemas de vanguardia varía aproximadamente entre el 70 y el 48%, dependiendo en gran medida del tipo de evento que se reconoce. Casos de uso: muchas herramientas biomédicas de minería de textos ayudan a los usuarios en diferentes etapas del procesamiento de texto, en particular para la construcción de redes y vías. El modelo de co-ocurrencia se ha implementado con éxito en iHop, una red hipervinculada de genes y proteínas mencionadas en los resúmenes de PubMed[185]. Facta amplía el modelo de co-ocurrencia por pares con la extracción de eventos y el descubrimiento de asociaciones indirectas entre los conceptos biomédicos. Basándose en resúmenes de PubMed, AliBaba construye redes de proteínas, genes, asociaciones de enfermedades y ubicación subcelular de proteínas que interactúan[186]. Las redes extraídas de texto se pueden complementar con datos experimentales utilizando IntAct[187] y CoPub[188].
2.4.5 Análisis de ruta
Motivación: el análisis de vías tiene como objetivo identificar las desregulaciones de vías para mejorar la comprensión de fenotipos complejos al aprovechar la información sobre interacciones biomoleculares conocidas en las vías para guiar la búsqueda a través del espacio de posibles asociaciones funcionales. Existe una amplia gama de métodos, que incluyen estadísticas de análisis de enriquecimiento, métodos de priorización de genes de enfermedades basados ??en vías, análisis de vías metabólicas convexas y métodos de predicción/reconstrucción de vías in sílico[189].
Procesamiento previo: debido a que las plataformas de medición experimentales y las bases de datos de rutas tienden a usar diferentes formatos de identificadores, el análisis de rutas generalmente comienza con la conversión de los nombres de genes/proteínas a un formato estándar[190], seguido de la normalización y el procesamiento previo de los datos experimentales.
Estado de la técnica: recientemente se han desarrollado varios enfoques novedosos para inferir cambios en la actividad de la vía a partir de datos de alto rendimiento con mayor precisión que mediante la combinación clásica de filtrado de expresión diferencial con estadísticas de sobrerrepresentación como la prueba exacta de Fisher (para conjuntos de datos desordenados) o la prueba de Kolmogorov-Smirnov (para conjuntos de datos clasificados). Estos incluyen enfoques paramétricos y no paramétricos que tienen en cuenta las mediciones del nivel de expresión génica sin filtrar, por ejemplo GSEA[191], PaGE, GAGE[192]? o explotar información de gráficos de ontología, como Ontologizer y GeneCodis[193]. Para el estudio de las vías metabólicas, dos enfoques relacionados que utilizan el análisis convexo se han vuelto cada vez más importantes: los modos de flujo elemental[194] y las vías extremas[195]. Finalmente, a diferencia de la definición clásica de vías basada en expertos humanos, recientemente se han propuesto varios métodos para la predicción/reconstrucción de vías utilizando datos experimentales[196].
Casos de uso: los análisis de la vía de todo el genoma han proporcionado nuevos conocimientos sobre la etiología de enfermedades complejas que no pueden obtenerse de los análisis clásicos de un solo locus[197]. De hecho, tales análisis han demostrado que diferentes alteraciones en una vía pueden causar la misma enfermedad, como en el cáncer colorrectal[198]. El análisis de vías metabólicas se utiliza en aplicaciones biomédicas y biotecnológicas, por ejemplo para aumentar el rendimiento de producción de microorganismos mediante ingeniería metabólica, es decir, la modificación de vías seleccionadas mediante tecnologías de ADN recombinante[199]. El análisis de rutas también se puede integrar con el análisis de redes para identificar módulos de redes desregulados en enfermedades complejas[200].
2.5 Conclusiones
El estudio de genes individuales y sus productos en sistemas modelo se ha desplazado hacia estudios de alto rendimiento en laboratorios y, a menudo, generados por grandes consorcios. Cada tipo de datos ómicos está resultando muy valioso y su integración promete recompensas aún mayores. Las técnicas actuales son muy diversas y pueden analizar muestras biológicas complejas. Albergan una alta sensibilidad y especificidad, aunque no siempre suficiente, como en la proteómica. Los desarrollos en curso aumentarán la precisión, solidez y flexibilidad al tiempo que reducirán los costos. Las innovaciones técnicas actuales continúan desplazando el cuello de botella de la producción de datos al análisis de datos. Nuestra comprensión de la biología dependerá cada vez más de la gestión de datos y conocimientos, y de la infraestructura informática para complementar los avances en el modelado matemático y computacional para técnicas analíticas temporales y espaciales, que son cruciales para la biología de sistemas.
Referencias
[1] Rode, B.M. & Schwendinger, M.G.. (2021). Orig. Life Evol. Biosph.
[2] Green, Sara. (2017). Introduction to Philosophy of Systems Biology. 10.1007/978-3-319-47000-9_1.
[3] Kell, Douglas. (2007). Systems Biology, Metabolic Modelling and Metabolomics in Drug Discovery and Development. Drug discovery today. 11. 1085-92. 10.1016/j.drudis.2006.10.004.
[4] Hill, Camilla & Czauderna, Tobias & Klapperstück, Matthias & Roessner, Ute & Schreiber, Falk. (2015). Metabolomics, Standards, and Metabolic Modeling for Synthetic Biology in Plants. Frontiers in Bioengineering and Biotechnology. 3. 167. 10.3389/fbioe.2015.00167.
[5] Butcher, Eugene & Berg, Ellen & Kunkel, Eric. (2004). Systems biology in drug discovery. Nature biotechnology. 22. 1253-9. 10.1038/nbt1017.
[6] Gross, Fridolin & Green, Sara. (2017). The Sum of the Parts: Large-Scale Modeling in Systems Biology. Philosophy and Theory in Biology. 9. 10.3998/ptb.6959004.0009.010.
[7] Bunnik, Evelien & Le Roch, Karine. (2013). An Introduction to Functional Genomics and Systems Biology. Advances in wound care. 2. 490-498. 10.1089/wound.2012.0379.
[8] Peterson, Randall. (2008). Chemical biology and limits of reductionism. Nature chemical biology. 4. 635-8. 10.1038/nchembio1108-635.
[9] Auffray, Charles & Noble, Denis & Nottale, Laurent & Turner, Philip. (2020). Progress in integrative systems biology, physiology and medicine: towards a scale-relative biology. The European Physical Journal A. 56. 10.1140/epja/s10050-020-00090-3.
[10] Przedborski, Michelle & Sharon, David & Chan, Steven & Kohandel, Mohammad. (2021). A mean-field approach for modeling the propagation of perturbations in biochemical reaction networks. 10.1101/2021.01.26.428329.
[11] Masso, J.R.. (2006). From functional genomics to systems biology. 23. 144-146.
[12] From OMICs to systems biology
The field of 'omics' currently polarizes the community of biologists. October 2004 https://www.nature.com/documents/nrg_posters_omics.pdf
[13] Hans. (2011). Modeling Approaches in Systems Biology, Including Silicon Cell Models. 10.1002/9780470963012.ch2.
[14] Noble, Denis. (2020). The role of stochasticity in biological communication processes. Progress in Biophysics and Molecular Biology. 10.1016/j.pbiomolbio.2020.09.008.
[15] Sarwar, Dewan & Kalbasi, Reza & Gennari, John & Carlson, Brian & Neal, Maxwell & de Bono, Bernard & Atalag, Koray & Hunter, Peter & Nickerson, David. (2019). Model annotation and discovery with the Physiome Model Repository. BMC Bioinformatics. 20. 10.1186/s12859-019-2987-y.
[16] Saqi, Mansoor & Pellet, Johann & Balaur (Roznovat), Irina & Mazein, Alexander & Ballereau, Stéphane & De Meulder, Bertrand & Auffray, Charles. (2015). Systems Medicine: The Future of Medical Genomics, Healthcare, and Wellness. Methods in molecular biology (Clifton, N.J.). 1386. 43-60. 10.1007/978-1-4939-3283-2_3.
[17] Estrada-Rivadeneyra, Diego. (2017). Sanger sequencing. The FEBS Journal. 284. 10.1111/febs.14319.
[18] Mehta, Avni & Hasija, Yasha. (2018). Bioinformatics Approaches for Genomics and Post Genomics Applications of Anticancer Plants. 10.1007/978-981-10-8417-1_12.
[19] Voshall, Adam & Moriyama, Etsuko. (2020). Next-generation transcriptome assembly and analysis: Impact of ploidy. Methods (San Diego, Calif.). 176. 14-24. 10.1016/j.ymeth.2019.06.001.
[20] Speir, Matthew & Zweig, Ann & Rosenbloom, Kate & Raney, Brian & Paten, Benedict & Nejad, Parisa & Lee, Brian & Learned, Katrina & Karolchik, Donna & Hinrichs, Angie & Heitner, Steve & Harte, Rachel & Haeussler, Maximilian & Guruvadoo, Luvina & Fujita, Pauline & Eisenhart, Christopher & Diekhans, Mark & Clawson, Hiram & Casper, Jonathan & Kent, W.. (2016). The UCSC Genome Browser database: 2016 update. Nucleic Acids Research. 44. D717-D725. 10.1093/nar/gkv1275.
[21] Chuna, Kim & Sung, Sanghyun & Kim, Jong-Seo & Lee, Hyunji & Jung, Yoonseok & Shin, Sanghee & Kim, Eunkyeong & Seo, Jenny & Kim, Jun & Kim, Daeun & Niida, Hiroyuki & Kim, V. & Park, Daechan & Lee, Junho. (2021). Telomeres reforged with non-telomeric sequences in mouse embryonic stem cells. Nature Communications. 12. 10.1038/s41467-021-21341-x.
[22] Xu, Ting & Yang, Zhi & Jiang, Lili & Xing, Xiu-Xia & Zuo, Xi-Nian. (2015). A Connectome Computation System for discovery science of brain. Science Bulletin. 60. 10.1007/s11434-014-0698-3.
[23] Mamidi, Tarun Karthik Kumar & Wu, Jiande & Hicks, Chindo. (2019). Interactions between Germline and Somatic Mutated Genes in Aggressive Prostate Cancer. Prostate Cancer. 2019. 1-11. 10.1155/2019/4047680.
[24] Khansefid, Majid & Pryce, Jennie & Bolormaa, Sunduimijid & Chen, Yizhou & Millen, Catriona & Chamberlain, Amanda & Vander Jagt, Christy & Goddard, Michael. (2018). Comparing allele specific expression and local expression quantitative trait loci and the influence of gene expression on complex trait variation in cattle. BMC Genomics. 19. 10.1186/s12864-018-5181-0.
[25] Thomas, Torsten & Jack, Gilbert & Meyer, Folker. (2014). Metagenomics: A Guide From Sampling to Data Analysis. 10.1201/b16568-16.
[26] Tonkovic, Petar & Kalajdziski, Slobodan & Zdravevski, Eftim & Lameski, Petre & Corizzo, Roberto & Pires, Ivan & Garcia, Nuno & Loncar-Turukalo, Tatjana & Trajkovik, Vladimir. (2020). Literature on Applied Machine Learning in Metagenomic Classification: A Scoping Review. Biology. 2020. 453. 10.3390/biology9120453.
[27] Kant, Ravi & Kumar, Abhishek & Sironen, Tarja. (2020). From Microbial Genomics to Metagenomics. International Journal of Genomics. 2020. 1-2. 10.1155/2020/9357450.
[28] Dal Molin, Alessandra & Baruzzo, Giacomo & Camillo, Barbara. (2017). Single-Cell RNA-Sequencing: Assessment of Differential Expression Analysis Methods. Frontiers in Genetics. 8. 62. 10.3389/fgene.2017.00062.
[29] Farah, Ibrahim & Lalli, Giada & Baker, Darrol & Schumacher, Axel. (2020). A global omics data sharing and analytics marketplace: Case study of a rapid data COVID-19 pandemic response platform. 10.1101/2020.09.28.20203257.
[30] Sayers, Eric & Beck, Jeffrey & Bolton, Evan & Bourexis, Devon & Brister, J. & Canese, Kathi & Comeau, Donald & Funk, Kathryn & Kim, Sunghwan & Klimke, William & Marchler-Bauer, Aron & Landrum, Melissa & Lathrop, Stacy & lu, Zhiyong & Madden, Thomas & O'Leary, Nuala & Phan, Lon & Rangwala, Sanjida & Schneider, Valerie & Sherry, Stephen. (2020). Database resources of the National Center for Biotechnology Information. Nucleic Acids Research. 49. 10.1093/nar/gkaa892.
[31] Banerjee, Arko & Pujari, Arun K & Panigrahi, Chhabi & Pati, Bibudhendu & Nayak, Suvendu & Weng, Tien-Hsiung. (2021). A new method for weighted ensemble clustering and coupled ensemble selection. Connection Science. 1-22. 10.1080/09540091.2020.1866496.
[32] Navarro Gonzalez, Jairo & Zweig, Ann & Speir, Matthew & Schmelter, Daniel & Rosenbloom, Kate & Raney, Brian & Powell, Conner & Nassar, Luis & Maulding, Nathan D & Lee, Christopher & Lee, Brian & Hinrichs, Angie & Fyfe, Alastair C & Fernandes, Jason D & Diekhans, Mark & Clawson, Hiram & Casper, Jonathan & Benet-Pagès, Anna & Barber, Galt & Kent, W James. (2020). The UCSC Genome Browser database: 2021 update. Nucleic Acids Research. 49. 10.1093/nar/gkaa1070.
[33] Picariello, Gianluca & Mamone, Gianfranco & Addeo, Francesco & Ferranti, Pasquale. (2012). Novel Mass Spectrometry-Based Applications of the 'Omic' Sciences in Food Technology and Biotechnology. Food Technology and Biotechnology. 50. 286-305.
[34] Romero, Pedro. (2004). Bioinformatics: Sequence and Genome Analysis. Briefings in Bioinformatics. 5. 393-396. 10.1093/bib/5.4.393-a.
[35] Consortium, The. (2000). Gene ontology: Tool for the unification of biology. Nat. Genet.. 25. 25-29.
[36] Stoeckert, Christian & Parkinson, Helen. (2003). The MGED Ontology: A Framework for Describing Functional Genomics Experiments. Comparative and functional genomics. 4. 127-32. 10.1002/cfg.234.
[37] Perez-Riverol, Yasset & Csordas, Attila & Bai, Jingwen & Bernal-Llinares, Manuel & Hewapathirana, Suresh & Kundu, Deepti & Inuganti, Avinash & Griss, Johannes & Mayer, Gerhard & Eisenacher, Martin & Pérez, Enrique & Uszkoreit, Julian & Pfeuffer, Julianus & Sachsenberg, Timo & Y?lmaz, ?ule & Tiwary, Shivani & Cox, Juergen & Audain, Enrique & Walzer, Mathias & Vizcaino, Juan. (2018). The PRIDE database and related tools and resources in 2019: improving support for quantification data. Nucleic acids research. 47. 10.1093/nar/gky1106.
[38] Zaslavsky, Elena. (2018). Interpretation of an individual functional genomics experiment guided by massive public data. Nature Methods. 15. 10.1038/s41592-018-0218-5.
[39] Doyle, John & Nielsen, Poul. (2021). Systems Biology Markup Language Standard.
[40] Jansson, Andreas & Jirstrand, Mats. (2010). Biochemical modeling with Systems Biology Graphical Notation. Drug discovery today. 15. 365-70. 10.1016/j.drudis.2010.02.012.
[41] Perez-Llamas, Christian & Gundem, Gunes & López-Bigas, Nuria. (2011). Integrative Cancer Genomics (IntOGen) in Biomart. Database : the journal of biological databases and curation. 2011. bar039. 10.1093/database/bar039.
[42] Bierkens, Mariska & van der Linden, Wim & van Bochove, Kees & Weistra, Ward & Fijneman, Remond & Azevedo, Rita & Boiten, Jan-Willem & Beliën, Jeroen & Meijer, Gerrit. (2015). tranSMART. Journal of Clinical Bioinformatics. 5. S9. 10.1186/2043-9113-5-S1-S9.
[43] Wang, Caihong & Zhao, Feng-Qi & Liu, Jian-xin & Liu, Hongyun. (2020). Short communication: The essential role of N-glycosylation in the transport activity of bovine peptide transporter 2. Journal of Dairy Science. 103. 10.3168/jds.2019-16858.
[44] Yenes, Ronni & Gutrianto, Ryan. (2021). Basic Skills of Men Garuda Basketball Athlete. 10.2991/ahsr.k.210130.007.
[45] Potera, C. (2005). NexBio takes novel approach to influenza prevention by disrupting receptors in airways. Genetic Engineering News. 25. 22-22.
[46] Rueping, Magnus & Karan, Ram & Sysoev, Maxim & Grötzinger, Stefan & Renn, Dominik & Eppinger, Jörg. (2021). Bioprospecting of Novel Extremozymes From Prokaryotes-The Advent of Culture-Independent Methods. Frontiers in Microbiology. 12. 10.3389/fmicb.2021.630013.
[47] Gupta, Romi & Nagarajan, Arvindhan & Wajapeyee, Narendra. (2010). Advances in genome-wide DNA methylation analysis. BioTechniques. 49. iii-xi. 10.2144/000113493.
[48] Paul, DS & Beck, S. (2014). Advances in epigenome-wide association studies for common diseases.. 20.
[49] Birney, Ewan & Stamatoyannopoulos, John & Dutta, Anindya & Guigó, Roderic & Gingeras, Thomas & Margulies, Elliott & Deng, Zhiping & Snyder, Michael & Dermitzakis, Emmanouil & Thurman, Robert & Kuehn, Michael & Taylor, Christopher & Neph, Shane & Koch, Christoph & Asthana, Saurabh & Malhotra, Ankit & Adzhubey, Ivan & Greenbaum, Jason & Andrews, Robert & de Jong, Pieter. (2007). Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature. 447. 799-816. 10.1038/nature05874.
[50] Chadwick, Lisa. (2012). The NIH Roadmap Epigenomics Program data resource. Epigenomics. 4. 317-24. 10.2217/epi.12.18.
[51] Rauscher, Frank. (2006). It Is Time for a Human Epigenome Project. Cancer research. 65. 11229. 10.1158/0008-5472.CAN-65-24-ED1.
[52] Adams, David & Altucci, Lucia & Antonarakis, Stylianos & Ballesteros, Juan & Beck, Stephan & Bird, Adrian & Bock, Christoph & Boehm, Bernhard & Campo, Elias & Caricasole, Andrea & Dahl, Fredrik & Dermitzakis, Emmanouil & Enver, Tariq & Esteller, Manel & Estivill, Xavier & Ferguson-Smith, Anne & Fitzgibbon, Jude & Flicek, Paul & Schacht, Claudia & Willcocks, Spike. (2012). BLUEPRINT to decode the epigenetic signature written in blood. Nature biotechnology. 30. 224-6. 10.1038/nbt.2153.
[53] Strohalm, Martin & Hassman, Martin & Kosata, Bedrich & Kodícek, Milan. (2008). mMass data miner: An open source alternative for mass spectrometric data analysis. Rapid communications in mass spectrometry : RCM. 22. 905-8. 10.1002/rcm.3444.
[54] Ladd-Acosta, Christine & Aryee, Martin & Ordway, Jared & Feinberg, Andrew. (2010). Comprehensive High-Throughput Arrays for Relative Methylation (CHARM). Current protocols in human genetics / editorial board, Jonathan L. Haines ... [et al.]. Chapter 20. Unit 20.1.1-19. 10.1002/0471142905.hg2001s65.
[55] Aberg, Karolina & Chan, Robin & Xie, Linying & Shabalin, Andrey & Oord, Edwin. (2018). Methyl-CpG-binding domain sequencing: MBD-seq. 10.1007/978-1-4939-7481-8_10.
[56] Moran, Sebastian & Arribas, Carles & Esteller, Manel. (2015). Validation of a DNA methylation microarray for 850,000 CpG sites of the human genome enriched in enhancer sequences. Epigenomics. 8. 10.2217/epi.15.114.
[57] Urban, Lara & Holzer, Andre & Baronas, J. Jotautas & Hall, Michael & Braeuninger, Philipp & Scherm, Michael & Kunz, Daniel & Perera, Surangi & Martín Herranz, Daniel Elías & Tipper, Edward & Salter, Susannah & Stammnitz, Maximilian. (2021). Freshwater monitoring by nanopore sequencing. eLife Sciences. 10. 1-27. 10.7554/eLife.61504.
[58] Nizamuddin, Sheikh & Koidl, Stefanie & Bhuiyan, Tanja & Werner, Tamara & Biniossek, Martin & Bonvin, Alexandre & Lassmann, Silke & Timmers, HThMarc. (2021). Integrating quantitative proteomics with accurate genome profiling of transcription factors by greenCUT&RUN. Nucleic acids research. 10.1093/nar/gkab038.
[59] Serre, David & Lee, Byron & Ting, Angela. (2009). MBD-isolated Genome Sequencing provides a high-throughput and comprehensive survey of DNA methylation in the human genome. Nucleic acids research. 38. 391-9. 10.1093/nar/gkp992.
[60] Ji, Hongkai & Vokes, Steven & Wong, Wing. (2006). A comparative analysis of genome-wide chromatin immunoprecipitation data for mammalian transcription factors. Nucleic acids research. 34. e146. 10.1093/nar/gkl803.
[61] Assmann, Vera. (2020). CD83: insights into its function and transcriptional regulation in human Tregs.
[62] Lee, En-Shiun & Sze-To, Antonio & Wong, Andrew & Stashuk, Daniel. (2016). Unsupervised Pattern Discovery in Biosequences Using Aligned Pattern Clustering. SM Journal of Bioinformatics and Proteomics. 1. 1008.
[63] Rosa, Stefanie & Shaw, Peter. (2013). Insights into Chromatin Structure and Dynamics in Plants. Biology. 2. 1378-410. 10.3390/biology2041378.
[64] Liu, Fang-Wei & Liao, H.-F & Lin, S.-P & Lu, Yen-Wen. (2018). DNA methylation assay using droplet-based DNA melting curve analysis. Lab on a Chip. 18. 10.1039/C7LC01240C.
[65] Li, Shizhao & Tollefsbol, Trygve. (2020). DNA methylation methods: Global DNA methylation and methylomic analyses. Methods. 10.1016/j.ymeth.2020.10.002.
[66] Potter, Dustin & Yan, Pearlly & Huang, Tim & Lin, Shili. (2008). Probe signal correction for differential methylation hybridization experiments. BMC bioinformatics. 9. 453. 10.1186/1471-2105-9-453.
[67] Decock, Anneleen & Ongenaert, Maté & Cannoodt, Robrecht & Verniers, Kimberly & De Wilde, Bram & Laureys, Geneviève & Roy, Nadine & Berbegall, Ana & Bienertova-Vasku, Julie & Bown, Nick & Clement, Nathalie & Combaret, Valérie & Haber, Michelle & Hoyoux, Claire & Murray, Jayne & Noguera, Rosa & Pierron, Gaelle & Schleiermacher, Gudrun & Schulte, Johannes & Vandesompele, Jo. (2015). Methyl-CpG-binding domain sequencing reveals a prognostic methylation signature in neuroblastoma. Oncotarget. 7. 10.18632/oncotarget.6477.
[68] Simon, Jeremy & Giresi, Paul & Davis, Ian & Lieb, Jason. (2012). Addendum: Using formaldehyde-assisted isolation of regulatory elements (FAIRE) to isolate active regulatory DNA. Nature protocols. 7. 256-67. 10.1038/nprot.2011.444.
[69] Henikoff, Steven & Henikoff, Jorja & Kaya-Okur, Hatice & Ahmad, Kami. (2020). Efficient chromatin accessibility mapping in situ by nucleosome-tethered tagmentation. eLife. 9. e63274. 10.7554/elife.63274.
[70] Bodega, Beatrice & Lanzuolo, Chiara. (2021). Capturing Chromosome Conformation Methods and Protocols: Methods and Protocols. 10.1007/978-1-0716-0664-3.
[71] Leblanc, Benjamin & Comet, Itys & Bantignies, Frédéric & Cavalli, Giacomo. (2016). Chromosome Conformation Capture on Chip (4C): Data Processing. Methods in molecular biology (Clifton, N.J.). 1480. 243-261. 10.1007/978-1-4939-6380-5_21.
[72] Belton, Jon-Matthew & Dekker, Job. (2015). Chromosome Conformation Capture Carbon Copy (5C) in Budding Yeast. Cold Spring Harbor protocols. 2015. pdb.prot085191. 10.1101/pdb.prot085191.
[73] Davis, Sage & Hollin, Thomas & Lenz, Todd & Le Roch, Karine. (2021). Three-dimensional chromatin in infectious disease-A role for gene regulation and pathogenicity?. PLoS Pathogens. 17. e1009207. 10.1371/journal.ppat.1009207.
[74] Strobino, Maude & Wenda, Joanna & Padayachy, Laura & Steiner, Florian. (2020). Loss of histone H3.3 results in DNA replication defects and altered origin dynamics in C. elegans. Genome Research. 30. 1740-1751. 10.1101/gr.260794.120.
[75] Gaffney, Daniel & McVicker, Graham & Pai, Athma & Fondufe-Mittendorf, Yvonne & Lewellen, Noah & Michelini, Katelyn & Widom, Jonathan & Gilad, Yoav & Pritchard, Jonathan. (2012). Controls of Nucleosome Positioning in the Human Genome. PLoS genetics. 8. e1003036. 10.1371/journal.pgen.1003036.
[76] Li, Yang & Zhou, Shiguo & Schwartz, David & Ma, Jian. (2016). Allele-Specific Quantification of Structural Variations in Cancer Genomes. Cell Systems. 3. 10.1016/j.cels.2016.05.007.
[77] Cusanovich, Darren & Pavlovic, Bryan & Pritchard, Jonathan & Gilad, Yoav. (2014). The Functional Consequences of Variation in Transcription Factor Binding. PLoS genetics. 10. e1004226. 10.1371/journal.pgen.1004226.
[78] Jeong, Jae-Sik. (2011). A Finite Mixture Model for Gene Expression and Methylation Pro les in a Bayesian Framewor. Korean Journal of Applied Statistics. 24. 609-622. 10.5351/KJAS.2011.24.4.609.
[79] Misawa, Kiyoshi & Mochizuki, Daiki & Imai, Atsushi & Mima, Masato & Misawa, Yuki & Kanazawa, Takeharu & Carey, Thomas & Mineta, Hiroyuki. (2016). Prognostic value of aberrant promoter hypermethylation of tumor-related genes in early-stage head and neck cancer. Oncotarget. 7. 10.18632/oncotarget.8317.
[80] Roller, Maša & Stamper, Ericca & Villar, Diego & Izuogu, Osagie & Martin, Fergal & Redmond, Aisling & Ramachanderan, Raghavendra & Harewood, Louise & Odom, Duncan & Flicek, Paul. (2021). LINE retrotransposons characterize mammalian tissue-specific and evolutionarily dynamic regulatory regions. Genome Biology. 22. 10.1186/s13059-021-02260-y.
[81] Aïssi, Dylan & Dennis, Jessica & Ladouceur, Martin & Truong, Vinh & Zwingerman, Nora & Rocañín Arjó, Ares & Germain, Marine & Paton, Tara & Morange, Pierre & Gagnon, France & Trégouët, David-Alexandre. (2014). Genome-Wide Investigation of DNA Methylation Marks Associated with FV Leiden Mutation. PLoS ONE. 9. e108087. 10.1371/journal.pone.0108087.
[82] Parkinson, Helen & Sarkans, Ugis & Shojatalab, M & Abeygunawardena, N & Contrino, Sergio & Coulson, R & Farne, Anna & Lara, G & Holloway, E & Kapushesky, Misha & Lilja, P & Mukherjee, G & Özçimen, Ahmet & Rayner, Tim & Rocca-Serra, P & Sharma, A & Sansone, S & Brazma, A. (2005). ArrayExpress - A public repository for microarray gene expression data at the EBI. Nucleic acids research. 33. D553-5. 10.1093/nar/gki056.
[83] Barrett, T. & Troup, D.B. & Wilhite, S.E. & Ledoux, P. & Evangelista, C. & Kim, I.F.. (2012). NCBI GEO: archive for functional genomics data sets - 10years on. Nucleic Acids Res. 39. 10.1093/nar/gks1193.
[84] Jr, Christian & Quackenbush, John & Brazma, Alvis & Ball, Catherine. (2004). Minimum information about a functional genomics experiment: The state of microarray standards and their extension to other technologies. Drug Discovery Today: TARGETS. 3. 159-164. 10.1016/S1741-8372(04)02435-1.
[85] Guo, Kai & Eid, Stephanie & Elzinga, Sarah & Pacut, Crystal & Feldman, Eva & Hur, Junguk. (2020). Genome-wide profiling of DNA methylation and gene expression identifies candidate genes for human diabetic neuropathy. Clinical Epigenetics. 12. 10.1186/s13148-020-00913-6.
[86] Mohapatra, Saroj & Krishnan, Arjun. (2011). Microarray Data Analysis. Methods in molecular biology (Clifton, N.J.). 678. 27-43. 10.1007/978-1-60761-682-5_3.
[87] Jiang, Chunjie & Ding, Na & Li, Junyi & Jin, Xiyun & Li, Lili & Pan, Tao & Huo, Caiqin & Li, Yongsheng & Xu, Juan & Li, Xia. (2018). Landscape of the long non-coding RNA transcriptome in human heart. Briefings in Bioinformatics. 20. 10.1093/bib/bby052.
[88] Yu & Yang, Xiaofei & Luo, Haitao. (2013). Long non-coding RNAs: Insights into the biological property. Chinese Science Bulletin (Chinese Version). 58. 2779. 10.1360/972012-1023.
[89] Cao, Yunshan & Li, Yahong & Wu, Mianmian & Song, Jiyang & Zhang, Min & Duan, Yichao & Jiang, Kaiyu & Zhou, Xing & Zhang, Yan. (2019). EXPRESS: RNA-sequencing analysis of gene expression in a rat model of acute right heart failure. Pulmonary Circulation. 10. 204589401987939. 10.1177/2045894019879396.
[90] Mercer, Tim & Gerhardt, Daniel & Dinger, Marcel & Crawford, Joanna & Trapnell, Cole & Jeddeloh, Jeffrey & Mattick, John & Rinn, John. (2011). Targeted RNA sequencing reveals the deep complexity of the human transcriptome. Nature biotechnology. 30. 99-104. 10.1038/nbt.2024.
[91] Lareau, Caleb & Ludwig, Leif & Muus, Christoph & Gohil, Satyen & Zhao, Tongtong & Chiang, Zachary & Pelka, Karin & Verboon, Jeffrey & Luo, Wendy & Christian, Elena & Rosebrock, Daniel & Getz, Gad & Boland, Genevieve & Chen, Fei & Buenrostro, Jason & Hacohen, Nir & Wu, Catherine & Aryee, Martin & Regev, Aviv & Sankaran, Vijay. (2020). Massively parallel single-cell mitochondrial DNA genotyping and chromatin profiling. Nature Biotechnology. 10.1038/s41587-020-0645-6.
[92] Brazma, Alvis & Hingamp, Pascal & Quackenbush, John & Sherlock, Gavin & Spellman, Paul & Stoeckert, Chris & Aach, John & Ansorge, Wilhelm & Ball, Catherine & Causton, Helen & Gaasterland, Terry & Glenisson, Patrick & Holstege, Frank & Kim, Irene & Markowitz, Victor & Matese, John & Parkinson, Helen & Robinson, Alan & Sarkans, Ugis & Vingron, Martin. (2001). Minimum information about a microarray experiment (MIAME) - Toward standards for microarray data. Nature Genetics. 29. 10.1038/ng1201-365.
[93] Voshall, Adam & Moriyama, Etsuko. (2020). Next-generation transcriptome assembly and analysis: Impact of ploidy. Methods (San Diego, Calif.). 176. 14-24. 10.1016/j.ymeth.2019.06.001.
[94] Gelfond, Jonathan & Ibrahim, Joseph & Chen, Ming-Hui & Sun, Wei & Lewis, Kaitlyn & Kinahan, Sean & Hibbs, Matthew & Buffenstein, Rochelle. (2015). Homology cluster differential expression analysis for interspecies mRNA-Seq experiments. Statistical Applications in Genetics and Molecular Biology. 14. 10.1515/sagmb-2014-0056.
[95] K, Gary & Bumgarner, Roger & B, Brian & Triche, Timothy & Dowidar, Naeem & L, Dwayne & P, H & S, Sean & George, Renee & T, Tammy & J, Jeffrey & Maysuria, Malini. (2008). Direct multiplexed measurement of gene expression with color-coded probe pairs (vol 26, pg 317, 2008). Nature Biotechnology - NAT BIOTECHNOL. 26. 709-709. 10.1038/nbt0608-709c
[96] Ren, Conglin & Li, Mingshuang & Du, Weibin & Lü, Jianlan & Zheng, Yang & Xu, Haipeng & Quan, Renfu. (2020). Comprehensive Bioinformatics Analysis Reveals Hub Genes and Inflammation State of Rheumatoid Arthritis. BioMed Research International. 2020. 1-13. 10.1155/2020/6943103.
[97] Kang, Seoyoung & Larbi, Daniel & Andrade, Monica & Reardon, Sara & Reh, Thomas & Wohl, Stefanie. (2021). A Comparative Analysis of Reactive Müller Glia Gene Expression After Light Damage and microRNA-Depleted Müller Glia—Focus on microRNAs. Frontiers in Cell and Developmental Biology. 8. 620459. 10.3389/fcell.2020.620459.
[98] Zhang, Zhicai & Liu, Jianxiang & Fan, Jiaming & Huang, Shifeng & Zhang, Linghuan & Zhang, Bo & Wang, Xi & Feng, Yixiao & Ye, Zhenyu & Zhao, Ling & Cao, Daigui & Yang, Lijuan & Pakvasa, Mikhail & Liu, Bin & Wagstaff, William & Wu, Xiaoxing & Luo, Huaxiu & Zhang, Jing & He, Tong-Chuan. (2019). IncRNA Rmst acts as an important mediator of BMP9-induced osteogenic differentiation of mesenchymal stem cells (MSCs) by antagonizing Notch-targeting microRNAs. Aging. 11. 10.18632/aging.102583.
[99] Bernstein, David & Sulheim, Snorre & Almaas, Eivind & Segrè, Daniel. (2021). Addressing uncertainty in genome-scale metabolic model reconstruction and analysis. Genome Biology. 22. 10.1186/s13059-021-02289-z.
[100] Wei, Zhengxi & Zhao, Jinghua & Niebler, Jake & Hao, Jian-Jiang & Merrick, Alex & Xia, Menghang. (2020). Quantitative Proteomic Profiling of Mitochondrial Toxicants in a Human Cardiomyocyte Cell Line. Frontiers in Genetics. 11. 719. 10.3389/fgene.2020.00719.
[101] Duarte, Jessica & Goosen, Ryan & Lawry, Peter & Blackburn, Jonathan. (2018). PMA: Protein Microarray Analyser, a user-friendly tool for data processing and normalization. BMC Research Notes. 11. 156. 10.1186/s13104-018-3266-0.
[102] Ronkainen, Niina & Okon, Stanley. (2014). Nanomaterial-Based Electrochemical Immunosensors for Clinically Significant Biomarkers. Materials. 7. 4669-4709. 10.3390/ma7064669.
[103] Ezkurdia, Iakes & Juan, David & Rodríguez, Jose Manuel & Frankish, Adam & Deikhans, Mark & Harrow, Jennifer & Vázquez, Jesús & Valencia, Alfonso & Tress, Michael. (2014). The shrinking human protein coding complement: are there fewer than 20,000 genes?. 10.1101/001909.
[104] Dahabiyeh, Lina. (2018). The Discovery of Protein Biomarkers in Pre-eclampsia: The Promising Role of Mass Spectrometry.
[105] Conrad, Tim & Genzel, Martin & Cvetkovic, Nada & Wulkow, Niklas & Leichtle, Alexander & Vybiral, Jan & Kutyniok, Gitta & Schütte, Christof. (2017). Sparse Proteomics Analysis - A Compressed Sensing-based Approach for Feature Selection and Classification of High-Dimensional Proteomics Mass Spectrometry Data. BMC Bioinformatics. 18. 160-180. 10.1186/s12859-017-1565-4.
[106] Li, Xu & Wang, Wenqi & Chen, Junjie. (2015). From pathways to networks: Connecting dots by establishing protein-protein interaction networks in signaling pathways using affinity purification and mass spectrometry. PROTEOMICS. 15. 10.1002/pmic.201400147.
[107] Matthiesen, Rune & Bunkenborg, Jakob. (2019). Introduction to Mass Spectrometry-Based Proteomics. 10.1007/978-1-4939-9744-2_1.
[108] Tomlinson, Chris & Barton, Geraint & Woodbridge, Mark & Butcher, Sarah. (2013). XperimentR: Painless annotation of a biological experiment for the laboratory scientist. BMC bioinformatics. 14. 8. 10.1186/1471-2105-14-8.
[109] Gotelli, Nicholas & Ellison, Aaron & Ballif, Bryan. (2012). Environmental Proteomics, Biodiversity Statistics, and Food-Web Structure. Trends in ecology & evolution. 27. 436-42. 10.1016/j.tree.2012.03.001.
[110] Garavito, Andrea & González-Muñoz, Andrea & Mosquera, Jeanneth & Alvarez, Astrid & Lopez-Alvarez, Diana & Cristancho, Marco. (2017). Latin American biodiversity and perspectives to study it using 'omics' technologies. Mexican journal of biotechnology. 2. 89-129. 10.29267/mxjb.2017.2.2.98.
[111] Chen, Chen & Hou, Jie & Tanner, John & Cheng, Jianlin. (2020). Bioinformatics Methods for Mass Spectrometry-Based Proteomics Data Analysis. International Journal of Molecular Sciences. 21. 2873. 10.3390/ijms21082873.
[112] Guthals, Adrian & Bandeira, Nuno. (2012). Peptide Identification by Tandem Mass Spectrometry with Alternate Fragmentation Modes. Molecular & cellular proteomics : MCP. 11. 550-7. 10.1074/mcp.R112.018556.
[113] Hao, Junheng & Ju, Chelsea & Chen, Muhao & Sun, Yizhou & Zaniolo, Carlo & Wang, Wei. (2020). Bio-JOIE: Joint Representation Learning of Biological Knowledge Bases. 10.1101/2020.06.15.153692.
[114] Goonewardene, Kalhari & Karu, Naama & Ahmed, Khawaja & Popowich, Shelly & Chow-Lockerbie, Betty & Ayalew, Lisanework & Karunarathna, Ruwani & Gunawardana, Thushari & Liu, Mengying & Tikoo, Suresh & Foldvari, Marianna & Willson, Philip & Mandal, Rupasri & Wishart, David & Gomis, Susantha. (2021). CpG-ODN induced antimicrobial immunity in neonatal chicks involves a substantial shift in serum metabolic profiles. Scientific Reports. 11. 10.1038/s41598-021-88386-2.
[115] Deutsch, Leon & Osredkar, Damjan & Plavec, Janez & Stres, Blaz. (2021). Spinal Muscular Atrophy after Nusinersen Therapy: Improved Physiology in Pediatric Patients with No Significant Change in Urine, Serum, and Liquor 1H-NMR Metabolomes in Comparison to an Age-Matched, Healthy Cohort. Metabolites. 11. 206. 10.3390/metabo11040206.
[116] Fu, Lihao & Zhang, Jianzhi & Si, Tong. (2020). Recent advances in high-throughput mass spectrometry that accelerates enzyme engineering for biofuel research. BMC Energy. 2. 10.1186/s42500-020-0011-8.
[117] Wixon, Joanne & Kell, Douglas. (2000). Website Review: The Kyoto Encyclopedia of Genes and Genomes—KEGG. http://www.genome.ad.jp/kegg/. Yeast. 17. 48 - 55. 10.1002/(sici)1097-0061(200004)17:1<48::aid-yea2>3.0.co;2-h.
[118] Arentz, G. & Mittal, Parul & Zhang, Chao & Ho, Y.-Y & Briggs, Matthew & Winderbaum, Lyron & Hoffmann, Marcus & Hoffmann, Peter. (2017). Applications of Mass Spectrometry Imaging to Cancer. 10.1016/bs.acr.2016.11.002.
[119] Arioli, Angelica & Dagliati, Arianna & Geary, Bethany & Peek, Niels & Kalra, Philip & Whetton, Anthony & Geifman, Nophar. (2021). OptiMissP: A dashboard to assess missingness in proteomic data-independent acquisition mass spectrometry. PLOS ONE. 16. e0249771. 10.1371/journal.pone.0249771.
[120] Stettin, Daniel & Poulin, Remington & Pohnert, Georg. (2020). Metabolomics Benefits from Orbitrap GC–MS—Comparison of Low- and High-Resolution GC–MS. Metabolites. 10. 143. 10.3390/metabo10040143.
[121] Dong E, Bouatra S, Mandal R, Sinelnikov I, Xia J, Jia L, Cruz JA, Lim E, Sobsey CA, Shrivastava S, Huang P, Liu P, Fang L, Peng J, Fradette R, Cheng D, Tzur D, Clements M, Lewis A, De Souza A, Zuniga A, Dawe M, Xiong Y, Clive D, Greiner R, Nazyrova A, Shaykhutdinov R, Li L, Vogel HJ, Forsythe I (2009) HMDB: a knowledgebase for the human metabolome. Nucleic Acids Res 37(Database issue):D603–D610
[122] Yu, Zhonghao & Kastenmüller, Gabi & He, Ying & Belcredi, Petra & Möller, Gabriele & Prehn, Cornelia & Mendes, Joaquim & Wahl, Simone & Roemisch-Margl, Werner & Ceglarek, Uta & Polonikov, Alexey & Dahmen, Norbert & Prokisch, Holger & Xie, Lu & Li, Yixue & Wichmann, H. & Peters, Annette & Kronenberg, Florian & Suhre, Karsten & Wang-Sattler, Rui. (2011). Differences between Human Plasma and Serum Metabolite Profiles. PloS one. 6. e21230. 10.1371/journal.pone.0021230.
[123] Gomez-Cambronero, Julian & Frohman, Michael. (2020). Lipid Signaling in Human Diseases. 10.1007/978-3-030-33668-4.
[124] Xu, Peiyu & Huang, Sijie & Zhang, Huibing & Mao, Chunyou & Zhou, X. & Cheng, Xi & Simon, Icaro & Shen, Dan-Dan & Yen, Hsin-Yung & Robinson, Carol & Harpsøe, Kasper & Svensson, Bo & Guo, Jia & Jiang, H. & Gloriam, David & Melcher, Karsten & Jiang, Yi & Zhang, Yan & Xu, Eric. (2021). Structural insights into the lipid and ligand regulation of serotonin receptors. Nature. 592. 10.1038/s41586-021-03376-8.
[125] Almeida, Idália & Magalhães, S. & Nunes, Alexandra. (2021). Lipids: biomarkers of healthy aging. Biogerontology. 22. 10.1007/s10522-021-09921-2.
[126] Nilsson, Anders & Andersson, Mats & Sjöbom, Ulrika & Hellgren, Gunnel & Lundgren, Pia & Pivodic, Aldina & Hellström, Ann. (2021). Sphingolipidomics of serum in extremely preterm infants: Association between low sphingosine-1-phosphate levels and severe retinopathy of prematurity. Biochimica et biophysica acta. Molecular and cell biology of lipids. 1866. 158939. 10.1016/j.bbalip.2021.158939.
[127] Wishart, David & Knox, Craig & Guo, An Chi & Eisner, Roman & Young, Nelson & Gautam, Bijaya & Hau, David & Psychogios, Nick & Dong, Edison & Bouatra, Souhaila & Mandal, Rupasri & Sinelnikov, Igor & Xia, Jianguo (Jeff) & Jia, Leslie & Cruz, Joseph & Lim, Emilia & Sobsey, Constance & Shrivastava, Savita & Huang, Paul & Forsythe, Ian. (2008). HMDB: A knowledgebase for the human metabolome. Nucleic acids research. 37. D603-10. 10.1093/nar/gkn810.
[128] Griffin, Emily & Costa, Kaylie & Aristizabal-Henao, Juan & Napolitano, Michael & Hunter, Margaret & Ferrante, Jason & Bowden, John. (2021). Lipidomics reveals specific lipid molecules associated with cold stress syndrome in the Florida manatee (Trichechus manatus latirostris). Marine Biology. 168. 10.1007/s00227-021-03879-y.
[129] Taylor, Nadine & White, Thomas & Viant, Mark. (2017). Defining the Baseline and Oxidant Perturbed Lipidomic Profiles of Daphnia magna. metabolites. 7. 10.3390/metabo7010011.
[130] Chaurand, Pierre & Cornett, Dale & Angel, Peggi & Caprioli, Richard. (2011). From Whole-body Sections Down to Cellular Level, Multiscale Imaging of Phospholipids by MALDI Mass Spectrometry. Molecular & cellular proteomics : MCP. 10. O110.004259. 10.1074/mcp.O110.004259.
[131] Li, Lili & Ma, Shuangshuang & Wang, Daijie & Chen, Long & Wang, Xiao. (2019). Plasma metabolomics analysis of endogenous and exogenous metabolites in the rat after administration of Lonicerae Japonicae Flos. Biomedical Chromatography. 34. 10.1002/bmc.4773.
[132] Oliver Machate (2021). Evidence for antifouling biocides as one of the limiting factors for the recovery of macrophyte communities in lakes of Schleswig-Holstein. Environmental Sciences Europe. 33. 10.1186/s12302-021-00500-3.
[133] Hyotylainen, Tuulia & Bondia-Pons, Isabel & Oresic, Matej. (2013). Lipidomics in nutrition and food research. Molecular nutrition & food research. 57. 10.1002/mnfr.201200759.
[134] Dennis, Edward. (2016). Lipid Cell Signaling, Enzymes, LIPID MAPS, and Mediators of Inflammation. The Journal of biological chemistry. 291. 10.1074/jbc.X116.723791.
[135] Hsieh, Wei-Yuan & Williams, Kevin & Su, Baolong & Bensinger, Steven. (2021). Profiling of mouse macrophage lipidome using direct infusion shotgun mass spectrometry. STAR Protocols. 2. 100235. 10.1016/j.xpro.2020.100235.
[136] Meyer-Base, Anke & Lespinats, Sylvain. (2010). Novel Systems Biology and Computational Methods for Lipidomics. Proceedings of SPIE - The International Society for Optical Engineering. 7703. 10.1117/12.849906.
[137] Gehlenborg, Nils & O' Donoghue, Sean & Baliga, Nitin & Goesmann, Alexander & Hibbs, Matthew & Kohlbacher, Oliver & Neuweger, Heiko & Schneider, Reinhard & Tenenbaum, Dan & Gavin, Anne-Claude. (2010). Visualization of omics data for system biology. Nature methods. 7. S56-68. 10.1038/nmeth.1436.
[138] Ballereau, Stéphane & Glaab, Enrico & Kolodkin, Alexey & Chaiboonchoe, Amphun & Biryukov, M & Vlassis, Nikos & Ahmed, Hassan & Pellet, J & Baliga, Nitin & Hood, L & Schneider, R & Balling, Rudi & Auffray, Charles. (2013). Systems Biology: Integrative Biology and Simulation Tools.
[139] Kepczynska, Malgorzata & Wargent, Edward & O'Dowd, Jacqueline & Hislop, David & Arch, Jonathan & Stocker, Claire. (2021). Diabetes Research and Metabolism Metabolic programming of adipose tissue in female C57Bl/6 mice offspring by maternal high fat feeding and obesity results in greater adaptability to dietary fat content and resistance to high fat diet-induced glucose intolerance compared to male mice. Diabetes Research and Metabolism. 10.36879/DRM.21.000106.
[140] Sutherland, Ben & Prokkola, Jenni & Audet, Céline & Bernatchez, Louis. (2019). Sex-Specific Co-expression Networks and Sex-Biased Gene Expression in the Salmonid Brook Charr Salvelinus fontinalis. G3-Genes Genomes Genetics. 9. g3.200910.2018. 10.1534/g3.118.200910.
[141] Henriques, Rui & Ferreira, Francisco & C . Madeira, Sara. (2017). BicPAMS: Software for biological data analysis with pattern-based biclustering. BMC Bioinformatics. 18. 10.1186/s12859-017-1493-3.
[142] Alonso, Roberto & Salavert Torres, Francisco & Garcia-Garcia, F. & Carbonell-Caballero, J. & Bleda, Marta & Garcia-Alonso, Luz. (2015). Babelomics 5.0: Functional interpretation for new generations of genomic data. 43. W117-W121.
[143] Appasani, Krishnarao & Southern, Edwin. (2007). Bioarrays: From Basics to Diagnostics. 10.1007/978-1-59745-328-8.
[144] Antfolk, Daniel & Antila, Christian & Kemppainen, Kati & Landor, Sebastian & Sahlgren, Cecilia. (2019). Decoding the PTM-switchboard of Notch. Biochimica et Biophysica Acta (BBA) - Molecular Cell Research. 1866. 10.1016/j.bbamcr.2019.07.002.
[145] Dowluru, Kaladhar SVGK. (2013). The Elements of Statistical Learning in Colon Cancer Datasets: Data Mining, Inference and Prediction.
[146] Robertson, Claire. (2015). The extracellular matrix in breast cancer predicts prognosis through composition, splicing and crosslinking. Experimental Cell Research. 343. 10.1016/j.yexcr.2015.11.009.
[147] Frøssing, Laurits & Silberbrandt, Alexander & Bülow, Anna & Klein, Ditte & Christensen, Marcus & Backer, Vibeke & Baines, Katherine & Porsbjerg, Celeste. (2021). Airway gene expression identifies subtypes of Type 2 inflammation in severe asthma. Clinical & Experimental Allergy. 10.1111/cea.13966
[148] Park, Heung-Woo & Weiss, Scott. (2020). Understanding the Molecular Mechanisms of Asthma through Transcriptomics. Allergy, Asthma & Immunology Research. 12. 399. 10.4168/aair.2020.12.3.399.
[149] Bellman R (1961) Adaptive control processes. Princeston University Press, Princeston
[150] Wang, Shaohua & Hu, Qingwu & Wang, Fengzhu & Ai, Mingyao & Zhong, Ruofei. (2017). A Microtopographic Feature Analysis-Based LiDAR Data Processing Approach for the Identification of Chu Tombs. Remote Sensing. 9. 880. 10.3390/rs9090880.
[151] Noviantoro, Tri. (2021). APPLYING DATA MINING TECHNIQUES TO INVESTIGATE ONLINE SHOPPER PURCHASE INTENTION BASED ON CLICKSTREAM DATA.
[152] Okun, Oleg. (2011). Unsupervised Feature Selection. 10.4018/978-1-60960-557-5.ch014.
[153] Tsamardinos, Ioannis & Aliferis, Constantin. (2002). Towards Principled Feature Selection: Relevancy, Filters and Wrappers. in Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics.
[154] Michmizos, Konstantinos & Argyropoulos, Christos & Aidinis, Vassilis & Nikiforidis, George & Berberidis, Kostas. (2007). A proposal of a novel segmentation technique of microarray images.
[155] A. Badr, Ameer & Karim, Alia. (2021). CatBoost Machine Learning Based Feature Selection for Age and Gender Recognition in Short Speech Utterances. International Journal of Intelligent Engineering and Systems. Vol.14. 2021. 10.22266/ijies2021.0630.14.
[156] Dincer, Ayse & Janizek, Joseph & Lee, Su-In. (2020). Adversarial deconfounding autoencoder for learning robust gene expression embeddings. Bioinformatics. 36. i573-i582. 10.1093/bioinformatics/btaa796.
[157] Abdulwahhab, Ahmed & Mokhtar, Makhfudzah & Saripan, M Iqbal & Abu Bakar, Muhammad Hafiz. (2015). Integrated framework of feature selection from microarray data for classification. Journal of Theoretical and Applied Information Technology. 73. 190-201.
[158] Katchborian Neto, Albert & Santos, Wanderleya & Nicacio, Karen & Corrêa, José & Murgu, Michael & Martins, Thaís & Gomes, Dawidson & Góes, Alfredo & Soares, Marisi & Dias, Danielle & Chagas--Paula, Daniela Aparecida & Paula, Ana. (2020). Neuroprotective potential of Ayahuasca and untargeted metabolomics analyses: Applicability to Parkinson's disease. Journal of ethnopharmacology. 255. 112743. 10.1016/j.jep.2020.112743.
[159] Li, Tianjun & Chen, Long & Lu, Xiliang. (2020). An Alternating Direction Minimization based denoising method for extracted ion chromatogram. Chemometrics and Intelligent Laboratory Systems. 206. 104138. 10.1016/j.chemolab.2020.104138.
[160] Tian, Xiaobo & Permentier, Hjalmar & Bischoff, Rainer. (2021). Chemical isotope labeling for quantitative proteomics. Mass Spectrometry Reviews. 10.1002/mas.21709.
[161] Shang, Ronghua & Chang, Jiangwei & Jiao, Licheng & Xue, Yu. (2019). Unsupervised feature selection based on self-representation sparse regression and local similarity preserving. International Journal of Machine Learning and Cybernetics. 10. 10.1007/s13042-017-0760-y.
[162] Hall, Mark. (2000). Correlation-Based Feature Selection for Machine Learning. Department of Computer Science. 19.
[163] Gupta, Subodhini & Jivani, Anjali. (2021). Feature Selection through Clustering to Classify High-Dimensional Data. 10.1007/978-981-15-9873-9_13.
[164] Biswal, Chandra & Pani, Dr. Subhendu & Dash, Sujata. (2021). A Comparative Analysis of Classifiers Using Particle Swarm Optimization-Based Feature Selection.
[165] Rahmawati, Rahmawati. (2015). Kernel Bayesian Based Classification for Microarray data.
[166] Hambali, Moshood & Oladele, Tinuke & S., Adewole. (2020). Microarray cancer feature selection: Review, challenges and research directions. International Journal of Cognitive Computing in Engineering. 1. 78-97. 10.1016/j.ijcce.2020.11.001.
[167] Singh, Rachhpal. (2018). A Gene Expression Data Classification and Selection Method using Hybrid Meta-heuristic technique. ICST Transactions on Scalable Information Systems. 7. 159917. 10.4108/eai.13-7-2018.159917.
[168] Kadhim, Thair & Hasan, Mohammed & Zainudin, Suhaila & Bakar, Azuraliza. (2019). Combination between DE and SVM to enhance Protein Structure Prediction based on Secondary Structural information. International Journal of Engineering & Technology. 8. 478. 10.14419/ijet.v8i4.19619
[169] Bolón-Canedo, Verónica & Sánchez-Maroño, Noelia & Alonso-Betanzos, Amparo. (2012). An ensemble of filters and classifiers for microarray data classification. Pattern Recognition. 45. 531-539. 10.1016/j.patcog.2011.06.006.
[170] Felici, Giovanni & Tripathi, Kumar Parijat & Evangelista, Daniela & Guarracino, Mario. (2017). A mixed integer programming-based global optimization framework for analyzing gene expression data. Journal of Global Optimization. 69. 1-18. 10.1007/s10898-017-0530-0.
[171] Liu, Yanping & Jiao, Yang & He, Da & Fan, Qihui & Zheng, Yu & Li, Guoqiang & Wang, Gao & Yao, Jingru & Chen, Guo & Lou, Silong & Shuai, JianWei & Liu, Liyu. (2021). Deriving time-varying cellular motility parameters via wavelet analysis. Physical biology. 18. 10.1088/1478-3975/abfcad.
[172] Koller D, Friedman N (2009) Probabilistic graphical models principles and techniques. MIT
press, Cambridge
[173] Sugiyama, Masashi. (2016). Nonlinear Dimensionality Reduction. 10.1016/B978-0-12-802121-7.00047-9.
[174] Sadeghi, Jonathan. (2020). Uncertainty modelling for scarce and imprecise data in engineering applications. 10.17638/03089368.
[175] Vargas, Olivia & Pérez-Ramírez, Carlos & Valtierra-Rodriguez, Martin & Yáñez-Borjas, Jesus & Amezquita-Sanchez, J.. (2021). An Explainable Machine Learning Approach Based on Statistical Indexes and SVM for Stress Detection in Automobile Drivers Using Electromyographic Signals. Sensors. 21. 3155. 10.3390/s21093155.
[176] Moore, Ryan & Archer, Kristin & Choi, Leena. (2021). Statistical and machine learning models for classification of human wear and delivery days in accelerometry data. 10.1101/2020.12.31.424867.
[177] Chapelle O, Schölkopf B, Zien A (2010) Semi-supervised learning. MIT Press, Cambridge
[178] Khodaei, Amin & Feizi Derakhshi, Mohammad Reza & Mozaffari Tazehkand, Behzad. (2021). A Markov chain-based feature extraction method for classification and identification of cancerous DNA sequences. BioImpacts : BI. 11. 87-99. 10.34172/bi.2021.16.
[179] Janssens, Hilde & Hou, Shuling & Jaeger, Johannes & Kim, Ah-Ram & Myasnikova, Ekaterina & Sharp, David & Reinitz, John. (2006). Quantitative and predictive model of transcriptional control of the Drosophila melanogaster even skipped gene. Nature genetics. 38. 1159-65. 10.1038/ng1886.
[180] Desterke, Christophe & Chiappini, Franck. (2019). Lipid Related Genes Altered in NASH Connect Inflammation in Liver Pathogenesis Progression to HCC: A Canonical Pathway. International Journal of Molecular Sciences. 20. 5594. 10.3390/ijms20225594.
[181] Roche, Mathieu. (2011). Fouille de Textes : de l'extraction des descripteurs linguistiques à leur induction.
[182] Garg, Sahil & Galstyan, Aram & Hermjakob, Ulf & Marcu, Daniel. (2015). Extracting Biomolecular Interactions Using Semantic Parsing of Biomedical Text.
[183] Galdón, Salvador & Pereira, Cecile & Conesa, Ana. (2020). Padhoc: a computational pipeline for pathway reconstruction on the fly. Bioinformatics. 36. i795-i803. 10.1093/bioinformatics/btaa811.
[184] Zerva, Chryssa & Batista-Navarro, Riza & Day, Philip & Ananiadou, Sophia. (2017). Using uncertainty to link and rank evidence from biomedical literature for model curation. Bioinformatics (Oxford, England). 33. 10.1093/bioinformatics/btx466.
[185] Usié Chimenos, Ana & Karathia, Hiren & Teixidó, Ivan & Solsona, Francesc & Alves, Rui. (2014). Biblio-MetReS for user-friendly mining of genes and biological processes in scientific documents. 10.7287/peerj.preprints.232v1.
[186] Plake C, Schiemann T, Pankalla M, Hakenberg J, Leser U (2006) ALIBABA: PubMed as a graph. Bioinformatics 22(19):2444–2445
[187] Bonner, Stephen & Barrett, Ian & Ye, Cheng & Swiers, Rowan & Engkvist, Ola & Hamilton, William. (2021). A Review of Biomedical Datasets Relating to Drug Discovery: A Knowledge Graph Perspective.
[188] Soto, Axel & Zerva, Chryssa & Batista-Navarro, Riza & Ananiadou, Sophia. (2017). LitPathExplorer: A Confidence-based Visual Text Analytics Tool for Exploring Literature-Enriched Pathway Models. Bioinformatics (Oxford, England). 34. 10.1093/bioinformatics/btx774.
[189] Aterido, Adrià & Cañete, Juan & Tornero, Jesús & Blanco, Francisco & Fernández-Gutierrez, Benjamín & Pérez, Carolina & Alperi, Mercedes & Olivé, Alejandro & Corominas, Hèctor & Martínez-Taboada, Víctor & González-Álvaro, Isidoro & Fernández-Nebro, Antonio & Erra, Alba & López-Lasanta, María & Corbeto, Mireia & Palau, Núria & Marsal, Sara & Julià, Antonio. (2019). A Combined Transcriptomic and Genomic Analysis Identifies a Gene Signature Associated With the Response to Anti-TNF Therapy in Rheumatoid ArthritisData_Sheet_1.pdf. Frontiers in Immunology. 10. 10.3389/fimmu.2019.01459.
[190] DAVID: database for annotation. Visualization, and integrated discovery.
[191] Canzler, Sebastian & Hackermüller, Jörg. (2020). multiGSEA: a GSEA-based pathway enrichment analysis for multi-omics data. BMC Bioinformatics. 21. 10.1186/s12859-020-03910-x.
[192] Pottie, Lore & Gool, Wouter & Vanhooydonck, Michiel & Hanisch, Franz-Georg & Goeminne, Geert & Rajkovic, Andreja & Coucke, Paul & Sips, Patrick & Callewaert, Bert. (2021). Loss of zebrafish atp6v1e1b, encoding a subunit of vacuolar ATPase, recapitulates human ARCL type 2C syndrome and identifies multiple pathobiological signatures. PLOS Genetics. 17. e1009603. 10.1371/journal.pgen.1009603.
[193] Tambassi, Timothy. (2021). Ontological Categories for Geo-Ontologies. 10.1007/978-3-030-78145-3_7.
[194] Klapper, Isaac & Szyld, Daniel & Zhao, Kai. (2021). Metabolic Networks, Elementary Flux Modes, and Polyhedral Cones. 10.1137/1.9781611976533.
[195] Guil-Asensio, Francisco & Hidalgo, Jose & Garcia, Jose. (2020). Flux Coupling and the Objective Functions’ Length in EFMs. Metabolites. 10. 489. 10.3390/metabo10120489.
[196] Benstead-Hume, Graeme & Chen, Xiangrong & Hopkins, Suzanna & Lane, Karen & Downs, Jessica & Pearl, Frances. (2019). Predicting synthetic lethal interactions using conserved patterns in protein interaction networks. PLOS Computational Biology. 15. e1006888. 10.1371/journal.pcbi.1006888.
[197] Bademci, Guney & Edwards, Yvonne & Beecham, Gary & Khuri, Sawsan & Tekin, Demet & Martin, Eden & Scott, William & Jiang, Zhijie & Mash, Deborah & French-Mullen, Jarlath & Pericak-Vance, Margaret & Tsinoremas, Nicholas & Vance, Jeff. (2011). Pathway Analysis for Parkinson Disease: An Integrative Systems Biology Aproach. A22-A22.
[198] Ho, Hsiang-Ling & Chou, Teh-Ying & Yang, Shung-Haur & Jiang, Jeng-Kai & Chen, Wei-Shone & Chao, Yee & Teng, Hao-Wei. (2019). PD-L1 is a double-edged sword in colorectal cancer: the prognostic value of PD-L1 depends on the cell type expressing PD-L1. Journal of Cancer Research and Clinical Oncology. 145. 10.1007/s00432-019-02942-y.
[199] Yi, Lim & Chin, Tan & Mohamad, Mohd & bin deris, Safaai & Subair, Saad & Ibrahim, Zuwairie. (2015). A Review on Metabolic Pathway Analysis in Biological Production. Mini-Reviews in Organic Chemistry. 13. 1-1. 10.2174/1570193X13666151218191358.
[200] Pham, Vu & Liu, Lin & Bracken, Cameron & Goodall, Gregory & Li, Jiuyong & le, Thuc. (2021). Computational methods for cancer driver discovery: A survey. Theranostics. 11. 5553-5568. 10.7150/thno.52670.