Resumen
Antecedentes
Los biomarcadores sanguíneos que predicen la progresión de la fibrosis pulmonar idiopática (FPI) serían valiosos para la investigación y la práctica clínica. Utilizamos datos del Registro IPF-PRO para investigar si la adición de datos «ómicos» a los modelos de predicción de riesgos basados en características demográficas y clínicas mejoraba la predicción de la progresión de la FPI.
Métodos
El Registro IPF-PRO inscribió a pacientes con FPI en 46 sitios en todo Estados Unidos. Los pacientes fueron seguidos de forma prospectiva. La mediana de seguimiento fue de 27,2 meses. Los modelos de predicción de la progresión de la enfermedad incluyeron datos ómicos (proteínas y microARN (miARN)), factores demográficos y factores clínicos, todos evaluados en el momento de la inscripción. Los datos sobre proteínas y miARN se incluyeron en los modelos como valores brutos o basados en grupos en varias combinaciones. Se aplicó la regresión de Cox del operador de selección y contracción mínima absoluta (Lasso) para los resultados compuestos de tiempo hasta el evento y se aplicó la regresión logística con penalización L1 para los resultados binarios evaluados al año. El rendimiento del modelo se evaluó mediante el índice C de Harrell (para resultados de tiempo transcurrido hasta el evento) o el área bajo la curva (para resultados binarios).
Resultados
Se analizaron datos de 231 pacientes. Los modelos basados en factores demográficos y clínicos, con o sin datos ómicos, fueron los modelos de mayor rendimiento para la predicción de todos los resultados de tiempo hasta el evento. Los cambios relativos en el índice C promedio después de incorporar datos ómicos en modelos basados en factores demográficos y clínicos oscilaron entre 1,7 y 3,2%. De los biomarcadores sanguíneos, la proteína surfactante D, el inhibidor de la serina proteasa A7 y la metaloproteinasa de matriz 9 (MMP-9) estuvieron entre los principales predictores de los resultados. Para los resultados binarios, los modelos basados únicamente en datos demográficos y los modelos basados en datos demográficos más ómicos tuvieron desempeños similares. De los biomarcadores sanguíneos, la quimiocina 11 con motivo CC, la proteína 1 de adhesión de células vasculares, la adiponectina, el antígeno carcinoembrionario y la MMP-9 fueron los predictores más importantes de los resultados binarios.
Conclusiones
Identificamos biomarcadores de proteínas circulantes y miARN asociados con la progresión de la FPI. Sin embargo, la integración de datos ómicos en modelos de predicción que incluían factores demográficos y clínicos no mejoró materialmente el rendimiento de los modelos.
Registro de prueba
ClinicalTrials.gov; Nº: NCT01915511; registrado el 5 de agosto de 2013; URL: www.clinicaltrials.gov.
Fondo
La fibrosis pulmonar idiopática (FPI) es una enfermedad pulmonar intersticial fibrosante progresiva que conduce a la pérdida de la función pulmonar y la muerte prematura.1). Aunque la FPI siempre es progresiva, progresa más rápidamente en algunos pacientes que en otros.2, 3). Varias características demográficas y clínicas se han asociado con la disminución de la función pulmonar o el riesgo de mortalidad en pacientes con FPI (3,4,5,6), pero sigue siendo un desafío predecir el riesgo de progresión a corto plazo para un paciente individual.
La identificación de biomarcadores circulantes que predicen la progresión de la FPI sería valiosa para la investigación y la práctica clínica. Las técnicas «ómicas», como la genómica, la transcriptómica, la proteómica y la metabolómica, pueden ayudar a identificar biomarcadores moleculares que predicen la progresión de la enfermedad. La agrupación permite resumir los datos moleculares de forma informativa. Aunque los métodos de agrupación no se pueden utilizar directamente para predecir el riesgo de los resultados, los datos de agrupación se pueden incorporar en los modelos de predicción de riesgos para mejorar su rendimiento.7).
El Registro IPF-PRO es un registro multicéntrico prospectivo estadounidense de pacientes con FPI (8). En un análisis previo de los datos de este registro, se identificaron dos nuevos endotipos de FPI integrando datos sobre proteínas circulantes y microARN (miARN) utilizando un método de agrupación no supervisado (9). Estos dos endotipos se asociaron con características clínicas distintas y diferentes riesgos de progresión de la enfermedad (9). En un análisis separado de datos de cohortes de EE. UU. y el Reino Unido, los análisis de agrupamiento basados en perfiles de expresión genética de 220 pacientes identificaron tres endotipos de FPI, que diferían en la supervivencia (10). Utilizamos datos del Registro IPF-PRO para investigar si la adición de datos ómicos (proteínas circulantes y miARN) a los modelos de predicción de riesgos basados en características demográficas y clínicas mejoraba la predicción de resultados clínicamente relevantes.
Métodos
Pacientes
El Registro IPF-PRO (ClinicalTrials.gov; No: NCT01915511; registrado el 5 de agosto de 2013) inscribió a pacientes con FPI diagnosticada o confirmada en el centro de inscripción dentro de los seis meses anteriores en 46 centros de EE. UU. Se recogieron muestras de sangre total y plasma en el momento de la inscripción y se almacenaron de forma centralizada. Las proteínas se analizaron utilizando una plataforma que abarca 1305 aptámeros (SOMAscan, SOMALogic, Inc). El miARN se aisló utilizando el kit avanzado miRNeasy Serum/Plasma (Qiagen). Los pacientes fueron seguidos de forma prospectiva, y los datos se recopilaron como parte de la atención clínica de rutina hasta la muerte, el trasplante de pulmón o la retirada del registro. El seguimiento desde un centro de llamadas centralizado confirmó el estado vital de los pacientes cada seis meses.
El estudio se realizó de acuerdo con la Declaración de Helsinki y fue aprobado por la Junta de Revisión Institucional de la Universidad de Duke (Pro00046131). El protocolo fue aprobado por las Juntas de Revisión Institucional pertinentes y/o los Comités de Ética Independientes locales en cada sitio. Todos los pacientes dieron su consentimiento informado por escrito.
Modelos de predicción
Nuestros modelos de predicción incluyeron datos ómicos (44 proteínas y 472 miARN), factores demográficos y factores clínicos, todos evaluados en el momento de la inscripción en el registro. Los factores demográficos fueron la edad, el sexo, el índice de masa corporal (IMC), el tabaquismo (alguna vez frente a nunca), el tratamiento con nintedanib y el tratamiento con pirfenidona. Los factores clínicos fueron valores porcentuales previstos para la capacidad vital forzada (FVC) y la capacidad de difusión de los pulmones para el monóxido de carbono (DLco). Los modelos base incluyeron sólo variables demográficas y/o clínicas. Los datos sobre proteínas y miARN se incluyeron en los modelos como valores brutos o según la etiqueta del grupo (que indica la pertenencia al grupo de cada paciente cuando los pacientes se agruparon en grupos usando proteínas o miARN) en varias combinaciones. Dado que los datos sobre proteínas y miARN pueden producir diferentes grupos, utilizamos los resultados de agrupamientos individuales de diferentes ómicas y los incorporamos en un modelo lineal generalizado. Los modelos se describen con más detalle en el archivo adicional 1.
Los resultados del tiempo transcurrido hasta el evento estudiados fueron resultados compuestos que incluyeron la muerte (Tabla 1). Además, se evaluaron dos resultados binarios: disminución absoluta del % previsto de FVC > 10 % al año y progresión de la enfermedad (disminución absoluta del % previsto de FVC > 10 %, disminución absoluta del % previsto de DLco > 15 %, muerte o trasplante de pulmón). ) al año.
Tabla 1 Proporciones de pacientes con resultados compuestos (N = 231)mesa de tamaño completoFlujo de trabajo
Utilizamos el siguiente flujo de trabajo para comparar el rendimiento predictivo de diferentes modelos (Fig. 1). Los datos se dividieron en un conjunto de entrenamiento (80%) y un conjunto de prueba (20%). Se realizó agrupación espectral en los datos de proteínas y miARN en el conjunto de entrenamiento para hacer predicciones para el conjunto de prueba. Se aplicó la regresión de Cox del operador de selección y contracción mínima absoluta (Lasso) para los datos de tiempo hasta el evento y se aplicó la regresión logística con penalización L1 para los resultados binarios. Se determinó la etiqueta de grupo para el conjunto de prueba y el rendimiento de los modelos que incluían la etiqueta de grupo se evaluó utilizando el índice C de Harrell para los resultados de tiempo hasta el evento y el área bajo la curva (AUC) para los resultados binarios. Se realizó un procedimiento de validación cruzada de 10 veces. La aleatoriedad surgió de la división de los datos en conjuntos de entrenamiento y prueba y del ajuste del modelo. El flujo de trabajo se repitió varias veces y se utilizó el índice C promedio para el modelo de Cox para datos de tiempo hasta el evento, o AUC para respuestas binarias, para estimar el rendimiento final del modelo. Un índice C promedio o AUC > 0,5 indicó que la predicción basada en modelos era mejor que una suposición aleatoria. Las variables se clasificaron según su importancia como predictores de los resultados.
Figura 1Flujo de trabajo para evaluar el rendimiento de diferentes modelos.
Imagen a tamaño completoPara determinar el grado de mejora en la predicción del riesgo, se calcularon los cambios porcentuales relativos en el índice C promedio antes y después de incorporar los datos ómicos en modelos basados únicamente en datos demográficos, o en factores demográficos más clínicos. Para estos cálculos, los datos ómicos incorporados fueron valores de proteína cruda y la etiqueta de grupo de los miARN.
Resultados
Tiempo hasta los resultados del evento
Se fusionaron datos demográficos, clínicos y ómicos de 231 pacientes. Las características iniciales de estos pacientes se resumen en la tabla 2. La mediana de seguimiento fue de 27,2 meses. En total, se realizaron 64 experimentos repetitivos para investigar el rendimiento de los modelos candidatos. La proporción de pacientes que experimentaron los resultados compuestos se muestra en la Tabla 1. Los índices C para cada modelo para el compuesto de muerte o trasplante de pulmón y el compuesto de muerte, trasplante de pulmón o disminución del % previsto de FVC > 10% se muestran en la figura. 2A y B. Los índices C para estos resultados de modelos que también incluyeron el uso de oxígeno en reposo se muestran en la figura T1 y T2. Los índices C para cada modelo para los otros resultados compuestos se muestran en la Fig.T3 y la figura. T4 en archivo adicional 1. Para todos los resultados compuestos, el modelo basado en los valores brutos de las proteínas y los valores brutos de los miARN solos arrojó un índice C superior a 0,5. Sin embargo, para todos los resultados compuestos, los modelos basados en factores demográficos y clínicos, con o sin la integración de datos ómicos, fueron los modelos de mejor rendimiento. El cambio porcentual relativo en el índice C promedio después de incorporar información ómica en los modelos de predicción basados en factores demográficos osciló entre 12,4 y 21,2% (Tabla 3). El cambio porcentual relativo en el índice C promedio después…