Resumen
Antecedentes
El derrame pleural tuberculoso (TPE) es una desafiante manifestación extrapulmonar de tuberculosis, con métodos de diagnóstico tradicionales que a menudo implican cirugía invasiva y requieren mucho tiempo. Si bien se han propuesto varios modelos de aprendizaje automático y estadísticos para el diagnóstico de TPE, estos métodos generalmente están limitados por complejidades en el procesamiento de datos y las dificultades en la integración de características. Por lo tanto, este estudio tiene como objetivo desarrollar un modelo de diagnóstico para TPE utilizando CHATGPT-4, un modelo de lenguaje grande (LLM), y comparar su rendimiento con la regresión logística tradicional y los modelos de aprendizaje automático. Al destacar las ventajas de los LLM en el manejo de datos clínicos complejos, identificar las interrelaciones entre las características y mejorar la precisión del diagnóstico, este estudio busca proporcionar una solución más eficiente y precisa para el diagnóstico temprano de TPE.
Métodos
Realizamos un estudio transversal, recopilando datos clínicos de 109 TPE y 54 pacientes no TPE para el análisis, seleccionando 73 características de más de 600 variables iniciales. El rendimiento de la LLM se comparó con la regresión logística y los modelos de aprendizaje automático (vecinos más grandes, bosques aleatorios, máquinas de vectores de soporte) utilizando métricas como el área bajo la curva (AUC), la puntuación F1, la sensibilidad y la especificidad.
Resultados
El LLM mostró un rendimiento comparable a los modelos de aprendizaje automático, superando la regresión logística en la sensibilidad, la especificidad y la precisión del diagnóstico general. Las características clave como los niveles de adenosina desaminasa (ADA) y el porcentaje de monocitos se integraron efectivamente en el modelo. También desarrollamos un paquete Python (https://pypi.org/project/tpeai/) para el diagnóstico rápido de TPE basado en datos clínicos.
Conclusiones
El modelo basado en LLM ofrece un método no quirúrgico, preciso y rentable para el diagnóstico temprano de TPE. El paquete Python proporciona una herramienta fácil de usar para los médicos, con potencial de uso más amplio. Se necesita una validación adicional en conjuntos de datos más grandes para optimizar el modelo para la aplicación clínica.
Introducción
El derrame pleural tuberculoso (TPE) es una forma frecuentemente encontrada de tuberculosis extrapulmonar, y sus características clínicas y de imágenes inespecíficas presentan desafíos de diagnóstico significativos. El diagnóstico temprano y preciso de TPE es crítico para el tratamiento oportuno, especialmente en regiones con una alta carga de tuberculosis. Sin embargo, los métodos de diagnóstico tradicionales, como la biopsia pleural y el análisis de derrame pleural (PE), a menudo demuestran una sensibilidad limitada. Esta limitación subraya la necesidad de herramientas de diagnóstico más avanzadas. Si bien numerosos estudios han explorado modelos de aprendizaje automático para el diagnóstico de TPE, el potencial de los modelos de idiomas grandes (LLM) como ChatGPT-4 aún no se ha investigado a fondo. Este estudio tiene como objetivo crear un modelo de diagnóstico para TPE utilizando CHATGPT-4 y comparar su rendimiento con los modelos tradicionales de diagnóstico de TPE basados en la regresión logística y los métodos de aprendizaje automático. También exploramos las diferencias de rendimiento entre estos enfoques.
En muchos países, TPE es una causa principal de PE y uno de los tipos más frecuentes de tuberculosis extrapulmonar, planteando un problema prominente de salud pública en los países en desarrollo, incluida China ((1, 2). El TPE es causado por la infección por Micobacterium tuberculosis de la pleura, caracterizada por una acumulación sustancial de derrame crónico y células inflamatorias en la cavidad pleural (3). La combinación del recuento de linfocitos elevados, la EP exudativa y el aumento de los niveles de adenosina desaminasa (ADA) es crucial para el diagnóstico de TPE. Sin embargo, en los primeros casos, los neutrófilos pueden predominando (4), Los niveles de ADA pueden ser relativamente bajos (5), y el umbral óptimo de ADA de líquido pleural para el diagnóstico de TPE varía entre los estudios (1, 6). El estándar de oro para diagnosticar TPE es detectar Mycobacterium tuberculosis en PE o muestras de biopsia pleural (1). Sin embargo, los cultivos microbiológicos de líquido pleural tienen bajas tasas de positividad y requieren mucho tiempo, a menudo requieren hasta ocho semanas. Además, obtener muestras pleurales a través de toracoscopia o biopsia pleural percutánea implica un procedimiento quirúrgico, que plantea un trauma sustancial y riesgos de complicaciones, como el neumotórax iatrogénico (7). Por lo tanto, diagnosticar TPE sigue siendo desafiante. Esto resalta la necesidad crítica de un método menos invasivo, más preciso y rentable para el diagnóstico temprano de TPE.
Recientemente, el uso de la inteligencia artificial (IA) en la atención médica se ha expandido gradualmente. El aprendizaje automático, un subconjunto de IA, crea algoritmos que utilizan conjuntos de datos grandes y complejos. Esto permite a las computadoras exhibir un comportamiento inteligente (8). Los algoritmos de aprendizaje automático (MLA), como los vecinos más nears (KNN), los bosques aleatorios (RF) y las máquinas de vectores de apoyo (SVM), pueden generar modelos de diagnóstico de enfermedades eficientes, objetivos y precisos. El aprendizaje automático ha mostrado un amplio potencial para el diagnóstico clínico (9). Zhou et al. propuso un nuevo algoritmo, CFDE, para la selección de características en el análisis de características clínicas de TPE. Este algoritmo demostró ventajas significativas en la optimización global y la selección de características. Cuando se combina con el modelo SVM, identificó efectivamente indicadores clínicos clave asociados con TPE, apoyando el diagnóstico temprano y el tratamiento de TPE (10). Ren et al. Exploró biomarcadores de diagnóstico para TPE e incorporó características clínicas del paciente en MLA, incluidas la regresión logística, SVM, RF y KNN. Los resultados mostraron que RF logró un área bajo el valor de la curva (AUC) de 0.97, significativamente más alto que el AUC de la ADA de derrame pleural (0.89) (11). Li et al. desarrolló un nuevo modelo llamado BGACO-SVM para clasificar TPE de no TPE. Los resultados mostraron que este modelo difería de los MLA clásicos (12). Además, Li et al. Combinado un nuevo algoritmo, FS-MFO-SVM, con selección de características para diagnosticar TPE. Este enfoque demostró una precisión promedio del 95%, un AUC de 0.9564, sensibilidad del 93.35%y una especificidad del 97.57%(13). A pesar de estos avances, los métodos basados en el aprendizaje automático aún enfrentan desafíos para integrar y analizar efectivamente datos clínicos complejos y multidimensionales, especialmente cuando se trata de datos de alta variabilidad.
Los LLM son sistemas AI basados en el aprendizaje profundo (14, 15). Al aprender de grandes cantidades de datos, pueden analizar información clínica compleja y proporcionar sugerencias de diagnóstico médico (16,17,18,19,20). Se han realizado un progreso significativo en la aplicación de LLM al diagnóstico y tratamiento de la enfermedad. Los estudios han demostrado que las LLM, como ChatGPT, pueden ayudar a los médicos a acceder rápidamente y resumir grandes volúmenes de literatura médica. Esto les permite mantenerse actualizados sobre estudios recientes sobre enfermedades raras y facilita el diagnóstico más preciso (21). Tassallah et al. Evaluó el rendimiento de tres LLM (ChatGPT 3.5, ChatGPT-4 y Google Bard) en diagnosticar afecciones como tuberculosis quilosa e insuficiencia cortical suprarrenal primaria. Los resultados mostraron que estos modelos superaron la precisión diagnóstica promedio de los médicos (22). Zheng et al. Señaló que ChatGPT se destacó en ayudar al diagnóstico de enfermedades como la hipertensión arterial pulmonar primaria y la enfermedad de Parkinson con un inicio temprano. Demostró la capacidad de analizar rápidamente la literatura médica y los datos del paciente mientras formulan planes de tratamiento personalizados (23). Hu et al. La capacidad evaluada de ChatGPT-4 para diagnosticar enfermedades oculares raras en diferentes escenarios. Los resultados mostraron que ChatGPT-4 ayudó a los oftalmólogos de atención primaria a diagnosticar afecciones oculares raras de manera más rápida y precisa (24). Además, Carlo et al. evaluó el rendimiento de varios AI LLMS (ChatGPT 3.5, ChatGPT-4, Bing Chat, Google Bard y Claude) al responder preguntas médicas sobre enfermedades como Timoma y el síndrome de Good. Los resultados mostraron que ChatGPT-4 y Bard superaron a otros en términos de precisión de la información, capacidad de respuesta y aplicabilidad clínica (25). Estos estudios demuestran que los LLM ofrecen una eficiencia superior en comparación con los métodos tradicionales y también pueden proporcionar ventajas en la precisión del diagnóstico. Sin embargo, si bien estos modelos LLM han demostrado ser prometedores en varios escenarios clínicos, su aplicación al diagnóstico de TPE permanece inexplorada.
Este estudio tiene como objetivo cerrar esta brecha mediante el desarrollo de un modelo de diagnóstico para TPE utilizando el LLM. Comparamos su rendimiento con los enfoques de diagnóstico tradicionales, incluida la regresión logística y varios MLA, para evaluar su capacidad para diagnosticar TPE. Los resultados muestran que los LLM, particularmente ChatGPT-4, se destacan en la integración de datos clínicos e identifican posibles relaciones entre características complejas, ofrecen nuevas ideas y soporte para el diagnóstico temprano de TPE. Además, desarrollamos y publicamos un paquete de software Diagnostic LLM basado en ChatGPT-4 para distinguir entre TPE y no TPE, lo que lo hace accesible para uso clínico. El refinamiento futuro de esta herramienta podría mejorar significativamente la precisión y la eficiencia del diagnóstico, facilitando en última instancia el diagnóstico anterior y el tratamiento más personalizado de TPE.
Materiales y métodos
Pacientes y diseño de estudio
Este estudio incluyó 38,885 pacientes hospitalizados desde enero de 2011 hasta junio de 2024 en el Hospital Affiliado de la Universidad de Jiujiang. Se realizó un estudio transversal. Los pacientes eran elegibles para la inscripción si cumplían con los siguientes criterios: (1) un diagnóstico de derrame pleural (PE) confirmado por ultrasonido, tomografía computarizada de tórax (TC) o rayos X; (2) Un diagnóstico de EP confirmado por biopsia pleural. Los criterios de exclusión fueron: (1) pacientes que se habían sometido a tratamiento contra la tuberculosis antes del ingreso; (2) mujeres embarazadas; (3) pacientes con datos clínicos incompletos (más del 20% de falta); (4) pacientes con una causa desconocida de EP. Todos los pacientes incluidos en el estudio fueron diagnosticados recién diagnosticados y no habían recibido ningún tratamiento previo. Recopilamos información demográfica, de laboratorio e clínica relevante del sistema de registros electrónicos clínicos del hospital. En…
(Tagstotranslate) Efección pleural tuberculosa (T) Modelo de lenguaje grande (T) CHATGPT-4 (T) Modelo de diagnóstico de inteligencia artificial (T) Sistema de neumología/respiratorio