Contenido principal
Implementación de una taxonomía de clasificación de causas externas de los accidentes por medio de automatización con machine learning utilizando la información del relato de la denuncia

Implementación de una taxonomía de clasificación de causas externas de los accidentes por medio de automatización con machine learning utilizando la información del relato de la denuncia

El presente informe explora la implementación de un sistema automatizado para la detección y clasificación de accidentes laborales, a partir de relatos médicos, utilizando grandes modelos de lenguaje (LLMs) y la taxonomía CILCE. El objetivo central fue identificar una estructura taxonómica adecuada —en términos de granularidad y contextualización— y evaluar la capacidad de los LLMs para realizar tareas de codificación clínica de manera eficiente y precisa. Se trabajó con relatos médicos recolectados mediante API durante julio de 2024, correspondientes al promedio mensual de registros de una mutual de salud laboral. De un universo de 15.000 relatos, se extrajo una submuestra aleatoria de 1.000 casos, y una muestra reducida de 100 relatos fue utilizada para el etiquetado manual, orientado al entrenamiento y evaluación preliminar del sistema. El sistema se basó en una arquitectura que integra modelos de similitud semántica, embeddings vectoriales e interacciones multiagente para mejorar tanto el etiquetado como la validación iterativa. Los resultados obtenidos, con una precisión del 75,5%, demuestran la eficacia de los LLMs en la comprensión contextual, selección de etiquetas y coherencia semántica, incluso en entornos clínicos complejos. Se destaca el valor estructural de la taxonomía CILCE, diseñada con múltiples ejes (lugar, ocupación, actividad, transporte e intención), lo cual permite una codificación granular y situacional del accidente, superando a otras clasificaciones convencionales. Este enfoque no solo facilita la clasificación automatizada, sino que habilita el análisis preventivo y epidemiológico mediante la transformación de relatos en datos estructurados, explotables por sistemas de inteligencia artificial y business intelligence. En definitiva, el proyecto demuestra que la combinación de taxonomías especializadas como CILCE, modelos de lenguaje de última generación y arquitecturas semánticas avanzadas representa un camino prometedor para la automatización de tareas críticas en salud y seguridad laboral. Además, establece una base sólida para desarrollar sistemas predictivos y estrategias preventivas basadas en datos clínicos codificados.

Colección Bired: Investigaciones

Tipo de contenido: Estudio externo

Temas: Seguro laboral (Ley 16.744)

Organismo: MUSEG

Investigador: José Miguel Tobar

Periodo: 2025

Palabras claves: Machine learning - Relatos denuncias