banner
Maison / Blog / Performances comparatives des algorithmes d'apprentissage automatique en radiomique et facteurs d'impact
Blog

Performances comparatives des algorithmes d'apprentissage automatique en radiomique et facteurs d'impact

Jun 26, 2023Jun 26, 2023

Rapports scientifiques volume 13, Numéro d'article : 14069 (2023) Citer cet article

76 accès

1 Altmétrique

Détails des métriques

Il n’existe actuellement aucune recommandation sur les algorithmes d’apprentissage automatique (ML) à utiliser en radiomique. L'objectif était de comparer les performances des algorithmes ML en radiomique lorsqu'ils sont appliqués à différentes questions cliniques afin de déterminer si certaines stratégies pouvaient donner les performances les meilleures et les plus stables quels que soient les ensembles de données. Cette étude compare les performances de neuf algorithmes de sélection de caractéristiques combinés à quatorze algorithmes de classification binaire sur dix jeux de données. Ces ensembles de données comprenaient des caractéristiques radiomiques et un diagnostic clinique pour les classifications cliniques binaires, notamment la pneumonie ou la sarcopénie au COVID-19 en tomodensitométrie, les lésions de la tête et du cou, orbitaires ou utérines en IRM. Pour chaque ensemble de données, une répartition train-test a été créée. Chacune des 126 (9 × 14) combinaisons d'algorithmes de sélection de caractéristiques et d'algorithmes de classification a été entraînée et réglée à l'aide d'une validation croisée décuplée, puis l'AUC a été calculée. Cette procédure a été répétée trois fois par ensemble de données. Les meilleures performances globales ont été obtenues avec JMI et JMIM comme algorithmes de sélection de caractéristiques et avec des modèles de forêt aléatoire et de régression linéaire comme algorithmes de classification. Le choix de l'algorithme de classification était le facteur expliquant la majeure partie de la variation des performances (10 % de la variance totale). Le choix de l’algorithme de sélection des fonctionnalités n’expliquait que 2 % de la variation, tandis que la répartition train-test en expliquait 9 %.

La radiomique peut être définie comme l'extraction quantitative d'un grand nombre de caractéristiques à partir d'images médicales pour la découverte de nouveaux biomarqueurs d'imagerie prédictifs, diagnostiques ou pronostiques de maladies. La radiomique permet l’extraction non invasive d’informations invisibles à l’œil humain à partir d’images médicales à l’aide de techniques d’apprentissage automatique et a donné des résultats prometteurs. Cependant, le manque de normes entrave l’utilisation des biomarqueurs radiomiques en milieu clinique1.

Une étude radiomique est structurée en cinq étapes : constitution de cohorte et acquisition d’imagerie, segmentation de la région d’intérêt (ROI), extraction de caractéristiques, modélisation et validation externe sur un ensemble de données (idéalement) indépendant2.

La phase de modélisation elle-même repose sur deux étapes distinctes : la sélection des caractéristiques et la prédiction. Pour chaque étape, de nombreuses méthodes et algorithmes différents sont disponibles, ce qui conduit à un grand nombre de combinaisons possibles. À ce jour, aucune stratégie ou recommandation n’a émergé sur le ou les algorithmes à utiliser préférentiellement lors de la réalisation de radiomiques. Certaines équipes ont donc choisi de tester simultanément différents algorithmes lors de la réalisation des études, car on estime que les algorithmes qui ont fourni les meilleurs résultats dépendent du scénario3. Cependant, tester un grand nombre de stratégies lors de la réalisation de radiomiques sur un ensemble de données donné augmente le risque de fausses découvertes. Par conséquent, il peut être souhaitable d’utiliser un plus petit nombre de modèles sélectionnés pour augmenter les chances d’obtenir des résultats significatifs.

Même s’il existe quelques initiatives pour émettre des recommandations comme le Radiomics Quality Score2 ou la Checklist for Artificial Intelligence in Medical Imaging (CLAIM)4, ces recommandations ne sont pas bien suivies. Par exemple, sur les 69 études d'apprentissage automatique sur le diagnostic ou le pronostic du Covid-19 étudiées par Roberts et al.5, seules 25 ont obtenu un RQS supérieur à 6 sur 36. Ces résultats sont étayés par l'analyse de Spadarella et al.6, qui a obtenu un RQS médian de 21 % (7,5) pour 44 études radiomiques. Il s’agit d’un problème important, car de mauvais choix méthodologiques à différentes étapes des études pourraient conduire à des résultats biaisés. Un biais pourrait être introduit dès l’étape de constitution de la cohorte si la distribution de l’ensemble de données de formation est différente de celle de la population cible7. Elle peut également être introduite par la variabilité de l'opérateur lors de l'annotation du jeu de données. Joskowicz et al8 ont montré sur 3193 segmentations CT que la variabilité moyenne du chevauchement de volume entre deux observateurs était de 37 %. Cette variabilité peut empêcher certaines caractéristiques radiomiques d'être reproductibles. En outre, les algorithmes de ML pourraient surajuster ou fournir des performances mal estimées. Les expériences de Varoquaux et al.9 sur des ensembles de données de neuroimagerie révèlent qu'un échantillon d'étude d'une centaine entraîne des erreurs de ± 10 % dans la précision des prédictions. À l'inverse, l'étude de Roelofs et al.10 sur les compétitions de Kaggle a montré que le surapprentissage peut être évité grâce à des échantillons de test suffisamment grands. Roelofs considérait 10 000 exemples comme le minimum pour se protéger contre le surapprentissage.