Heal: un cadre pour l’évaluation des actions en santé des performances d’apprentissage automatique

 Heal: un cadre pour l’évaluation des actions en santé des performances d’apprentissage automatique

L’équité en santé est une préoccupation sociétale majeure dans le monde entier, les disparités ayant de nombreuses causes. Ces sources comprennent des limites d’accès aux soins de santé, des différences de traitement clinique et même des différences fondamentales dans la technologie de diagnostic. Dans la dermatologie par exemple, les résultats du cancer de la peau sont pires pour les populations telles que les minorités, celles qui ont un statut socioéconomique inférieur ou des personnes ayant un accès limité aux soins de santé. Bien qu’il y ait beaucoup de promesses dans les progrès récents de l’apprentissage automatique (ML) et de l’intelligence artificielle (IA) pour aider à améliorer les soins de santé, cette transition de la recherche au chevet doit s’accompagner d’une compréhension approfondie de savoir si et comment elles ont un impact sur l’équité en santé.

Capitaux propres en santé est défini par les organisations de santé publique comme une équité d’opportunité pour tout le monde d’être aussi saine que possible. Surtout, les capitaux propres peuvent être différents de égalité. Par exemple, les personnes ayant des obstacles plus importantes à l’amélioration de leur santé peuvent nécessiter un effort plus ou différent pour vivre cette opportunité équitable. De même, l’équité n’est pas justice tel que défini dans l’IA pour la littérature sur les soins de santé. Alors que l’équité de l’IA s’efforce souvent d’égmenter les performances de la technologie de l’IA dans différentes populations de patients, cela ne se concentre pas dans l’objectif de hiérarchiser les performances en ce qui concerne les disparités de santé préexistantes.

Considérations en matière d’équité en santé. Une intervention (par exemple, un outil basé sur ML, indiqué en bleu foncé) favorise les capitaux propres en matière de santé s’il contribue à réduire les disparités existantes dans les résultats pour la santé (indiqués en bleu plus léger).

Dans « Évaluation de l’équité en santé des performances de l’apprentissage automatique (Heal): un cadre et une étude de cas de modèle AI Framework and Dermatology AI», Publié dans Lancet EclinicalMedicinenous proposons une méthodologie pour évaluer quantitativement si les technologies de santé basées sur la ML fonctionnent équitablement. En d’autres termes, le modèle ML fonctionne-t-il bien pour ceux qui ont les pires résultats pour la santé pour la ou les conditions que le modèle est censée aborder? Cet objectif ancre sur le principe selon lequel l’équité en santé devrait hiérarchiser et mesurer les performances du modèle en ce qui concerne les résultats de santé disparates, qui peuvent être dus à un certain nombre de facteurs qui incluent les inégalités structurelles (par exemple, démographique, social, culturel, politique, économique, environnemental et géographique).


Le cadre des capitaux propres de la santé (Heal)

Le Cadre Heal propose un processus en 4 étapes pour estimer la probabilité qu’une technologie de santé basée sur ML fonctionne équitablement:

  1. Identifier les facteurs associés aux inégalités de santé et définir les mesures de performance des outils,
  2. Identifier et quantifier les disparités de santé préexistantes,
  3. Mesurez les performances de l’outil pour chaque sous-population,
  4. Mesurez la probabilité que l’outil privilégie les performances en ce qui concerne les disparités en matière de santé.

La sortie de la dernière étape est appelée la métrique de la guérison, ce qui quantifie à quel point les performances du modèle ML sont anticipées avec les disparités en matière de santé. En d’autres termes, le modèle fonctionne-t-il mieux avec les populations qui ont les pires résultats pour la santé?

Ce processus en 4 étapes est conçu pour informer les améliorations pour rendre les performances du modèle ML plus équitables, et est censé être itératif et réévalué régulièrement. Par exemple, la disponibilité des données sur les résultats de la santé à l’étape (2) peut éclairer le choix des facteurs démographiques et des supports à l’étape (1), et le cadre peut être appliqué à nouveau avec de nouveaux ensembles de données, modèles et populations.

Cadre pour l’évaluation des actions en santé des performances d’apprentissage automatique (Heal). Notre principe directeur est d’éviter d’agrandir les inégalités de santé, et ces étapes nous aident à identifier les disparités et à évaluer les performances du modèle inéquitables pour évoluer vers de meilleurs résultats pour tous.

Avec ce travail, nous faisons un pas vers l’encouragement de l’évaluation explicite des considérations sur l’équité en santé des technologies de l’IA, et encourageons la hiérarchisation des efforts pendant le développement du modèle afin de réduire les inégalités de santé pour les sous-populations exposées aux inégalités structurelles qui peuvent précipiter les résultats disparus. Nous devons noter que le cadre actuel ne modélise pas les relations causales et ne peut donc pas quantifier l’impact réel qu’une nouvelle technologie aura sur la réduction des disparités des résultats pour la santé. Cependant, la métrique Heal peut aider à identifier les opportunités d’amélioration, où les performances actuelles ne sont pas prioritaires en ce qui concerne les disparités préexistantes pour la santé.


Étude de cas sur un modèle de dermatologie

En tant qu’étude de cas illustrative, nous avons appliqué le cadre à un modèle de dermatologie, qui utilise un réseau neuronal convolutionnel similaire à celui décrit dans travaux antérieurs. Cet exemple de modèle de dermatologie a été formé pour classer 288 conditions cutanées à l’aide d’un ensemble de données de développement de 29k cas. L’entrée du modèle se compose de trois photos d’une préoccupation cutanée ainsi que des informations démographiques et des antécédents médicaux structurés. La sortie se compose d’une liste classée d’éventuelles affections cutanées correspondantes.

En utilisant le cadre Heal, nous avons évalué ce modèle en évaluant s’il a priorisé les performances en ce qui concerne les résultats de santé préexistants. Le modèle a été conçu pour prédire les conditions dermatologiques possibles (à partir d’une liste de centaines) sur la base de photos d’une préoccupation cutanée et de métadonnées des patients. L’évaluation du modèle se fait à l’aide d’une métrique d’accord top-3, qui quantifie à quelle fréquence les 3 premières conditions de sortie correspondent à la condition la plus probable comme suggérée par un panel dermatologue. La métrique Heal est calculée via l’anticorrélation de cet accord top 3 avec les classements des résultats de la santé.

Nous avons utilisé un ensemble de données de 5 420 cas de télédermatologie, enrichi pour la diversité de l’âge, du sexe et de la race / ethnique, pour évaluer rétrospectivement la métrique de guérison du modèle. L’ensemble de données consistait en des cas de «magasin-et-arrière» de patients de 20 ans ou plus de fournisseurs de soins primaires aux États-Unis et des cliniques de cancer de la peau en Australie. Sur la base d’une revue de la littérature, nous avons décidé d’explorer la race / l’ethnicité, le sexe et l’âge comme facteurs potentiels d’iniquité, et avons utilisé des techniques d’échantillonnage pour garantir que notre ensemble de données d’évaluation avait une représentation suffisante de toutes les groupes raciaux / ethniques, sexe et d’âge. Pour quantifier les résultats de santé préexistants pour chaque sous-groupe, nous nous sommes appuyés sur des mesures de publique bases de données approuvé par l’Organisation mondiale de la santé, comme Des années de vie perdues (Ylls) et Années de vie ajustées au handicap (Dalys; années de vie perdues plus des années vivaient avec handicap).

Guérir la métrique pour toutes les conditions dermatologiques à travers les sous-populations raciales / ethniques, y compris les résultats pour la santé (YLLS pour 100 000), les performances du modèle (accord top-3) et les classements pour les résultats pour la santé et les performances des outils.
(* Plus haut, c’est mieux; mesure la probabilité que le modèle fonctionne équitablement par rapport aux axes de ce tableau.)
Notre analyse a estimé que le modèle était de 80,5% susceptible de fonctionner équitablement entre les sous-groupes raciaux / ethniques et 92,1% susceptibles de fonctionner équitablement entre les sexes.

Cependant, alors que le modèle était susceptible de fonctionner de manière équitable entre les groupes d’âge pour les conditions de cancer, nous avons découvert qu’il avait une place à l’amélioration entre les groupes d’âge pour les conditions non cancéreuses. Par exemple, ces 70+ ont les résultats pour la santé les plus pauvres liés aux conditions cutanées non cancer, mais le modèle n’a pas priorisé les performances de ce sous-groupe.

Guérissez la métrique pour toutes les conditions dermatologiques entre les sexes, y compris les résultats pour la santé (DALYS pour 100 000), les performances du modèle (accord top 3) et les classements pour les résultats pour la santé et les performances des outils. (* Comme ci-dessus.)
Guérir des mesures pour toutes les conditions dermatologiques du cancer et des non-cancer dans les groupes d’âge, y compris les résultats pour la santé (Dalys pour 100 000), la performance du modèle (accord top-3) et les classements pour les résultats pour la santé et les performances des outils. (* Comme ci-dessus.)

Mettre les choses en contexte

Pour l’évaluation holistique, la métrique de la guérison ne peut pas être utilisée de manière isolée. Au lieu de cela, cette métrique doit être contextualisée aux côtés de nombreux autres facteurs allant de l’efficacité de calcul et de la confidentialité des données aux valeurs éthiques, et des aspects qui peuvent influencer les résultats (par exemple, le biais de sélection ou les différences de représentation des données d’évaluation entre les groupes démographiques).

À titre d’exemple contradictoire, la métrique Heal peut être artificiellement améliorée en réduisant délibérément les performances du modèle pour la sous-population la plus avantageuse jusqu’à ce que les performances de cette sous-population soient pires que tous les autres. À des fins illustratives, étant donné les sous-populations A et B où A a des résultats pour la santé pires que B, considérez le choix entre deux modèles: le modèle 1 (M1) fonctionne mieux 5% pour la sous-population A que pour la sous-population B. Le modèle 2 (M2) fonctionne 5% sur la sous-population A que B. La guérison serait plus élevée pour M1, car il accorde les performances sur une sous-population avec des résultats pires. Cependant, M1 peut avoir des performances absolues de seulement 75% et 70% pour les sous-populations A et B respectivement, tandis que M2 a des performances absolues de 75% et 80% pour les sous-populations A et B respectivement. Le choix de M1 sur M2 conduirait à des performances globales moins importantes pour toutes les sous-populations, car certaines sous-populations sont pires alors qu’aucune sous-population n’est mieux.

En conséquence, la métrique de la guérison doit être utilisée aux côtés d’un État de Pareto (discuté plus loin dans l’article), qui restreint les modifications du modèle afin que les résultats pour chaque sous-population soient inchangés ou améliorés par rapport au statu quo, et les performances ne s’aggravent pas pour aucune sous-population.

Le cadre de la santé, dans sa forme actuelle, évalue la probabilité qu’un modèle basé sur la ML priorise les performances des sous-populations en ce qui concerne les disparités de santé préexistantes pour des sous-populations spécifiques. Cela diffère du but de comprendre si la ML réduira les disparités des résultats entre les sous-populations en réalité. Plus précisément, la modélisation des améliorations des résultats nécessite une compréhension causale des étapes du parcours de soins qui se produisent avant et après l’utilisation d’un modèle donné. Des recherches futures sont nécessaires pour combler cette lacune.


Conclusion

Le cadre de la santé permet une évaluation quantitative de la probabilité que les technologies de la santé de l’IA priorisent les performances en ce qui concerne les disparités en matière de santé. L’étude de cas montre comment appliquer le cadre du domaine dermatologique, indiquant une forte probabilité que la performance du modèle est prioritaire en ce qui concerne les disparités de santé à travers le sexe et la race / l’origine ethnique, mais révélant également le potentiel d’amélioration des conditions non cancéreuses à travers l’âge. L’étude de cas illustre également les limites de la capacité d’appliquer tous les aspects recommandés du cadre (par exemple, le contexte sociétal de cartographie, la disponibilité des données), mettant ainsi en évidence la complexité des considérations d’équité en santé des outils basés sur ML.

Ce travail est une approche proposée pour relever un grand défi pour l’IA et l’équité en matière de santé, et peut fournir un cadre d’évaluation utile non seulement pendant le développement du modèle, mais pendant les étapes de pré-mise en œuvre et de surveillance réelle, par exemple, sous la forme de tableaux de bord en actions en santé. Nous estimons que la force du cadre Heal est dans sa future application à divers outils d’IA et cas d’utilisation et son raffinement dans le processus. Enfin, nous reconnaissons qu’une approche réussie de la compréhension de l’impact des technologies de l’IA sur l’équité en santé doit être plus qu’un ensemble de mesures. Il faudra un ensemble d’objectifs convenus par une communauté qui représentent ceux qui seront le plus touchés par un modèle.


Remerciements

La recherche décrite ici est un travail conjoint dans de nombreuses équipes de Google. We are grateful to all our co-authors: Terry Spitz, Malcolm Pyles, Heather Cole-Lewis, Ellery Wulczyn, Stephen R. Pfohl, Donald Martin, Jr., Ronnachai Jaroensri, Geoff Keeling, Yuan Liu, Stephanie Farquhar, Qinghan Xue, Jenna Lester, Cían Hughes, Patricia Strachan, Fraser Tan, Peggy Bui, Craig H. Mermel, Lily H. Peng, Yossi Matias, Greg S. Corrado, Dale R. Webster, Sunny Virmani, Christopher Semturs, Yun Liu et Po-hsuan Cameron Chen. Nous remercions également Lauren Winer, Sami Lachgar, Ting-An Lin, Aaron Loh, Morgan Du, Jenny Rizk, Renee Wong, Ashley Carrick, Preeti Singh, Annisah Um’rani, Jessica Schrouff, Alexander Brown et Anna Iurchenko pour leur soutien.



Source link

Related post