SCIN: une nouvelle ressource pour les images de dermatologie représentatives

 SCIN: une nouvelle ressource pour les images de dermatologie représentatives

Les ensembles de données sur la santé jouent un rôle crucial dans la recherche et l’éducation médicale, mais il peut être difficile de créer un ensemble de données qui représente le monde réel. Par exemple, les conditions de dermatologie sont diverses dans leur apparence et leur gravité et se manifestent différemment entre les tons cutanés. Pourtant, les ensembles de données d’image de dermatologie existants manquent souvent de représentation des conditions quotidiennes (comme les éruptions cutanées, les allergies et les infections) et se faufilent vers des tons de peau plus clairs. En outre, les informations sur la race et l’ethnicité sont fréquemment manquantes, ce qui entrave notre capacité à évaluer les disparités ou à créer des solutions.

Pour répondre à ces limitations, nous publions le Ensemble de données réseau d’image de l’état de la peau (SCIN) en collaboration avec les médecins à Médecine de Stanford. Nous avons conçu SCIN pour refléter le large éventail de préoccupations que les gens recherchent en ligne, en complétant les types de conditions généralement trouvés dans les ensembles de données cliniques. Il contient des images à travers divers tons de peau et parties du corps, contribuant à s’assurer que les futurs outils d’IA fonctionnent efficacement pour tous. Nous avons fait l’ensemble de données SCIN Disponible gratuitement en tant que ressource en libre accès pour les chercheurs, les éducateurs et les développeurs, et ont pris des mesures prudentes pour protéger la confidentialité des contributeurs.

Exemple d’ensemble d’images et de métadonnées de l’ensemble de données SCIN.

Composition de l’ensemble de données

L’ensemble de données SCIN contient actuellement plus de 10 000 images de conditions de peau, de clou ou de cheveux, directement apportées par des personnes qui les vivent. Toutes les contributions ont été versées volontairement avec le consentement éclairé par les personnes aux États-Unis, dans le cadre d’une étude approuvée par le conseil d’administration institutionnel. Pour fournir un contexte pour l’étiquetage rétrospectif du dermatologue, les contributeurs ont été invités à prendre des images à la fois en gros plan et à un peu plus loin. Ils ont eu la possibilité d’auto-évaluer les informations démographiques et propension au tannage (Type de peau Fitzpatrick autodéclaré, c’est-à-dire SFST), et pour décrire la texture, la durée et les symptômes liés à leur préoccupation.

Un à trois dermatologues ont marqué chaque contribution avec jusqu’à cinq conditions de dermatologie, ainsi qu’un score de confiance pour chaque étiquette. L’ensemble de données SCIN contient ces étiquettes individuelles, ainsi qu’un diagnostic différentiel agrégé et pondéré dérivé d’eux qui pourraient être utiles pour les tests de modèle ou la formation. Ces étiquettes ont été attribuées rétrospectivement et ne sont pas équivalentes à un diagnostic clinique, mais elles nous permettent de comparer la distribution des conditions de dermatologie dans l’ensemble de données SCIN avec des ensembles de données existants.

L’ensemble de données SCIN contient des conditions largement allergiques, inflammatoires et infectieuses tandis que les ensembles de données provenant de sources cliniques se concentrent sur néoplasmes.

Alors que de nombreux ensembles de données de dermatologie existants se concentrent sur les tumeurs malignes et bénignes et sont destinés à aider à diagnostiquer le cancer de la peau, l’ensemble de données SCIN est en grande partie des conditions allergiques, inflammatoires et infectieuses courantes. La majorité des images de l’ensemble de données SCIN présentent des préoccupations à un stade précoce – plus de la moitié se sont présentées moins d’une semaine avant la photo, et 30% se sont présentées moins d’un jour avant la prise de l’image. Les conditions dans cette fenêtre de temps sont rarement observées dans le système de santé et sont donc sous-représentées dans les ensembles de données de dermatologie existants.

Nous avons également obtenu des estimations de dermatologue du type de peau de Fitzpatrick (FST ou EFST estimé) et des estimations de l’étiquetage des profanes de Teint du moine (EMST) pour les images. Cela a permis une comparaison de l’état cutané et des distributions de type de peau à celles des ensembles de données de dermatologie existants. Bien que nous ne civions sélectivement aucun type de peau ou tons de peau, l’ensemble de données SCIN a une distribution de type de peau Fitzpatrick équilibrée (avec plus de types 3, 4, 5 et 6) par rapport à des ensembles de données similaires provenant de sources cliniques.

Distribution de type de peau Fitzpatrick autodéclarée et estimé par dermatologue par rapport aux ensembles de données de dermatologie non enrichis existants (Fitzpatrick17k, Ph², Skinl2et Pad-OFES-20).

Le Type de peau de Fitzpatrick L’échelle a été initialement développée en tant qu’échelle de photo-type pour mesurer la réponse des types de peau au rayonnement UV, et il est largement utilisé dans la recherche en dermatologie. L’échelle du teint du moine est une échelle plus récente de 10 Shade qui mesure le teint plutôt que le phototype de peau, capturant des différences plus nuancées entre les tons de peau plus foncés. Bien qu’aucune des deux échelles n’ait été destinée à une estimation rétrospective à l’aide d’images, l’inclusion de ces étiquettes est destinée à permettre de futures recherches sur le type de peau et la représentation des tons en dermatologie. Par exemple, l’ensemble de données SCIN fournit une référence initiale pour la distribution de ces types de peau et de ces tons dans la population américaine.

L’ensemble de données SCIN a une représentation élevée des femmes et des individus plus jeunes, reflétant probablement une combinaison de facteurs. Ceux-ci pourraient inclure des différences d’incidence de l’état de la peau, la propension à rechercher des informations sur la santé en ligne et des variations de volonté de contribuer à la recherche à travers la démographie.


Méthode de crowdsourcing

Pour créer l’ensemble de données SCIN, nous avons utilisé une nouvelle méthode de crowdsourcing, que nous décrivons dans l’accompagnement document de recherche co-écrit avec les enquêteurs à Médecine de Stanford. Cette approche permet aux individus de jouer un rôle actif dans la recherche sur les soins de santé. Cela nous permet d’atteindre les gens à des stades antérieurs de leurs problèmes de santé, potentiellement avant de demander des soins formels. Surtout, cette méthode utilise des publicités sur les pages de résultats de recherche Web – le point de départ du parcours de santé de nombreuses personnes – pour se connecter avec les participants.

Nos résultats démontrent que le crowdsourcing peut produire un ensemble de données de haute qualité avec un faible taux de spam. Plus de 97,5% des contributions étaient de véritables images des affections cutanées. Après avoir effectué d’autres étapes de filtrage pour exclure les images qui étaient hors de portée pour l’ensemble de données SCIN et pour supprimer les doublons, nous avons pu divulguer près de 90% des contributions reçues au cours de la période d’étude de 8 mois. La plupart des images étaient nettes et bien exposées. Environ la moitié des contributions incluent la démographie autodéclarée, et 80% contiennent des informations autodéclarées relatives à l’état cutané, tels que la texture, la durée ou d’autres symptômes. Nous avons constaté que la capacité des dermatologues à attribuer rétrospectivement un diagnostic différentiel dépendait davantage de la disponibilité des informations autodéclarées que de la qualité de l’image.

La confiance du dermatologue dans leurs étiquettes (à l’échelle de 1 à 5) dépendait de la disponibilité des informations démographiques et des symptômes autodéclarées.

Bien que la dés-identification parfaite ne puisse jamais être garantie, la protection de l’intimité des personnes qui ont contribué à leurs images était une priorité absolue lors de la création de l’ensemble de données SCIN. Grâce au consentement éclairé, les contributeurs ont été informés des risques de réidentification potentiels et ont conseillé d’éviter de télécharger des images avec des fonctionnalités d’identification. Les mesures de protection de la confidentialité après la soumission comprenaient la rédaction manuelle ou la culture pour exclure les zones potentiellement identifiées, les recherches d’images inversées pour exclure les copies accessibles au public et l’élimination des métadonnées ou l’agrégation. Le scin Licence d’utilisation des données Interdit les tentatives de réinitialiser les contributeurs.

Nous espérons que l’ensemble de données SCIN sera une ressource utile pour ceux qui travaillent à faire progresser la recherche inclusive, l’éducation et le développement d’outils de l’IA. En démontrant une alternative aux méthodes de création de données traditionnelles, SCIN ouvre la voie à des ensembles de données plus représentatifs dans les domaines où des données autodéclarées ou un étiquetage rétrospectif sont possibles.


Remerciements

Nous sommes reconnaissants à tous nos co-auteurs Abbi Ward, Jimmy Li, Julie Wang, Sriram Lakshminarasimhan, Ashley Carrick, Bilson Campana, Jay Hartford, Pradeep Kumar S, Tiya Tiyasirisokchai, Sunny Virmani, Renee Wong, Yossi Matias, Greg S. (Stanford Medicine), Steven Lin (Stanford Medicine), Justin Ko (Stanford Medicine), Alan Karthikesalingam et Christopher Semtur. Nous remercions également Yetunde Ibitoye, Sami Lachgar, Lisa Lehmann, Javier Perez, Margaret Ann Smith (Stanford Medicine), Rachelle Sico, Amit Talreja, Annisah Um’rani et Wayne Westerlind pour leurs contributions essentielles à ce travail. Enfin, nous sommes reconnaissants à Heather Cole-Lewis, Naama Hammel, Ivor Horn, Michael Howell, Yun Liu et Eric Teasley pour leurs commentaires perspicaces sur la conception et le manuscrit de l’étude.



Source link

Related post

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *