Comment l’IA a prédit l’épidémie de coronavirus avec Kamran Khan
Kamran Khan, fondateur de Bluedota récemment trouvé son entreprise le sujet de attention Pour être parmi les premiers à me plaindre publique du coronavirus (Covid-19) qui est initialement apparu dans la ville chinoise de Wuhan. Comment le système de techniques et d’algorithmes de collecte de données de l’entreprise a-t-il aidé à signaler les dangers potentiels de la maladie? Dans cette interview, Kamran explique comment ils utilisent une variété de techniques d’apprentissage automatique pour suivre, analyser et prédire les épidémies de maladies infectieuses.
En tant que médecin en exercice basé à Toronto, Kamran a été directement touché par l’épidémie du SRAS en 2003. « Nous avons vu nos hôpitaux complètement dépassés. Ils sont allés dans le verrouillage. Toutes les procédures électives ont été annulées … même la ville a pris une sensation différente … il y a eu des milliards de pertes financières … et Toronto n’était que l’une des douzaines. » À la suite de cette crise, les gouvernements ont été lents à agir. Des efforts comme le Traité des réglementations internationales de la santé (2005)qui vise à standardiser la communication sur les maladies, à aider mais qui ne sont pas bien appliquées. Cela n’aide pas que ces nations ignorent souvent la gravité d’une épidémie ou hésitent à signaler une menace en raison de conséquences économiques potentielles.
En fin de compte, son expérience avec la crise du SRAS a conduit Kamran à explorer le rôle que la technologie pourrait jouer en anticipant les épidémies et en prédisant comment ils pourraient se propager. La perspicacité de Kamran a finalement conduit à la création de Bluedot, qui applique l’apprentissage automatique à quatre défis principaux dans le suivi des maladies infectieuses: Surveillance, dispersion, impact et communication.

Surveillance
Le moteur Bluedot recueille des données sur plus de 150 maladies et syndromes du monde entier, en regardant plus de 100 000 articles en ligne chaque jour s’étendant sur 65 langues, recherchant toutes les 15 minutes, 24 heures par jour. Cela comprend les données officielles d’organisations comme le Center for Disease Control ou l’Organisation mondiale de la santé, mais compte également sur les informations locales moins structurées des journalistes et des travailleurs de la santé.
Les épidémiologistes et les médecins de Bluedot ont classé manuellement les données et développé une taxonomie afin que les mots clés pertinents puissent être scannés efficacement. Ils ont ensuite appliqué ML et NLP pour former le système. Kamran souligne que les algorithmes en place effectuent « des tâches relativement faibles de complexité, mais ils sont incroyablement élevés et il y en a une quantité énorme, nous pouvons donc simplement former une machine pour reproduire notre jugement (pour la classification) ».
En raison des algorithmes de leur système, seules une poignée de cas sont signalées pour que les experts humains puissent analyser. Dans le cas de Covoid-19, le système a mis en évidence des articles en chinois qui ont signalé 27 cas de pneumonie associés à un marché qui avait des fruits de mer et des animaux vivants à Wuhan.
Dispersion
Reconnaissant le rôle que les voyages jouent dans la dispersion des maladies, en particulier à l’ère des voyages en avion – Bluedot utilise les données du système d’information géographique (SIG) et les ventes de billets de vol pour créer un graphique de dispersion pour chaque maladie basée sur les aéroports liés à une ville et où les passagers sont susceptibles de voler. Tout le monde ne voyage pas par avion, ils utilisent donc également des données de localisation anonymisées de 400 millions d’appareils mobiles pour suivre les flux des épicentreurs d’épidémie à d’autres parties de la région ou du monde. Les emplacements recevant le plus grand volume de voyageurs sont identifiés et évalués avec diligence pour l’impact de la maladie dans la région.
Pour Covoid-19, Bluedot a appliqué cette méthodologie pour identifier de nombreuses villes parmi les premières à recevoir le coronavirus, notamment Tokyo, Bangkok, Hong Kong, Séoul et Taipei.
Impact
Une fois qu’un virus quitte sa région d’origine, une grande variété de facteurs déterminent si elle s’éteindra ou se transformera en fin de compte en une épidémie à part entière: une région peut avoir une infrastructure de santé publique meilleure ou pire, des climats hospitaliers ou inhospitaliers, ou des ressources économiques variables. Les systèmes de Bluedata considèrent comme ceux-ci pour prédire l’impact potentiel sur une zone identifiée.
Par exemple, si un virus est réparti par les tiques et que Vancouver est au milieu de la neige hivernale, la probabilité d’une épidémie est très faible car les tiques ne survivraient pas à ce climat. Cependant, le même virus pourrait prospérer dans un environnement humide comme la Floride, ce qui rend la région à risque pour une épidémie.
Communication
Si une zone est déterminée à être à risque, l’accent est mis sur la fourniture des premiers avertissements aux responsables de la santé, aux hôpitaux, aux compagnies aériennes et aux agences gouvernementales en santé publique, défense nationale, sécurité nationale et même agriculture. Kamran réitère l’importance de fournir uniquement les informations les plus pertinentes à ceux qui en ont besoin, faisant référence aux idées Clay Shirky et son discours de 2008), « Ce n’est pas une surcharge d’informations. C’est un échec du filtre.
Bleedot a pris conscience des cas de pneumonie à Wuhan le 31 décembre, et en plus de notifier directement leurs clients et les parties prenantes du gouvernement, ils ont publié publiquement leurs conclusions dans le Journal of Travel Medicine le 14 janvier.
Critique et limites
Ce sont des prédictions incroyablement difficiles à faire, et la science derrière la transmission de maladies infectieuses est complexe et évolue chaque jour. Alors, quel est le rôle approprié de la technologie? Kamran affirme que « en aucun cas (ils ne prétendent) que l’IA a résolu ce problème. Ce n’est qu’un des outils de la boîte à outils. »
Dans certains cas, Kamran et son équipe peuvent manquer d’observations suffisantes pour développer un modèle d’apprentissage automatique pour une maladie particulière. Pour cela et pour d’autres raisons, l’entreprise s’appuie sur une combinaison d’approches et une équipe diversifiée de spécialistes dans leur travail.
Avec le coronavirus déjà en plein essor, Bluedot cherche plus à analyser les données de localisation des appareils mobiles pour fournir une compréhension en temps réel de la façon dont les gens se déplacent. Cependant, Kamran le compare à la prévision de la météo – plus vous cherchez devant vous, moins votre prédiction est précise.
Malgré les limites, Kamran renforce la valeur du travail en reconnaissant que « manuellement, il faudrait une centaine de personnes 24h / 24 (pour traiter les données), et nous avons quatre personnes et une machine ».
