Au-delà de la reconnaissance des entités nommées: un cadre NLP complet pour la classification des phénotypes HPO | par Gursev Pirge | John Snow Labs | Jul, 2025

 Au-delà de la reconnaissance des entités nommées: un cadre NLP complet pour la classification des phénotypes HPO | par Gursev Pirge | John Snow Labs | Jul, 2025


Extraction des entités de texte clinique / médical

Pipelines pré-entraînés Dans la bibliothèque PNL de santé, permettent l’extraction systématique et l’organisation d’informations cachées à partir de texte, en les transformant en ensembles de données structurés qui prennent en charge l’analyse avancée.

Dans notre cas, nous utilisons une ligne de code pour traiter le pipeline pré-entraîné (hpo_mapper_pipeline_v2), qui est spécifiquement formé pour extraire des entités de phénotype humain et attribuer les codes HPO associés:

pipeline = PretrainedPipeline("hpo_mapper_pipeline_v2", "en", "clinical/models")

result = pipeline.fullAnnotate(text)

L’extraction des entités dans un format structuré améliore la convivialité et l’intégration en permettant une analyse efficace de récupération et approfondie des informations sur les patients. Il favorise la cohérence et la normalisation, qui soutient l’analyse avancée et la prise de décision plus précise. En convertissant le texte brut en informations exploitables, cette approche contribue à améliorer les soins aux patients, à des recherches plus efficaces et à des stratégies de santé publique mieux informés.

Dans notre cas, les résultats du NER et de l’affirmation extraits pour les phénotypes humains ont été retournés comme un Dataframece qui les rend faciles à explorer, à manipuler et à intégrer dans des pipelines en aval.

DataFrame fournissant les morceaux, les étiquettes attribuées et l’état d’affirmation.

La capacité de visualiser rapidement les entités est une caractéristique très utile pour examiner les résultats générés. Affichage Spark NLP est une bibliothèque Python open source pour visualiser les entités extraites et étiquetées. Nervisuelle met en évidence les entités nommées extraites et affiche également leurs étiquettes sous forme de décorations au-dessus du texte analysé.

Assertionvisualizer est un type spécial de Nervisuelle Cela affiche également au-dessus des entités étiquetées le statut d’affirmation qui a été déduit par un modèle NLP de soins de santé.

Les codes HPO sont ajoutés en tant que nouvelle colonne au DataFrame précédent. Nous pouvons post-traiter le dataframe et le filtre pour le présent uniquement.

DataFrame fournissant les morceaux, les étiquettes attribuées et l’état d’affirmation avec les codes HPO.

EntityResolverVisualizer Affichera automatiquement en haut de l’étiquette NER Le code standard (ICD10 CM, PCS, CPT, HPO, etc.) qui correspond à cette entité.

En combinant le NER, la détection d’état d’assurance et la résolution du code HPO, nous avons construit un pipeline NLP capable de transformer le texte clinique non structuré en données de phénotype structurées et liées à l’ontologie. Cette approche rationalise non seulement l’extraction des données phénotypiques, mais améliore également la cohérence, la recherche et l’analyse en aval. Avec des sorties renvoyées dans un format tabulaire propre, comme une fragmentation des données, cette solution est bien adaptée à l’intégration dans la recherche clinique, le diagnostic de maladies rares et les flux de travail de médecine de précision. À mesure que les méthodes axées sur le phénotype deviennent de plus en plus importantes, l’automatisation de ce processus est une étape cruciale vers l’analyse des données de santé évolutives et intelligentes.

Vous pouvez afficher les détails de l’extraction du phénotype humain et de la mappage du code HPO, consultez le Carnet NLP de soins de santé officiels Dans John Snow Labs Github Repository.



Source link

Related post