Apprentissage en profondeur multimodal pour une compréhension des documents complexes avec Doug Burdick

 Apprentissage en profondeur multimodal pour une compréhension des documents complexes avec Doug Burdick


Aujourd’hui, nous sommes rejoints par Doug Burdick, membre principal du personnel de recherche chez IBM Research. Dans une récente interview, le collègue de Doug, Yunyao Li, nous a rejoints pour parler de certains des problèmes de PNL en entreprise plus larges sur lesquels elle travaille. L’un de ces problèmes consiste à rendre les documents consommables de la machine, en particulier avec le type de fichier archivistique traditionnel, le PDF. C’est là que Doug et son équipe entrent en jeu. Dans notre conversation, nous discutons de l’approche multimodale qu’ils ont adoptée pour identifier, interpréter, contextualiser et extraire des choses comme des tables d’un document, les défis auxquels ils ont été confrontés lorsqu’ils traitent avec les tableaux et comment ils évaluent les performances des modèles sur les tables. Nous explorons également comment il est géré en généralisation dans différents formats, à quel point le réglage doit être raffiné pour être efficace, les problèmes qui apparaissent du côté PNL des choses et comment les modèles d’apprentissage en profondeur sont en cours de levier au sein du groupe.



Source link

Related post