Raisonnement sur des documents complexes avec docllm avec armineh nourbakhsh

Aujourd’hui, nous sommes rejoints par Armineh Nourbakhsh de JP Morgan AI Research pour discuter du développement et des capacités de Docllm, un modèle de grande langue conscient de la mise en page pour la compréhension des documents multimodaux. Armineh donne un aperçu historique des défis de Document IA et une introduction au modèle DOCLLM. Armineh explique comment ce modèle, distinct des LLMs traditionnels et des modèles d’IA de documents, intègre à la fois la sémantique textuelle et la disposition spatiale dans le traitement des documents d’entreprise tels que des rapports et des contrats complexes. Nous fouillons dans l’approche de son équipe pour entraîner le docllm, leur choix d’un modèle génératif par opposition à une approche basée sur l’encodeur, les ensembles de données qu’ils ont utilisés pour construire le modèle, leur approche pour incorporer les informations de mise en page et les différentes façons dont ils ont évalué les performances du modèle.