Un système automatisé permettant d’identifier et d’extraire les composantes structurelles clés dans les textes ou genres académiques écrits
Pour simplifier l’acquisition, l’indexation, la diffusion et la synthèse des connaissances — particulièrement importantes pour l’avenir des bibliothèques — une compréhension fondamentale du stockage et de la communication des connaissances est nécessaire. Dans un corpus textuel de connaissances, les qualités pertinentes incluent la mise en page et la structure; titres, chapitres, sections et paragraphes; figures, tableaux, listes, légendes et illustrations; des informations sur l’auteur et des références; et, surtout, la relation entre ces composantes sémantiques. Nous proposons des recherches pour développer une série de pipelines de modèles logiciels capables de produire un fichier JSON des qualités sémantiques pertinentes d’un document d’entrée. Ce projet interdisciplinaire combine la vision par ordinateur, le traitement du langage naturel (PLN) et la linguistique computationnelle pour étudier la reconnaissance optique des caractères, la classification des documents, la détection et la segmentation des objets documentaires, la reconnaissance et la classification de la mise en page des documents, ainsi que l’étiquetage sémantique. L’apprentissage profond, l’apprentissage automatique statistique et les méthodes traditionnelles basées sur la vision par ordinateur pour ces sujets seront étudiés et évalués.
Voir la description complète du projetSeok-bum Ko; Zhi Li;Roy Ka-Wei Lee
Technologies du Ciel Vivant
Génie
Services professionnels, scientifiques et techniques
Université de la Saskatchewan
Accélération