L’usage des documents numériques tend à croître par rapport aux documents papier. Cependant, une grande quantité d’informations précieuses reste sous forme imprimée, manuscrite ou numérisée, nécessitant des technologies avancées pour être exploitées efficacement. L’OCR (Optical Character Recognition) joue un rôle clé dans cette transition, mais les erreurs de reconnaissance impactent directement l’accessibilité des documents et les analyses de texte post-OCR. Deux approches permettent d’améliorer l’extraction d’informations : la première vise à adapter l’entrée, c’est-à-dire à améliorer la qualité du texte avant même son traitement. Cela peut passer par l’optimisation des systèmes OCR par correction contextuelle. La deuxième approche consiste à renforcer la robustesse des systèmes d’extraction aux erreurs OCR en proposant des modèles tolérants aux variations orthographiques et typographiques. Un autre défi majeur réside dans la diversité des documents à traiter (journaux historiques, documents administratifs, tableaux, formulaires, etc.), chacun présentant des spécificités rendant l’extraction plus complexe. Face à cette hétérogénéité, les approches multimodales sont nécessaires exploitant des indices visuels pour enrichir les informations textuelles. Les indices visuels peuvent inclure des descripteurs de mise en page, des styles typographiques, des couleurs ou encore des éléments graphiques facilitant la compréhension de l’organisation du contenu dans les documents.
Lors de cette présentation, je détaillerai mes travaux sur l’extraction d’entités nommées à partir de journaux historiques dans le cadre du projet européen H2020 NewsEye et sur l’extraction de champs clés dans les documents de commerce du projet labcom IDEAS. Également, j’évoquerai brièvement mes recherches récentes sur la classification et l’identification des données sensibles, ainsi que mes travaux de thèse portant sur le traitement du dialecte tunisien (langue peu dotée) en exploitant les ressources d'une langue morphologiquement proche qui est l’arabe standard (bien doté).