Conception automatisée de modèles de page en vue de leur utilisation en reconnaissance de documents
Résumé
Le but de cet article est de décrire un modèle de page utilisé en reconnaissance de documents et sa construction automatisée. Ayant choisi une modélisation fondée sur la perception, l'architecture du modèle se confond avec la description physique des pages. La structure logique est décrite en termes de relations et d'attributs associés aux composants physiques. L'apprentissage est réalisé à partir de plusieurs exemples de documents. Ainsi, le modèle reflète totalement la structure réelle des documents et leur contenu. A cet effet, une démarche particulière est adoptée pour définir les paramètres les plus représentatifs et les moins sensibles au bruit. L'approche utilisée pour l'apprentissage est fondée sur l'inférence de grammaires d'arbres. Elle se limite actuellement à la structure physique. La structure logique est fournie manuellement au début de l'inférence par l'opérateur. Des procédures sont toutefois introduites pour maintenir la cohérence de la structure logique au cours de l'inférence. La validation du modèle ainsi généré a été réalisée par son emploi dans le système de reconnaissance de documents, GRAPHEIN