REPUBLIQUE DU CAMEROUN ******** Paix - Travail - Patrie ******** MINISTERE DES POSTES ET TELECOMMUNICATIONS ******** SUP’PTIC ******** REPUBLIC OF CAMEROON ******** Peace - Work - Fatherland ******** GLOBAL DYNAMICS TECHNOLOGIES SOCIETE D’INGENIERIE INFORMATIQUE ******** SUP’PTIC ******** Mémoire de Fin d’Études en vue de l’obtention du diplôme d’Ingénieur des Télécommunications en sécurité des réseaux et systèmes. Thème : MISE EN PLACE D'UN SYSTÈME DE RECHERCHE D'IMAGES D'ARTICLES DE PRESSE BASÉ SUR LA RECONNAISSANCE TEXTUELLE : APPLICATION À LA PRESSE LOCALE Mémoire de fin d’études présenté et soutenu par : EBALE LOÏC WILLIAM Devant le jury compose de: Président du jury : Rapporteur : Examinateur : Invité : Pr. NDOUNDAM René, Dr. Janvier NGNOULAYE, Dr. ABESSOLO Ghislain, M. ELOBO EKASSI Majella Année Académique 2018/2019 Professeur, Chargé de cours, Chargé de cours, Ingénieur M.L, UYI UYI UYI GDT Plan de notre présentation Notre présentation sera structurée comme suit 1 Introduc tion Présentation du cadre du stage r nttion 2 duro Contexte/ Problème / Problématique Anyd 3 ttd todooi rt 4 Méthode / l’état Modèlededel’art programmation Limites de 5 uttt contir Outils utilisés / Solution Concuion 6 t 2 1 INTRODUCTION 2 Présentation du problème 2 r nttiondu ro Contexte/ Problème / Problématique ro ro tiqu Comment retrouver un article, un journal spécifique sans contraintes de taille de données et en réduisant l’intervention humaine, tout en se basant juste sur un ensemble de mots clés ? CBIR 5 3 Analyse de l’état de l’art 3 LIMITES observées : Anyd ttd rt Limites de l’état de l’art Traitement partiel de notre thème Solutions plus théoriques que pratiques D’un point de vue général, nous avons souligné la difficulté aujourd’hui, de fournir une méthode générique et complète (i.e. allant de la détection des zones jusqu’à la reconnaissance par un outil de reconnaissance de caractères) pour toutes les applications du fait des variations énormes de types de textes rencontrés sur différents types d’images. 7 4 Méthodologie todooi 4 Méthode / Modèle de programmation Méthode asd : Adaptative Software Development 9 todooi 4 Méthode / Modèle de programmation Échantillon de base de données : 10 todooi 4 Fonctionnement logique de la solution : Utilisation de la bibliothèque TesseractOCR Méthode / Modèle de programmation Il s’agit de donner accès par l’applicatio en n Conversion à la niveau de banque gris d’images - Binarisation - Calcul du gradient - Dilatation Utilisation de l’algorithme de Levenshtein 11 todooi 4 Méthode / Modèle de programmation Détection des zones de texte: Conversion en niveau de gris 12 todooi 4 Méthode / Modèle de programmation Détection des zones de texte: Binarisation 13 todooi 4 Méthode / Modèle de programmation Détection des zones de texte: Gradient et Dilatation 14 todooi 4 Méthode / Modèle de programmation Détection des zones de texte: Bounding box 15 todooi 4 Méthode / Modèle de programmation Reconnaissance de caractères : 16 4 todooi Méthode / Modèle de programmation Mots clés et calcul de la distance d’édition: 17 todooi 4 Méthode / Modèle de programmation Modèle de développement : MVT (Modèle Vue Template) 18 todooi 4 Méthode / Modèle de programmation Problèmes rencontrés : Les problèmes rencontrés lors de la conception et la réalisation de notre solution sont les suivant : La détection des zones d’intérêts était difficile à régler, les ROIs détectés ne permettaient pas d’avoir les mots en entier; Nous avons donc augmenté la taille des ROIs La langue française étant plus utilisée dans les articles, et Tesseract-OCR ne fonctionnant qu’avec un dictionnaire anglais, les mots étaient difficilement reconnus; Nous avons ajouter certaines langues dans Tesseract-OCR Etc,,, 19 4 todooi Méthode / Modèle de programmation Utilisation de Opencv et tesseract pour l’extraction de texte: 20 5 Résultats et commentaires uttt contir 5 Architecture de test / Solution Outils utilisés : Framework Langage de développement Serveur de base de données 22 uttt contir 5 Architecture de test / Solution Quelques résultats : Mots clés Types de tests « Paul Biya » « Boko haram » Manuel Algorithmique Manuel Algorithmique Vrai positif 12 10 04 03 Vrai Négatif 18 18 26 16 Faux Positif 0 0 0 0 Faux Négatif 0 02 0 01 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = « Paul Biya » VP 10 = =1 𝑉𝑃 + 𝐹𝑃 10 + 0 VP 10 𝑅𝑎𝑝𝑝𝑒𝑙 = = = 0,83 𝑉𝑃 + 𝐹𝑁 10 + 2 « Boko haram » 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑅𝑎𝑝𝑝𝑒𝑙 = VP 3 = =1 𝑉𝑃 + 𝐹𝑃 3 VP 3 = = 0,75 𝑉𝑃 + 𝐹𝑁 3+1 23 uttt contir 5 Outils utilisés / Solution Résultats obtenus : 24 6 conclusion Concuiont rctiv 6 Améliorations et perspectives Il était question pour nous de mettre sur pied Un système de recherche d’images d’articles de presse basé sur la reconnaissance textuelle: Application à la presse locale Problèmes à résoudre Apport Faciliter l’exploitation par les utilisateurs de grandes quantités d’images d’articles de presse afin de les aider à produire par exemple de nouvelles informations Application faisant fit de l’indexation manuelle et se basant sur la reconnaissance textuelle pour retourner des résultats 27 uttt contir 5 Architecture de test / Solution Perspectives : Limites Perspectives - Notre système ne retourne pas la - Utiliser le Machine Learning pour totalité des vrais positifs résoudre le même problème - L’obstacle lié aux bruits sur les images - Mettre sur pieds un modèle a été partiellement résolu d’apprentissage et lui fournir assez - Le temps de latence est assez d’images pour les traitements important 28 29