Telechargé par Wenceslas Junior

IT2 presentation

publicité
REPUBLIQUE DU CAMEROUN
********
Paix - Travail - Patrie
********
MINISTERE DES
POSTES ET TELECOMMUNICATIONS
********
SUP’PTIC
********
REPUBLIC OF CAMEROON
********
Peace - Work - Fatherland
********
GLOBAL DYNAMICS TECHNOLOGIES
SOCIETE D’INGENIERIE INFORMATIQUE
********
SUP’PTIC
********
Mémoire de Fin d’Études en vue de l’obtention du diplôme d’Ingénieur des Télécommunications en sécurité des réseaux et systèmes.
Thème :
MISE EN PLACE D'UN SYSTÈME DE RECHERCHE D'IMAGES D'ARTICLES
DE PRESSE BASÉ SUR LA RECONNAISSANCE TEXTUELLE : APPLICATION
À LA PRESSE LOCALE
Mémoire de fin d’études présenté et soutenu par :
EBALE LOÏC WILLIAM
Devant le jury compose de:
Président du jury :
Rapporteur :
Examinateur :
Invité :
Pr. NDOUNDAM René,
Dr. Janvier NGNOULAYE,
Dr. ABESSOLO Ghislain,
M. ELOBO EKASSI Majella
Année Académique 2018/2019
Professeur,
Chargé de cours,
Chargé de cours,
Ingénieur M.L,
UYI
UYI
UYI
GDT
Plan de notre présentation
Notre présentation sera structurée comme suit
1 Introduc
tion
Présentation
du cadre du stage
r
nttion
2
duro
Contexte/
Problème / Problématique
Anyd
3
ttd
todooi
rt
4 
Méthode
/ l’état
Modèlededel’art
programmation
Limites de
5 uttt
contir
Outils utilisés / Solution
Concuion
6
t
2
1
INTRODUCTION
2
Présentation du
problème
2
r
nttiondu
ro
Contexte/ Problème / Problématique
ro
ro

tiqu
Comment retrouver un article, un journal spécifique sans contraintes de taille de
données et en réduisant l’intervention humaine, tout en se basant juste sur un
ensemble de mots clés ?
CBIR
5
3
Analyse de l’état de
l’art
3
LIMITES observées :
Anyd
ttd
rt
Limites de l’état de l’art
 Traitement partiel de notre thème
 Solutions plus théoriques que pratiques
D’un point de vue général, nous avons souligné la difficulté aujourd’hui, de
fournir une méthode générique et complète (i.e. allant de la détection des zones jusqu’à la
reconnaissance par un outil de reconnaissance de caractères) pour toutes les applications du
fait des variations énormes de types de textes rencontrés sur différents types d’images.
7
4
Méthodologie
todooi

4
Méthode / Modèle de programmation
Méthode asd :
Adaptative Software Development
9
todooi

4
Méthode / Modèle de programmation
Échantillon de base de données :
10
todooi

4
Fonctionnement logique de la solution :
Utilisation
de la
bibliothèque
TesseractOCR
Méthode / Modèle de programmation
Il s’agit de
donner accès
par
l’applicatio
en
n Conversion
à la
niveau de
banque
gris
d’images
- Binarisation
- Calcul du
gradient
- Dilatation
Utilisation
de
l’algorithme
de
Levenshtein
11
todooi

4
Méthode / Modèle de programmation
Détection des zones de texte:
 Conversion en niveau de gris
12
todooi

4
Méthode / Modèle de programmation
Détection des zones de texte:
 Binarisation
13
todooi

4
Méthode / Modèle de programmation
Détection des zones de texte:
 Gradient et Dilatation
14
todooi

4
Méthode / Modèle de programmation
Détection des zones de texte:
 Bounding box
15
todooi

4
Méthode / Modèle de programmation
Reconnaissance de caractères :
16
4
todooi

Méthode / Modèle de programmation
Mots clés et calcul de la distance d’édition:
17
todooi

4
Méthode / Modèle de programmation
Modèle de développement :
MVT (Modèle Vue Template)
18
todooi

4
Méthode / Modèle de programmation
Problèmes rencontrés :
Les problèmes rencontrés lors de la conception et la réalisation de notre solution
sont les suivant :
 La détection des zones d’intérêts était difficile à régler, les ROIs détectés ne permettaient
pas d’avoir les mots en entier;
 Nous avons donc augmenté la taille des ROIs
 La langue française étant plus utilisée dans les articles, et Tesseract-OCR ne fonctionnant
qu’avec un dictionnaire anglais, les mots étaient difficilement reconnus;
 Nous avons ajouter certaines langues dans Tesseract-OCR
 Etc,,,
19
4
todooi

Méthode / Modèle de programmation
Utilisation de Opencv et tesseract pour l’extraction de texte:
20
5
Résultats et
commentaires
uttt
contir
5
Architecture de test / Solution
Outils utilisés :
Framework
Langage de développement
Serveur de base de
données
22
uttt
contir
5
Architecture de test / Solution
Quelques résultats :
Mots clés

Types de tests 
« Paul Biya »
« Boko haram »
Manuel
Algorithmique
Manuel
Algorithmique
Vrai positif
12
10
04
03
Vrai Négatif
18
18
26
16
Faux Positif
0
0
0
0
Faux Négatif
0
02
0
01

𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 =
« Paul Biya »
VP
10
=
=1
𝑉𝑃 + 𝐹𝑃
10 + 0
VP
10
𝑅𝑎𝑝𝑝𝑒𝑙 =
=
= 0,83
𝑉𝑃 + 𝐹𝑁
10 + 2

« Boko haram »
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑅𝑎𝑝𝑝𝑒𝑙 =
VP
3
= =1
𝑉𝑃 + 𝐹𝑃
3
VP
3
=
= 0,75
𝑉𝑃 + 𝐹𝑁
3+1
23
uttt
contir
5
Outils utilisés / Solution
Résultats obtenus :
24
6
conclusion
Concuiont
rctiv
6
Améliorations et perspectives
Il était question pour nous de mettre sur pied
Un système de recherche d’images d’articles de presse basé sur la
reconnaissance textuelle: Application à la presse locale
Problèmes à résoudre
Apport
Faciliter l’exploitation par les utilisateurs
de grandes quantités d’images d’articles
de presse afin de les aider à produire par
exemple de nouvelles informations
Application faisant fit de l’indexation
manuelle et se basant sur la
reconnaissance textuelle pour retourner
des résultats
27
uttt
contir
5
Architecture de test / Solution
Perspectives :
Limites
Perspectives
- Notre système ne retourne pas la - Utiliser le Machine Learning pour
totalité des vrais positifs
résoudre le même problème
- L’obstacle lié aux bruits sur les images - Mettre sur pieds un modèle
a été partiellement résolu
d’apprentissage et lui fournir assez
- Le temps de latence est assez
d’images pour les traitements
important
28
29
Téléchargement