1 G´en´eralit´es
Quelques probl´ematiques associ´ees `a l’analyse de texte :
– Rapidit´e
Fond complexe
– Couleur
Qualit´e (compression)
Cr´enelage et anti-cr´enelage
Orientation des lignes
Manuscrit ou dactylographi´e
Alphabets / polices
– Tailles
– Exactitude
Nous allons nous focaliser sur des algorithmes rapides qui permettent de
d´etecter des lignes (orientation et ´epaisseur) d’un texte dactylographi´e.
2 D´etection de l’orientation
Les principales techniques de d´etection de l’orientation des lignes sont
les suivantes :
– Projections
Transformation de Hough
Transformation de Fourier
Regroupement des voisins
Corr´elation des lignes de croisement (algorithme de Gatos [3]).
2.1 M´ethodes de projection
La m´ethode du profil de projection de Baird [1] utilise un ensemble de
profils de projection `a un certains nombre d’angles autour de l’angle attendu.
L’angle choisit est celui dont le profil donne la plus grande variation.
D’apr`es [4], cette m´ethode demande beaucoup de temps de calcul et
son efficacit´e diminue lorsque les document contiennent du bruit ou des
fragments de caract`eres.
Il existe aussi l’algorithme de Ciardello et al. [2] qui utilise une projection
horizontale. Il devra ˆetre ´etudi´e afin de connaˆıtre sa rapidit´e.
2.2 Transformation de Hough
Les transformations de Hough sont tr`es communes en d´etection d’orien-
tation.
D’apr`es [3] et [4], les transformations Hough sont tr`es gourmandes en
temps de calcul.
1
2.3 L’algorithme de Gatos et al.
L’article [3] pr´esente un algorithme capable de trouver l’orientation des
lignes d’un texte ainsi que leur position (leur ligne centrale).
2.3.1 L’algorithme
La premi`ere ´etape de l’algorithme consiste `a lisser verticalement l’image
en lui appliquant l’algorithme Run-length smoothing algorithm (RLSA) [6] :
on fixe un certain seuil T, si le nombre de pixels de fond (les blancs) entre
deux pixels de texte (les noirs) est inf´erieur ou ´egal au seuil T, alors ces
pixels de fond sont convertis en pixel de texte. Ce faisant, on obtient des
bandes horizontales noires plutˆot que du texte.
On s´electionne ensuite plusieurs lignes (deux au moins, plus am´eliore les
r´esultats) verticales qui d´ecoupe l’image en portions de mˆeme dimension, on
cr´e´e des tableaux qui contiennent soit 1 si des pixels sont pr´esents autour,
soit 0.
Des matrices de corr´elation sont ensuite calcul´ees qui repr´esentent les
possibilit´es de lignes entre deux lignes verticales. Si plus de deux lignes
verticales sont utilis´ees, on regroupe toutes les matrices dans une matrice
globale. De celle-ci on cherche la possibilit´e (l’angle) ayant la plus forte
chance d’ˆetre une ligne et on la choisit.
`
A partir d’une matrice de coh´erence, on peut aussi obtenir le centre des
lignes en s´electionnant les points `a plus forte concentration.
2.3.2 Analyse
Les avantages de cet algorithme :
Beaucoup plus rapide que Hough, Hough+RLSA et ICC (Yan) (de 50
`a 100 fois d’apr`es les exp´eriences de l’article). De l’ordre de 4 secondes
sur un 486DX `a 33MHz.
Seule une portion de l’image de d´epart est utilis´ee, celle autour des
lignes (voire juste les lignes si on ´elimine RLSA).
R´esiste `a la pr´esence d’images dans le texte.
Son exactitude est ajustable grˆace au nombre de lignes verticales.
Les limites de l’algorithme :
D´ependant de l’angle maximum d’orientation de l’algorithme.
Fonctionne uniquement sur des documents textuels (donc OK pour
nous).
On a N1 matrices de corr´elation (o`u Nest le nombre de lignes verti-
cales) qui sont chacune de taille H×2Lo`u Hest la hauteur de l’image en
pixel et Lla pente maximum d’une ligne avec L=D×tan(2πθmax/360).
L’algorithme devrait aussi ˆetre modifiable pour pouvoir donner l’´epaisseur
(moyenne au moins) des lignes. :
2
2.4 L’algorithme de Shivakumara et al.
TODO
3 Segmentation de texte
3.1 Algorithme de Tran, Lux, NGuyen et Boucher
L’algorithme `a arrˆete [5] permet de trouver du texte pr´esent dans une
image ind´ependamment de sa taille, de son orientation ou de ses couleurs. Il
recherche, `a un haut niveau, les arrˆetes de texte puis, `a un niveau plus bas,
les arrˆetes correspondants `a la forme des caract`eres. Il est ainsi ind´ependant
de l’alphabet utilis´e et peut aussi bien reconnaˆıtre des caract`eres latins que
chinois `a la fois dactylographi´es et manuscrits.
Des contraintes sur les arrˆetes sont utilis´ees afin de s´eparer les arrˆetes de
texte du non-texte par exemple sur la longueur des arrˆetes de caract`ere ou
sur leur orientation par rapport `a l’arrˆete centrale.
R´ef´erences
[1] H. Baird. The skew angle of printed documents. Proc. Soc. Photogr. Sci.
Eng., pages 21–24, 1987.
[2] G. Ciardello, G. Scafur, M. T. Degrandi, M. R. Spada, and M. P. Roc-
coteli. An experimental system for office document handling and text
recognition. Proc. Ninth Conf. on Pattern Recognition, pages 739–743,
1988.
[3] B. Gatos, N.Papamarkos, and C. Chamzas. Skew detection and text
line position determination in digitized documents. Pattern Recognition,
30(9) :1505–1519, 1997.
[4] P. Shivakumara, G. Hemantha Kumar, D. S. Guru, and P. Nagabhushan.
A novel technique for estimation of skew in binary text document images
based on linear regression analysis. Sadhana, 30 :69–85, 2005.
[5] H. Tran, A. Lux, and A. Boucher H. L. Nguyen. A novel approach for
text detection in images using structural features. 2005.
[6] K. Y. Wong, R. G. Casey, and F. M. Wahl. Documents analysis system.
IBM J. Res. Devel, pages 647–656, 1982.
3
1 / 3 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !