1 Généralités 2 Détection de l`orientation

Téléchargement

1 G´en´eralit´es

Quelques probl´ematiques associ´ees `a l’analyse de texte :

– Rapidit´e

– Fond complexe

– Couleur

– Qualit´e (compression)

– Cr´enelage et anti-cr´enelage

– Orientation des lignes

– Manuscrit ou dactylographi´e

– Alphabets / polices

– Tailles

– Exactitude

Nous allons nous focaliser sur des algorithmes rapides qui permettent de

d´etecter des lignes (orientation et ´epaisseur) d’un texte dactylographi´e.

2 D´etection de l’orientation

Les principales techniques de d´etection de l’orientation des lignes sont

les suivantes :

– Projections

– Transformation de Hough

– Transformation de Fourier

– Regroupement des voisins

– Corr´elation des lignes de croisement (algorithme de Gatos [3]).

2.1 M´ethodes de projection

La m´ethode du proﬁl de projection de Baird [1] utilise un ensemble de

proﬁls de projection `a un certains nombre d’angles autour de l’angle attendu.

L’angle choisit est celui dont le proﬁl donne la plus grande variation.

D’apr`es [4], cette m´ethode demande beaucoup de temps de calcul et

son eﬃcacit´e diminue lorsque les document contiennent du bruit ou des

fragments de caract`eres.

Il existe aussi l’algorithme de Ciardello et al. [2] qui utilise une projection

horizontale. Il devra ˆetre ´etudi´e aﬁn de connaˆıtre sa rapidit´e.

2.2 Transformation de Hough

Les transformations de Hough sont tr`es communes en d´etection d’orien-

tation.

D’apr`es [3] et [4], les transformations Hough sont tr`es gourmandes en

temps de calcul.

2.3 L’algorithme de Gatos et al.

L’article [3] pr´esente un algorithme capable de trouver l’orientation des

lignes d’un texte ainsi que leur position (leur ligne centrale).

2.3.1 L’algorithme

La premi`ere ´etape de l’algorithme consiste `a lisser verticalement l’image

en lui appliquant l’algorithme Run-length smoothing algorithm (RLSA) [6] :

on ﬁxe un certain seuil T, si le nombre de pixels de fond (les blancs) entre

deux pixels de texte (les noirs) est inf´erieur ou ´egal au seuil T, alors ces

pixels de fond sont convertis en pixel de texte. Ce faisant, on obtient des

bandes horizontales noires plutˆot que du texte.

On s´electionne ensuite plusieurs lignes (deux au moins, plus am´eliore les

r´esultats) verticales qui d´ecoupe l’image en portions de mˆeme dimension, on

cr´e´e des tableaux qui contiennent soit 1 si des pixels sont pr´esents autour,

soit 0.

Des matrices de corr´elation sont ensuite calcul´ees qui repr´esentent les

possibilit´es de lignes entre deux lignes verticales. Si plus de deux lignes

verticales sont utilis´ees, on regroupe toutes les matrices dans une matrice

globale. De celle-ci on cherche la possibilit´e (l’angle) ayant la plus forte

chance d’ˆetre une ligne et on la choisit.

A partir d’une matrice de coh´erence, on peut aussi obtenir le centre des

lignes en s´electionnant les points `a plus forte concentration.

2.3.2 Analyse

Les avantages de cet algorithme :

– Beaucoup plus rapide que Hough, Hough+RLSA et ICC (Yan) (de 50

`a 100 fois d’apr`es les exp´eriences de l’article). De l’ordre de 4 secondes

sur un 486DX `a 33MHz.

– Seule une portion de l’image de d´epart est utilis´ee, celle autour des

lignes (voire juste les lignes si on ´elimine RLSA).

– R´esiste `a la pr´esence d’images dans le texte.

– Son exactitude est ajustable grˆace au nombre de lignes verticales.

Les limites de l’algorithme :

– D´ependant de l’angle maximum d’orientation de l’algorithme.

– Fonctionne uniquement sur des documents textuels (donc OK pour

nous).

On a N−1 matrices de corr´elation (o`u Nest le nombre de lignes verti-

cales) qui sont chacune de taille H×2Lo`u Hest la hauteur de l’image en

pixel et Lla pente maximum d’une ligne avec L=D×tan(2πθmax/360).

L’algorithme devrait aussi ˆetre modiﬁable pour pouvoir donner l’´epaisseur

(moyenne au moins) des lignes. :

2.4 L’algorithme de Shivakumara et al.

TODO

3 Segmentation de texte

3.1 Algorithme de Tran, Lux, NGuyen et Boucher

L’algorithme `a arrˆete [5] permet de trouver du texte pr´esent dans une

image ind´ependamment de sa taille, de son orientation ou de ses couleurs. Il

recherche, `a un haut niveau, les arrˆetes de texte puis, `a un niveau plus bas,

les arrˆetes correspondants `a la forme des caract`eres. Il est ainsi ind´ependant

de l’alphabet utilis´e et peut aussi bien reconnaˆıtre des caract`eres latins que

chinois `a la fois dactylographi´es et manuscrits.

Des contraintes sur les arrˆetes sont utilis´ees aﬁn de s´eparer les arrˆetes de

texte du non-texte par exemple sur la longueur des arrˆetes de caract`ere ou

sur leur orientation par rapport `a l’arrˆete centrale.

R´ef´erences

[1] H. Baird. The skew angle of printed documents. Proc. Soc. Photogr. Sci.

Eng., pages 21–24, 1987.

[2] G. Ciardello, G. Scafur, M. T. Degrandi, M. R. Spada, and M. P. Roc-

coteli. An experimental system for oﬃce document handling and text

recognition. Proc. Ninth Conf. on Pattern Recognition, pages 739–743,

1988.

[3] B. Gatos, N.Papamarkos, and C. Chamzas. Skew detection and text

line position determination in digitized documents. Pattern Recognition,

30(9) :1505–1519, 1997.

[4] P. Shivakumara, G. Hemantha Kumar, D. S. Guru, and P. Nagabhushan.

A novel technique for estimation of skew in binary text document images

based on linear regression analysis. Sadhana, 30 :69–85, 2005.

[5] H. Tran, A. Lux, and A. Boucher H. L. Nguyen. A novel approach for

text detection in images using structural features. 2005.

[6] K. Y. Wong, R. G. Casey, and F. M. Wahl. Documents analysis system.

IBM J. Res. Devel, pages 647–656, 1982.

1 / 3 100%

1 Généralités 2 Détection de l`orientation

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

1 Généralités 2 Détection de l`orientation

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib