1 Conversion du pdf et texte
Les pdf sont convertis en texte `a l’aide de l’outil pdftotext provenant de
poppler (http://poppler.freedesktop.org).
2 S´eparation du texte en mot
Deux expressions rationelles sont utilis´es : s/( |’)/\n/g et
s/[^A-Za-z\-`a´e`e¸c`u¨ı¨e¨a¨o¨u^a^e^ı^o^u]//g.
3 Association mot verbe
L’association mot vers verbe est r´ealis´ee par french-deconjugator provenant
de Verbiste (http://sarrazip.com/dev/verbiste.html). Puis une expres-
sion rationelle est utilis´ee sur le retour afin de s´electionner uniquement le verbe.
Un retour vide est effectu´e quand ce n’est pas un verbe.
4 Analyse de la liste des verbes
Pour l’analyse, les commandes sort,uniq -c et sort -n sont utilis´ees. Des
verbes faux positifs doivent ˆetre enlev´es (comme politique qui donne le verbe
politiquer).
5 Code utilis´e
(Attention les expression rationelles ne sont pas les bonnes ici, `a cause de la
gestion des accents. Se r´eferer au dessus.
# !/ b in / b as h
for pdf in pdfs /*
do
pd fto tex t $pdf - > > texte
done
sed - r " s /( | ’) / \ n/ g " -i texte
sed - r " s /[^ A - Za - z \ -]/ / g" -i text e
cat t ex te | so rt | uniq -c | sort - R > mots
while re ad l
do
nb = $ ( echo $l | sed -r " s /^ * ([^ ]+ ) ([ ^ ]+) $ /\ 1/ " )
mot = $ ( echo $l | sed -r " s /^ * ([^ ]+ ) ( [^ ] +) $ /\2 / " )
ve rbe =$ ( fre nch - de co nj ug at or $ mot | sed -e ’1q0 ’ | sed - r ’ s /^([^ ,]+) ,.*
$ /\1 / ’)
if test "$verbe" != ""
then
1