1 Conversion du pdf et texte 2 Séparation du texte en mot 3

publicité
1
Conversion du pdf et texte
Les pdf sont convertis en texte à l’aide de l’outil pdftotext provenant de
poppler (http://poppler.freedesktop.org).
2
Séparation du texte en mot
Deux expressions rationelles sont utilisés : s/( |’)/\n/g et
s/[^A-Za-z\-àéèçùı̈ëäöü^
a^
e^
ı^
o^
u]//g.
3
Association mot verbe
L’association mot vers verbe est réalisée par french-deconjugator provenant
de Verbiste (http://sarrazip.com/dev/verbiste.html). Puis une expression rationelle est utilisée sur le retour afin de sélectionner uniquement le verbe.
Un retour vide est effectué quand ce n’est pas un verbe.
4
Analyse de la liste des verbes
Pour l’analyse, les commandes sort, uniq -c et sort -n sont utilisées. Des
verbes faux positifs doivent être enlevés (comme politique qui donne le verbe
politiquer).
5
Code utilisé
(Attention les expression rationelles ne sont pas les bonnes ici, à cause de la
gestion des accents. Se réferer au dessus.
# !/ bin / bash
for pdf in pdfs /*
do
pdftotext $pdf - >> texte
done
sed -r " s /( | ’) /\ n / g " -i texte
sed -r " s /[^ A - Za - z \ -]// g " -i texte
cat texte | sort | uniq -c | sort -R > mots
while read l
do
nb = $ ( echo $l | sed -r " s /^ *([^ ]+) ([^ ]+) $ /\1/ " )
mot = $ ( echo $l | sed -r " s /^ *([^ ]+) ([^ ]+) $ /\2/ " )
verbe = $ ( french - deconjugator $mot | sed -e ’1 q0 ’ | sed -r ’s /^([^ ,]+) ,.*
$ /\1/ ’)
if test " $verbe " != " "
then
1
for (( i =0; i < $nb ; i ++) )
do
echo $verbe
done
fi
done < mots > verbes
cat verbes | sort | uniq -c | sort -n > verbes_tri
2
Téléchargement