1 Conversion du pdf et texte Les pdf sont convertis en texte à l’aide de l’outil pdftotext provenant de poppler (http://poppler.freedesktop.org). 2 Séparation du texte en mot Deux expressions rationelles sont utilisés : s/( |’)/\n/g et s/[^A-Za-z\-àéèçùı̈ëäöü^ a^ e^ ı^ o^ u]//g. 3 Association mot verbe L’association mot vers verbe est réalisée par french-deconjugator provenant de Verbiste (http://sarrazip.com/dev/verbiste.html). Puis une expression rationelle est utilisée sur le retour afin de sélectionner uniquement le verbe. Un retour vide est effectué quand ce n’est pas un verbe. 4 Analyse de la liste des verbes Pour l’analyse, les commandes sort, uniq -c et sort -n sont utilisées. Des verbes faux positifs doivent être enlevés (comme politique qui donne le verbe politiquer). 5 Code utilisé (Attention les expression rationelles ne sont pas les bonnes ici, à cause de la gestion des accents. Se réferer au dessus. # !/ bin / bash for pdf in pdfs /* do pdftotext $pdf - >> texte done sed -r " s /( | ’) /\ n / g " -i texte sed -r " s /[^ A - Za - z \ -]// g " -i texte cat texte | sort | uniq -c | sort -R > mots while read l do nb = $ ( echo $l | sed -r " s /^ *([^ ]+) ([^ ]+) $ /\1/ " ) mot = $ ( echo $l | sed -r " s /^ *([^ ]+) ([^ ]+) $ /\2/ " ) verbe = $ ( french - deconjugator $mot | sed -e ’1 q0 ’ | sed -r ’s /^([^ ,]+) ,.* $ /\1/ ’) if test " $verbe " != " " then 1 for (( i =0; i < $nb ; i ++) ) do echo $verbe done fi done < mots > verbes cat verbes | sort | uniq -c | sort -n > verbes_tri 2