1 Conversion du pdf et texte 2 Séparation du texte en mot 3

Téléchargement

1 Conversion du pdf et texte

Les pdf sont convertis en texte `a l’aide de l’outil pdftotext provenant de

poppler (http://poppler.freedesktop.org).

2 S´eparation du texte en mot

Deux expressions rationelles sont utilis´es : s/( |’)/\n/g et

s/[^A-Za-z\-`a´e`e¸c`u¨ı¨e¨a¨o¨u^a^e^ı^o^u]//g.

3 Association mot verbe

L’association mot vers verbe est r´ealis´ee par french-deconjugator provenant

de Verbiste (http://sarrazip.com/dev/verbiste.html). Puis une expres-

sion rationelle est utilis´ee sur le retour aﬁn de s´electionner uniquement le verbe.

Un retour vide est eﬀectu´e quand ce n’est pas un verbe.

4 Analyse de la liste des verbes

Pour l’analyse, les commandes sort,uniq -c et sort -n sont utilis´ees. Des

verbes faux positifs doivent ˆetre enlev´es (comme politique qui donne le verbe

politiquer).

5 Code utilis´e

(Attention les expression rationelles ne sont pas les bonnes ici, `a cause de la

gestion des accents. Se r´eferer au dessus.

# !/ b in / b as h

for pdf in pdfs /*

pd fto tex t $pdf - > > texte

done

sed - r " s /( | ’) / \ n/ g " -i texte

sed - r " s /[^ A - Za - z \ -]/ / g" -i text e

cat t ex te | so rt | uniq -c | sort - R > mots

while re ad l

nb = $ ( echo $l | sed -r " s /^ * ([^ ]+ ) ([ ^ ]+) $ /\ 1/ " )

mot = $ ( echo $l | sed -r " s /^ * ([^ ]+ ) ( [^ ] +) $ /\2 / " )

ve rbe =$ ( fre nch - de co nj ug at or $ mot | sed -e ’1q0 ’ | sed - r ’ s /^([^ ,]+) ,.*

$ /\1 / ’)

if test "$verbe" != ""

then

for ( (i = 0; i <$ nb ; i ++) )

echo $verbe

done

done < mots > verbe s

cat v erbes | s ort | uniq - c | sort -n > verb es_ tri

1 / 2 100%

Documents connexes

Mon livret d’outils pour écrire

Le verbe être au présent de l`indicatif

passé composé check-in

Exercices de vocabulaire : Verbes et noms

Capsule octobre 2010_Il me fait plaisir_version courte

Les 3 groupes de verbe.

PAUL

CLASSEUR OUTILS CONJ Conjuguer les verbes ETRE et AVOIR

RTF

agenda_S24

agenda_S6

C7bis : exercices de la page 81

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

1 Conversion du pdf et texte 2 Séparation du texte en mot 3

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

1 Conversion du pdf et texte 2 Séparation du texte en mot 3

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib