Université Paris III - La Sorbonne Nouvelle
Master Ingénierie Linguistique et Traitement
Automatique du Langage
Parcours Recherche&Développement
Mémoire de Master 2
Sciences du Langage
Présenté et soutenu par
Ilaria TIDDI
Découverte de patrons de
dépendances pour la construction
d’ontologies
Mémoire dirigé par Mme Isabelle Tellier
préparé à l’Ecole Centrale Paris, Projet parlance
7 septembre 2012
Jury :
Encadrante de Mémoire : Isabelle Tellier - Paris III
Encadrante de Stage : Marie-Aude Aufaure - ECP
Examinateur : Sylvain Kahane - Paris X
Remerciements
Je voudrais remercier toutes les personnes, proches ou pas, sans lesquelles ce
projet n’aurait jamais vu sa fin.
Tout d’abord, je tiens à remercier Mme Tellier pour m’avoir suivie dans l’écriture
du mémoire, pour la patience et l’attention qu’elle a employées pour corriger toutes
mes erreurs, pour avoir répondu à mes questions et avoir éclairci mes doutes, mais
surtout pour ses enseignements précieux qui m’ont aidée dans mes choix futurs.
Un remerciement particulier va à Mme Aufaure pour m’avoir donné l’incroyable
possibilité d’effectuer mon stage à l’Ecole Centrale Paris, sans lequel je n’aurais
jamais compris que, lorsqu’on veut quelque chose, on peut l’obtenir. J’en profite
pour remercier toute l’équipe de Business Intelligence pour tous les moments et
pauses café/baby-foot passés ensemble. Merci à Nesrine et Yves pour avoir suivi
soigneusement mes travaux pendant six mois.
Merci aussi à M. Kahane pour tout ce que j’ai appris pendant ces deux ans
grâce à lui : ses cours, que j’ai suivis avec enthousiasme, ont conditionné mon futur
et je ne peux qu’en être heureuse. Je le remercie aussi pour avoir cru en moi et mes
capacités, alors que je ne voyais pas mon potentiel.
Je remercie tous les profs du Master PluriTAL pour m’avoir transmis leur
passion pour le TAL. En particulier je tiens à remercier M. Serge Fleury qui a
mis en place ce Master et qui a cru dans mes capacités rien qu’en regardant mon
dossier "atypique". Je m’excuse surtout pour le grand nombre de mails que je lui
ai envoyées, auxquelles il a toujours répondu avec une telle rapidité et attention au
point de me faire croire qu’il soit un héros qui ne dort jamais.
Le plus grand remerciement va à ma famille qui, même si loin, n’a jamais arrêté
de me soutenir : à mes parents, sans lesquels je ne serais arrivée jusqu’ici, pour
avoir toujours appuyé mes choix même s’ils ne les comprenaient pas, et à mes frères,
pour le lien qui ne nous sépare dans aucune situation. Peu importe la distance, je
sais que vous seriez toujours à côté de moi.
Une pensée particulière va à deux personnes qui ont suivi de près mon travail,
directement ou pas : Emanuele et Mario. Merci des conseils, des corrections, des
moyens brusques mais fraternels, vous êtes ce que je veux devenir et vous m’avez
aidée à trouver la bonne voie pour le faire.
Last but not least, Arnaud, mon épaule, mon "prof", mon exemple à suivre, je
ne serais pas ici sans toi. Merci pour le soutien, les moments ensemble et ceux où
on ne l’était pas, les soirées passées à se prendre la tête sur mes programmes, pour
croire toujours en moi et me suivre dans toutes mes folies. Qui sait ce que le futur
nous réserve, l’important est qu’on le fasse ensemble.
ii
Ringraziamenti
Vorrei fare un ringraziamento a tutte le persone che hanno fatto parte di questo
lavoro, direttamente e non.
Ringrazio Isabelle Tellier per avermi seguita durante la stesura della tesi, per
aver risposto alle mie infinite domande, per avermi corretto pazientemente e per
tutti i suoi insegnamenti che mi hanno aiutato a prendere delle decisioni importanti
per il futuro.
Un ringraziamento particolare a Marie-Aude Aufaure, per avermi dato la possi-
bilità di fare il tirocinio al laboratorio MAS dell’École Centrale Paris, con il quale
ho potuto capire che, quando si desidera fortemente qualcosa, é davvero possibile
ottenerlo. Ne approfitto per ringraziare tutto il gruppo Business Intelligence per i
momenti e pause caffè/biliardino passati insieme. Grazie a Yves e Nesrine che hanno
seguito e diretto il mio lavoro per sei mesi.
Grazie anche a Sylvain Kahane per quello che mi ha insegnato in questi due
anni : i suoi corsi, che ho seguito con entusiasmo e attenzione, mi hanno aiutata
a trovare la mia strada. Grazie anche per aver creduto in me e nelle mie capacità
anche quando io non mi rendevo conto del mio potenziale.
Ringrazio i prof della specialistica PluriTAL, per avermi trasmesso la loro
passione per il TAL. In particolare, grazie mille a Serge Fleury per aver organizzato
il corso di laurea e per aver accettato un curriculum così "atipico" come lo era il mio.
Mi scuso per tutte le e-mail che gli ho mandato, a cui ha sempre risposto con una tale
rapidità al punto che ora sono convinta che Lui sia un supereroe che non dorme mai.
Il grazie più grande va alla mia famiglia, che non ha mai smesso di appoggiarmi
anche se a distanza : ai miei genitori, senza i quali non sarei mai arrivata qui, per
credere sempre nelle mie scelte anche senza capirle, e ai miei fratelli, il mio esem-
pio da seguire in ogni situazione. Nonostante le distanze so che sarete sempre con me.
Un pensiero particolare va a due persone che mi hanno seguita, direttamente
e non, in questo lavoro : Emanuele e Mario. Per i consigli, per le correzioni, per i
modi bruschi ma fraterni, siete quello che "vorrei fare da grande" e mi avete aiutato
a trovare la strada giusta.
Last but not least, Arnaud, la mia spalla, il mio "prof", il mio esempio da seguire,
non sarei mai arrivata fin qui senza il tuo aiuto. Grazie di tutto, per i momenti
insieme e quelli in cui siamo stati lontani, tutte le serate passate ad arrovellarci il
cervello sui miei programmi, per credere sempre in me e seguirmi in tutte le mie
pazzie. Non so cosa ci riservi il futuro, ma l’importante é che saremo insieme.
Table des matières
1 Introduction 1
1.1 Contexte .................................. 1
1.2 Le Traitement Automatique des Langues ................ 2
1.2.1 L’informatique et la linguistique se rencontrent ........ 2
1.2.2 Le processus de communication ................. 4
1.2.3 De la Syntaxe à la Sémantique ................. 6
1.2.4 Le Web du XXI siècle ...................... 7
1.2.5 Applications du TAL aujourd’hui ................ 9
1.3 Parlance, un projet pour le TAL ................... 10
2 Le Web Sémantique 13
2.1 Introduction ................................ 13
2.1.1 Caractéristiques du Web Sémantique .............. 14
2.1.2 Structure du Web Sémantique .................. 15
2.1.3 Applications du Web Sémantique ................ 17
2.2 Ontologies du Web Sémantique ..................... 18
2.2.1 DBpedia .............................. 18
2.2.2 YAGO2 .............................. 21
2.2.3 Schema.org ............................ 23
2.3 Linked Data ................................ 23
2.3.1 Le projet Linking Open Data .................. 24
3 L’Apprentissage d’ontologies 27
3.1 Ontology Learning : entre structuré et non structuré ......... 27
3.2 Apprentissage d’ontologies à partir des textes ............. 28
3.3 Apprentissage d’ontologies à partir du Web .............. 28
3.4 Tâches de l’apprentissage d’ontologies ................. 29
3.4.1 Acquisition des termes et des synonymes ............ 31
3.4.2 Formation des concepts et hiérarchisation ........... 31
3.4.3 Apprentissage et hiérarchisation des relations ......... 33
3.4.4 Définition des axiomes ...................... 33
3.4.5 Population ............................ 34
3.5 Outils Existants .............................. 35
4 Les Grammaires de Dépendances 37
4.1 Introduction ................................ 37
4.1.1 Notions de dépendances ..................... 37
4.1.2 Définitions formelles ....................... 39
4.1.3 Types de représentation ..................... 40
4.1.4 Théories des dépendances : similarités et différences ..... 41
1 / 148 100%