Exploitation de dimensions du traitement de corpus en découverte

publicité
Exploitation de dimensions du traitement de corpus
en découverte de connaissances linguistiques
Pierre Zweigenbaum
a
STIM/DSI, Assistance Publique – Hôpitaux de Paris, France
b
ERM 202, INSERM, Paris, France
c
CRIM, INaLCO, Paris, France
2004
Plan
✓
Les trois ordres de G. Grefenstette
✓
Premier ordre : mots thématiquement proches
✓
Second ordre : mots sémantiquement proches
✓
Second ordre : alignement en corpus comparables
✓
Conclusion
2004
Détecter des régularités
2004
Détecter des régularités
Freiburg, mars 2004
Göteborg, mai 2004
2004
Exploration de corpus : trois ordres d’affinité
(Grefenstette, 1994) (Rapp, 2000+)
➊ Observation des cooccurrences entre mots :
un mot apparaı̂t dans le contexte d’un autre mot
relation syntagmatique : ➥ association
2004
Exploration de corpus : trois ordres d’affinité
(Grefenstette, 1994) (Rapp, 2000+)
➊ Observation des cooccurrences entre mots :
un mot apparaı̂t dans le contexte d’un autre mot
relation syntagmatique : ➥ association
➋ Comparaison de deux distributions de cooccurrences :
un mot apparaı̂t dans les mêmes contextes qu’un autre
mot
relation paradigmatique : ➥ substituabilité
2004
Exploration de corpus : trois ordres d’affinité
(Grefenstette, 1994) (Rapp, 2000+)
➊ Observation des cooccurrences entre mots :
un mot apparaı̂t dans le contexte d’un autre mot
relation syntagmatique : ➥ association
➋ Comparaison de deux distributions de cooccurrences :
un mot apparaı̂t dans les mêmes contextes qu’un autre
mot
relation paradigmatique : ➥ substituabilité
➂ Recherche d’une structure sur les distributions de
cooccurrences :
appartenance à un paradigme ➥ classification
2004
Exploration de corpus : unités de discours
✓ syntagme
✓ phrase
✓ paragraphe
✓ document
✓ fenêtre de N mots
✓ ...
2004
Acquisition de connaissances à partir de corpus
✓ Connaissances morphologiques
familles de mots construits (Hathout et al.)
2004
Acquisition de connaissances à partir de corpus
✓ Connaissances morphologiques
familles de mots construits (Hathout et al.)
✓ Connaissances syntaxiques
probabilités de sous-catégorisation (Bourigault et al.)
2004
Acquisition de connaissances à partir de corpus
✓ Connaissances morphologiques
familles de mots construits (Hathout et al.)
✓ Connaissances syntaxiques
probabilités de sous-catégorisation (Bourigault et al.)
✓ Connaissances sémantiques
couples N-V qualia (Fabre et al.)
2004
Acquisition de connaissances à partir de corpus
✓ Connaissances morphologiques
familles de mots construits (Hathout et al.)
✓ Connaissances syntaxiques
probabilités de sous-catégorisation (Bourigault et al.)
✓ Connaissances sémantiques
couples N-V qualia (Fabre et al.)
✓ ...
2004
Quels traitements pour quelles connaissances ?
Le jeu de la découverte :
secouer son corpus
pour faire émerger
les relations linguistiques
qui le sous-tendent
2004
Quels traitements pour quelles connaissances ?
Le jeu de la découverte :
secouer son corpus
pour faire émerger
les relations linguistiques
qui le sous-tendent
✓ Type de connaissance
✓ Ordre
✓ Unité de discours
✓ ...
2004
Quels traitements pour quelles connaissances ?
Le jeu de la découverte :
secouer son corpus
pour faire émerger
les relations linguistiques
qui le sous-tendent
✓ Type de connaissance
✓ Ordre
✓ Unité de discours
✓ ...
➠ Quelques exemples
2004
✓
Les trois ordres de G. Grefenstette
✑
Premier ordre : mots thématiquement proches
✓
Second ordre : mots sémantiquement proches
✓
Second ordre : alignement en corpus comparables
✓
Conclusion
2004
Premier ordre : mots thématiquement proches
✓ Associations de mots
✓ Premier ordre : mots qui cooccurrent
(plus souvent qu’au hasard)
✓ (distance courte) : collocations : expressions à
plusieurs mots, sous-catégorisation
infarctus du myocarde, indexé sur, résoudre un
problème
✓ (distance plus grande) : relations thématiques
hôpital, médecin, chirurgie,
hospitalisation, chirurgien, chirurgical
2004
Proximité thématique
Une (longue) phrase
Le caractère multifactoriel de la maladie asthmatique
(prédisposition génétique, facteurs d’environnement allergènes et polluants -, rôle des infections notamment
virales) rend compte du polymorphisme de l’affection et
explique le fait qu’aucune définition de l’asthme n’apparaı̂t
pleinement satisfaisante dans la mesure où elle n’inclut pas
tous les aspects d’une affection très polymorphe dans ses
modes de déclenchement, son profil évolutif ou sa sévérité.
2004
Proximité thématique
Une (longue) phrase
Le caractère multifactoriel de la maladie asthmatique
(prédisposition génétique, facteurs d’environnement allergènes et polluants -, rôle des infections notamment
virales) rend compte du polymorphisme de l’affection et
explique le fait qu’aucune définition de l’asthme n’apparaı̂t
pleinement satisfaisante dans la mesure où elle n’inclut pas
tous les aspects d’une affection très polymorphe dans ses
modes de déclenchement, son profil évolutif ou sa sévérité.
2004
Proximité thématique
Phrases plus courtes
A côté des problèmes inhérents à l’identification de l’asthme,
les conditions d’une prise en charge correcte du patient
asthmatique tiennent à plusieurs facteurs :...
De nos jour, l’asthme est une maladie relativement bien
connue des asthmatiques, ce qui n’a pas été toujours le cas.
Un asthmatique peut avoir un asthme d’origine allergique ET
intrinsèque.
2004
Proximité thématique
Phrases plus courtes
A côté des problèmes inhérents à l’identification de l’asthme,
les conditions d’une prise en charge correcte du patient
asthmatique tiennent à plusieurs facteurs :...
De nos jour, l’asthme est une maladie relativement bien
connue des asthmatiques, ce qui n’a pas été toujours le cas.
Un asthmatique peut avoir un asthme d’origine allergique ET
intrinsèque.
2004
Proximité thématique
D’une phrase à l’autre
5 à 10 % des patients atteints d’un asthme corticodépendant
aux Etats-Unis (3) correspondraient à une ABPA ;
28 % des asthmatiques dont les tests cutanés sont positifs
envers Aspergillus fumigatus, dans une autre étude
américaine, présentent tous les critères d’une ABPA
(3,11,28).
2004
Proximité thématique
D’une phrase à l’autre
5 à 10 % des patients atteints d’un asthme corticodépendant
aux Etats-Unis (3) correspondraient à une ABPA ;
28 % des asthmatiques dont les tests cutanés sont positifs
envers Aspergillus fumigatus, dans une autre étude
américaine, présentent tous les critères d’une ABPA
(3,11,28).
2004
Proximité thématique
D’une phrase à l’autre
On sait que l’environnement joue un rôle significatif dans le
développement de l’asthme chez les enfants.
Une étude menée en Grande Bretagne (*) met en évidence
qu’un enfant de moins de 2 ans exposé à la fumée de
cigarette de sa maman présentera assez systématiquement
des symptômes de type asthmatiques.
2004
Proximité thématique
D’une phrase à l’autre
On sait que l’environnement joue un rôle significatif dans le
développement de l’asthme chez les enfants.
Une étude menée en Grande Bretagne (*) met en évidence
qu’un enfant de moins de 2 ans exposé à la fumée de
cigarette de sa maman présentera assez systématiquement
des symptômes de type asthmatiques.
2004
Proximité thématique
D’une phrase à l’autre
L’asthme affecte près de 15 millions d’américains dont 5
millions d’enfants.
En milieu rural, 7% des enfants sont asthmatiques, le double
le sont en ville.
2004
Proximité thématique
D’une phrase à l’autre
L’asthme affecte près de 15 millions d’américains dont 5
millions d’enfants.
En milieu rural, 7% des enfants sont asthmatiques, le double
le sont en ville.
2004
Proximité thématique
D’une phrase à l’autre
Notamment, elle irrite les muqueuses de la trachée et des
poumons et favorise le déclenchement de crises d’asthme.
Si vous êtes asthmatique, il est donc essentiel de vérifier la
qualité de l’air dans votre région pour anticiper.
2004
Proximité thématique
D’une phrase à l’autre
Notamment, elle irrite les muqueuses de la trachée et des
poumons et favorise le déclenchement de crises d’asthme.
Si vous êtes asthmatique, il est donc essentiel de vérifier la
qualité de l’air dans votre région pour anticiper.
2004
Proximité thématique
Cinq phrases
Certains climats et certaines zones géographiques peuvent
être profitables aux asthmatiques du fait d’un air plus pur,
d’un meilleur ensoleillement.
Les séjours climatiques :
Il y a en France de nombreux établissements :
en montagne, en mer ou en plaine.
La qualité de l’air y est meilleure et il y a une diminution du
contact avec des substances allergisantes ou allergènes (
acariens, pollens ).
Beaucoup de patients sont satisfaits des cures thermales,
c’est un lieu de détente et d’oxygénation.
Par exemple LA BOURBOULE (au niveau ORL et
asthme) ;AVENE, LA ROCHE POSAY (peau).
2004
Proximité thématique
Cinq phrases
Certains climats et certaines zones géographiques peuvent
être profitables aux asthmatiques du fait d’un air plus pur,
d’un meilleur ensoleillement.
Les séjours climatiques :
Il y a en France de nombreux établissements :
en montagne, en mer ou en plaine.
La qualité de l’air y est meilleure et il y a une diminution du
contact avec des substances allergisantes ou allergènes (
acariens, pollens ).
Beaucoup de patients sont satisfaits des cures thermales,
c’est un lieu de détente et d’oxygénation.
Par exemple LA BOURBOULE (au niveau ORL et
asthme) ;AVENE, LA ROCHE POSAY (peau).
2004
Premier ordre : mots morphologiquement reliés
✓ Objectif : repérer des
familles
morphologiques
✓ Mots de forme
proche
corpus
mot A
✓ Qui sont reliés
thématiquement
✓ Unité : fenêtres de
mots
sens
Occurrences
mot B
forme
Types
(Zweigenbaum & Grabar, 2003)
2004
Corpus de travail
✔ Corpus construit à partir du web à travers le catalogue
CISMeF des sites médicaux francophones
http ://www.chu-rouen.fr/cismef/
✔ Étiqueté et lemmatisé : TreeTagger (Schmid, NEMLAP 1994)
+ FLEMM (Namer, TAL 2000)
fournit essentiellement des dérivations
➠ 4 627 documents
➠ 5 204 901 mots
➠ 2 041 627 mots non grammaticaux
2004
Unité : fenêtre graphique
✔ Suppression des mots “outils”
✔ Fenêtre glissante, de M mots à gauche et à droite du
“mot pivot”
Cooccurrences :
✔ Collecte les cooccurrents du mot pivot
✔ qui commencent par les mêmes N premières lettres
(N = 4)
{asthme, asthmatique}
2004
Sélection heuristique des dérivés
✑ Pas de dérivation régressive
longueur dérivé ≥ longueur base − 1
articulation / articulaire, sacrum / sacré
✑ Éviter les composés (morphèmes longs)
longueur dérivé ≤ longueur base + 5
bronche / bronchopneumonique
✑ Fréquence de la règle : le même opérateur morphologique
(“règle”) est employé “souvent”
Ex. : la substitution -e / -aire s’applique 72 fois dans les
couples trouvés
2004
Exemples de dérivations repérées
Sur 26 noms d’anatomie commençant par a
trouvés dans la nomenclature SNOMED Internationale
(376 examinés en tout)
Nom
abdomen
amygdale
aorte
apophyse
appendice
articulation
artériole
aréole
astrocyte
axone
Adjectif
# cooc loglike ch.i.c.m. suf1
abdominal
101 584.21 abdom en
amygdalien
8 100.24 amygdal e
aortique
170 1314.74
aort e
apophysaire++
3
39.66 apophys e
appendiculaire++
19 225.24 appendic e
articulaire
216 1406.34 articula tion
artériolaire+
15
99.99 artériol e
aréolaire+
2
27.55
aréol e
astrocytaire
2
28.60 astrocyt e
axonal+
8
93.21
axon e
+
association non spécifiée par SNOMED
++
adjectif absent de SNOMED
suf2
f
inal
2
ien
24
ique 131
aire
72
ulaire
5
ire
13
aire
72
aire
72
aire
72
al
42
2004
Précision, rappel, ajouts % SNOMED
Proportions de couples nom-adjectif
Corpus = 150
seulement dans
trouvés par
ajoutés par
erronés
SNOMED
le corpus
le corpus
13 = 91 %
72 = 49 % 76 = 51 % rappel 61 = 41 % ajouté de précision
SNOMED = 148
Ajouts : apophysaire, appendiculaire, cardial, cotyloı̈dien, cristallinien,
diaphysaire, hippocampique, intimal, jambier, lysosomal, macrophagique,
mastocytaire, myométrial, métatarsien, néphronique, olécrânien,
paramétrial, plasmatique, rhinopharyngé, réticulocytaire, tympanique,
éosinophilique
2004
✓
Les trois ordres de G. Grefenstette
✓
Premier ordre : mots thématiquement proches
✑
Second ordre : mots sémantiquement proches
✓
Second ordre : alignement en corpus comparables
✓
Conclusion
2004
Mots sémantiquement proches : second ordre
✓ Sens proche ⇔ usage similaire
✓ Premier ordre : Représenter le sens d’un mot par
l’ensemble de ses contextes d’usage
✓ Vecteur de contextes : vecteur des mots associés
✓ Second ordre : les mots qui possèdent des vecteurs de
contextes similaires ont des sens proches
(Habert, Nazarenko, Bouaud, Zweigenbaum, 1997–2000)
2004
Préparation des données
Zellig (Habert et al., 1996)
✓ Corpus Menelas (84 kmots)
✓ Syntagmes nominaux obtenus par Lexter ou AlethIPGN
✓ Arbres élémentaires (dépendances)
✓ Contextes syntaxiques d’occurrence des N et Adj
administration de médicament,
administration de routine,
administration orale
2004
Vecteurs de contexte
Contextes de sténose :
(score d’association = nb de cooccurrences)
contexte
score
de artere
10
de allure
10
de branche
3
de carotide
3
de debut
3
diagonale
3
droite
4
...
2004
Graphe de contextes partagés
✓ Deux mots sont liés par une arête si leur nombre de
contextes communs est supérieur à un seuil donné
✓ Seuil = 10
2004
Exemple : première composante connexe
(AlethIPGN)
AKINESIE
TERRITOIRE
PAROI
HYPOKINESIE
SEGMENT
NECROSE
MYOCARDE
DERIVATION
TRONC
INFARCTUS
DIAGONALE
SYMPTOMATOLOGIE
ISCHEMIE
ANGOR
IVA
RESEAU
DOULEUR
DYSPNEE
BRANCHE
INTERVENTRICULAIRE
DROITE
SOUFFLE
AVAL
ARTERE
INSUFFISANCE
PONT
LESION
MARGINAL
PONTAGE
PATHOLOGIE
ATTEINTE
RESTENOSE
CORONAROGRAPHIE
ANGIOPLASTIE
STENOSE
MALADIE
EPREUVE
BILAN
TRES
ASSEZ
RETRECISSEMENT
DILATATION
PLAQUE
ANOMALIE
ATHEROME
OCCLUSION
PLAN
EXPLORATION
EXAMEN
CONTROLE
2004
Exemple : clique (+)
(Lexter)
LATERAL
akinesie ~
artere ~
courant ~
decalage ~
endocardique ~
epicardique ~
hypocinesie ~
hypokinesie ~
infarctus ~
ischemie ~
myocarde ~
necrose ~
paroi ~
pont ~
reseau ~
sous ~
territoire ~
topographie ~
ANTERIEUR
akinesie ~
atteinte ~
dyskinesie ~
hypokinesie ~
idm ~
infarctus ~
lesion ~
necrose ~
sequelle ~
territoire ~
LIMITE
akinesie ~
decalage ~
derivation ~
epicardique ~
hypokinesie ~
infarctus ~
ischemie ~
akinesie ~
myocarde
~
antero ~
necrose ~
courant ~
derivation ~
paroi ~
epicardique ~
postero
~
hypokinesie ~
segment ~
infarctus ~
infero ~
sous ~
ischemie ~
territoire
~
myocarde ~
necrose ~ topographie ~
paroi ~
postero ~
posteroinfero ~
segment ~
sous ~
territoire ~
akinesie ~
artere ~
epicardique ~
hypokinesie ~
infarctus ~
interventriculaire ~
ischemie ~
necrose ~
paroi ~
sous ~
territoire ~
akinesie ~
courant ~
dyskinesie ~
epicardique ~
hypokinesie ~
infarctus ~
ischemie ~
myocarde ~
necrose ~
paroi ~
sequelle ~
sous ~
territoire ~
POSTERIEUR
akinesie ~
bord ~
decalage ~
dyskinesie ~
epicardique ~
hypokinesie ~
idm ~
infarctus ~
ischemie ~
myocarde ~
necrose ~
paroi ~
sequelle ~
sous ~
territoire ~
topographie ~
akinesie ~
ectasie ~
epicardique ~
hypokinesie ~
infarctus ~
infero ~
ischemie ~
necrose ~
paroi ~
segment ~
sous ~
territoire ~
INFERIEUR
akinesie ~
derivation ~
dyskinesie ~
epicardique ~
hypofixation ~
hypokinesie ~
infarctus ~
ischemie ~
myocarde ~
necrose ~
paroi ~
postero ~
segment ~
sequelle ~
siege ~
sous ~
territoire ~
APICAL
2004
Exemple : clique
ABSENCE DE ~
ANATOMIE DE ~
STENOSE
AUTRE ~
ANGIOPLASTIE DE ~
DEUX ~
ANGIOPLASTIE SUR ~
LONG ~
AUTRE ~
PREMIER ~
CALIBRE DE ~
TROIS ~
DEUX ~
DILATATION DE ~
PAS DE ~
PREMIER ~
~ A SEGMENT
~ CALCIFIE
~ CIRCONFLEXE
~ CORONARIEN
~ DIAGONAL
~ DISTALE
~ IRREGULIER
~ PROXIMAL
~ SIGNIFICATIF
ARTERE
~ AVEC AVAL
AUTRE ~
~ CIRCONFLEXE
DEUX ~
~ DE ARTERE
DEUXIEME ~
~ DE DROITE
OCCLUSION DE ~
~ DE INTERVENTRICULAIRE
PLAQUE AU_NIVEAU_DE ~
~ DE IVA
PREMIER ~
~ DE MARGINAL
STENOSE DE ~
~ INFERIEUR
STENOSE SUR ~
~ IRREGULIER
~ CIRCONFLEXE
~ MOYEN
~ COMMUN
~ PROXIMAL
~ IRREGULIER
~ LATERAL
~ NORMAL
~ POSTERIEUR
SEGMENT
~ PROXIMAL
~ STENOSE
2004
Exemple : projection de classes connues
Axes sémantiques de la nomenclature SNOMED
T = anatomie, G = qualificatifs et termes relationnels,
M = lésions, F = dysfonctions, D = diagnostics. . .
T/VALVULAIRE
G/INFERIEUR
/POSTERO−INFERIEUR
T/PULMONAIRE
G/POSTERIEUR
G/GAUCHE
G/LATERAL
/ARTERIEL
T/CIRCONFLEXE
G/DROIT
/APICAL
G/ANTERO−LATERAL
G/ANTERO−APICAL
G/ANTERIEUR
M/DIFFUS
T/AORTIQUE
T/CORONARIEN
/RECENT
T/CORONAIRE
G/ANCIEN
T/VENTRICULAIRE
T/MYOCARDIQUE
G/ACTUEL
G/SEVERE
T/CARDIAQUE
G/NORMAL
M/CALCIFIE
T/MITRAL
/DISTALE
G/PROXIMAL
G/MOYEN
G/MINIME
G/IMPORTANT
G/SIGNIFICATIF
2004
Exemple : prédiction de la classe d’un mot
RECIDIVE DE ~
SIGNE DE ~
EPISODE DE ~
R E C I D I V E D E ~I N F A R C T U S / M / 2 . 0
RECIDIVE DE ~
ANGOR/D/2.00
~ CARDIAQUE
0
DOULEUR/F/2.00 ARRET/A/2.00
CAVITE/T/2.00
IMPREGNATION/P/2.00
~ CARDIAQUE
ISCHEMIE/F/2.00
CHIRURGIE/P/3.00
~ PULMONAIRE
ECHOGRAPHIE/P/3.00
RECIDIVE DE ~
INTERVENTION/P/2.00
EPISODE DE ~
N E C R O S E / F / 3 . 0 0 SIGNE DE ~
~ PULMONAIRE E M B O L I E / M / 2 . 0 0
STIMULATEUR/A/3.00
EPISODE DE ~
SILHOUETTE/G/3.00
SIGNE DE ~
~ CARDIAQUE P A L P I T A T I O N / F / 2 . 0 0
S U R C H A R G E / F / 3 . 0 0 ~ PULMONAIRE
SIGNE DE ~
S T A S E / F / 3 . 0 0 ~ PULMONAIRE
ENZYME/F/2.00
RADIO/P/1.00
ETAT/F/3.00
LESION/M/1.00
~ CARDIAQUE
SIGNE DE ~
SIGNE DE ~
ARTERE/T/1.00
~
REANIMATION/P/1.00
~ CARDIAQUE
PULMONAIRE
RECIDIVE
~
HYPERTENSION/D/1.00
~
~
TRANSPLANTATION/P/1.00
~
RECIDIVE
ARYTHMIE/F/1.00
~
DE
CARDIAQUE
~
CARDIAQUE
~
~
~
FREQUENCE/F/4.00
CARDIAQUE
CARDIAQUE
C A R D I A QD
U EE
~
T/4.00
CATHETERISME/P/4.00
CARDIAQUE
~
PULMONAIRE
INDEX/F
CARDIAQUE
~ CARDIAQUE
~ CARDIAQUE
~
CARDIAQUE
PULMONAIRE
INSUFFISANCE/F/6.00
DECOMPENSATION/F/
F51.00/P26.00/T11.00/M8.00/D8.00/G8.00/A5.00/L1.00
~
PULMONAIRE
PRESSION/F/1.00
SIGNE DE ~
~ CARDIAQUE
~ CARDIAQUE
~ PULMONAIRE
BIT/F/5.00
AUSCULTATION/P/5.00
CARDIAQUE
DE
~
DE
SIGNE
~
DE
SIGNE
EPISODE
~
DE
EPISODE
~
REPRISE/G/1.00
SIGNE
SIGNE
SIGNE
DYSFONCTION/F/1.00
SIGNE DE ~
~ CARDIAQUE
~
~
DE
~
~
~
CARDIAQUE
~
~
PULMONAIRE
RECIDIVE
SPASME/M/1.00
DE
EPISODE
~
~
DE
~
~
~
MUSCLE/T/1.00
~
PHLEBITE/D/1.00
~
RUPTURE/M/1.00
~
PULMONAIRE
OPPRESSION/F/1.00
CARDIAQUE
PULMONAIRE
PULMONAIRE
RADIOGRAPHIE/P/1.00
PULMONAIRE
PULMONAIRE
MALADIE/F/1.00
PULMONAIRE
EPISODE DE ~
~ PULMONAIRE
~ CARDIAQUE
~ CARDIAQUE
~ PULMONAIRE
~ PULMONAIRE
~ CARDIAQUE
~ CARDIAQUE
~ PULMONAIRE
~ PULMONAIRE ~ PULMONAIRE
~ P U L M O~N APIURLEM O N A I R E
~ PULMONAIRE
GENES/F/1.00
DE
DE
DE
OEDEME/D/1.00
AIGU/G/1.00
ANGIOGRAPHIE/P/1.00
BASE/G/1.00
ANGINE/D/1.00
RALE/F/1.00
DYSPNEE/D/1.00
CAPILLAIRE/T/1.00
EFFORT/F/1.00
RESISTANCE/F/1.00
RYTHME/F/1.00
PRE−TRANSPLANTATION/P/1.00
COEUR/T/1.00
PARENCHYME/T/1.00
BRUIT/F/1.00
SOUFFLE/F/1.00
PLAGE/G/1.00
SCINTIGRAPHIE/P/1.00 SOMMET/G/1.00
T U B E R C U L OSSUER/IDN/F1E.C0T0I O N / L / 1 . 0 0
VASCULARISATION/M/1.00
2004
Discussion
✓ Importance de l’interprétation humaine des graphes
obtenus
✓ Outil d’accès à certaines relations dans un corpus
✓ Importance de la préparation des données
➢ connaissances linguistiques initiales
sténose d’allure, sténose du début
(Hirschman, 1975)
➢ Gestion de la polysémie
au genou de l’artère interventriculaire antérieure
✓ Surtout sur un petit corpus ?
2004
✓
Les trois ordres de G. Grefenstette
✓
Premier ordre : mots thématiquement proches
✓
Second ordre : mots sémantiquement proches
✑
Second ordre : alignement en corpus comparables
✓
Conclusion
2004
Alignement en corpus comparables : second ordre
✓ Second ordre : les mots d’usage similaire
partagent leurs mots associés
✓ Représenter le sens des mots par des vecteurs de
contextes (premier ordre)
✓ Les mots qui possèdent des vecteurs de contextes
similaires (second ordre) ont des sens proches
2004
Alignement en corpus comparables : traduction
✓ Objectif : trouver des
équivalents
traductionnels pour un
mot
corpus
comparable
✓ Unité : fenêtres de
mots dans deux corpus
monolingues
comparables
✓ Connaissances : lexique
bilingue (partiel)
F
E
Occurrences
sens
mot A
mot B
forme
Types
(Thèse de Yun-Chuang Chiao, juin 2004)
(Chiao & Zweigenbaum, 2002–2004)
2004
Alignement en corpus comparables : corpus
✑ Thème : Signes et symptômes (MeSH C23)
✑ Français : corpus obtenu à travers le catalogue CISMeF
(16 Mmots, puis 54 Mmots)
✑ Anglais : corpus obtenu à travers le catalogue CliniWeb
(1 Mmots, puis 7 Mmots)
✑ Simple segmentation en mots
✑ Suppression des mots grammaticaux
2004
Lexique bilingue d’amorçage
✓ Collecte des correspondances entre unitermes (termes à
un mot) français-anglais dans le Metathesaurus UMLS
✓ Dictionnaire médical français avec traductions anglaises
✓ Lexique bilingue géneral (paquetages dictd)
Fournit un alignement (partiel) des mots de contexte
2004
Exemple : vecteur de contexte
✓ Vecteur de
contexte pour
adénose, restreint
aux mots du
lexique d’amorçage
Vecteur de contexte :
en français
adénome
score
(11.8)
converti en anglais
adenoma
cellule
(8.9)
cell
examen
(5.9)
test
hyperplasie
(14.2)
hyperplasia
✓ Taille de la fenêtre
de contexte : ±3
mots, ±2 mots
lésion
photographie (13.9)
photograph
✓ Score
d’association :
cooc, IM, loglike
prolifération
proliferation
nucléole
prostate
prostatique
(8.8)
(17.4)
(11.9)
lesion
nucleolus
(9.1)
prostate
(11.9)
prostatic
...
2004
Exemple : scores de similarité (Fr → En)
français anglais
✓ Mots du corpus
anglais qui ont les
vecteurs de contexte
les plus similaires au
vecteur de contexte
(converti) français
de foie
✓ Mesure de
similarité : Jaccard,
cosinus
similarité
foie
lung
.270294
foie
liver
.231073
foie
pain
.174125
foie
patient
.162746
foie
tumor
.137852
foie
disease
.136998
foie
primary
.119938
foie
treatment .119257
foie
brain
.109586
foie
cancer
.105038
foie
bone
.104870
foie
kidney
.104498
2004
Exemple : scores de similarité (En → Fr)
anglais français
✓ Mots du corpus
français qui ont les
vecteurs de contexte
les plus similaires au
vecteur de contexte
(converti) anglais de
liver
✓ (listes similaires
pour les autres mots
anglais)
similarité
liver
foie
.365169
liver
rare
.309686
liver
associée
.292330
liver
alzheimer
.284989
liver
transmissible
.269096
liver
fréquente
.263598
liver
pathologie
.257709
liver
cardiovasculaire
.250468
liver
cardio-vasculaire
.248039
liver
creutzfeldt-jakob .243688
liver
hépatique
.242475
liver
origine
.240563
2004
Combinaison des rangs
Moyenne harmonique des rangs initiaux pour les
correspondants de foie
candidats
rangF rEn
rangEnF r
MH
nouveau rang
lung
1
4
1.60
2
liver
2
1
1.33
1
pain
3
31
5.48
4
2004
Proportion de traductions correctes dans les
meilleurs rangs
✓ Mots
fréquents hors
lexique
(meilleure
situation)
2004
Discussion
Dans quel usage effectif ce type de performance est-il utile ?
✓ Lexicographie, terminologie ?
✓ Recherche d’information translangue ?
2004
✓
Les trois ordres de G. Grefenstette
✓
Premier ordre : mots thématiquement proches
✓
Second ordre : mots sémantiquement proches
✓
Second ordre : alignement en corpus comparables
✑
Conclusion
2004
Conclusion
Quel rôle pour les méthodes automatiques ?
2004
Conclusion
Quel rôle pour les méthodes automatiques ?
✓ Débroussaillage : faciliter l’examen de masses de textes
✓ Accès à l’évident vs accès aux pépites
✓ Accès au fréquent vs accès au rare
2004
Téléchargement