Exploitation de dimensions du traitement de corpus en découverte de connaissances linguistiques Pierre Zweigenbaum a STIM/DSI, Assistance Publique – Hôpitaux de Paris, France b ERM 202, INSERM, Paris, France c CRIM, INaLCO, Paris, France 2004 Plan ✓ Les trois ordres de G. Grefenstette ✓ Premier ordre : mots thématiquement proches ✓ Second ordre : mots sémantiquement proches ✓ Second ordre : alignement en corpus comparables ✓ Conclusion 2004 Détecter des régularités 2004 Détecter des régularités Freiburg, mars 2004 Göteborg, mai 2004 2004 Exploration de corpus : trois ordres d’affinité (Grefenstette, 1994) (Rapp, 2000+) ➊ Observation des cooccurrences entre mots : un mot apparaı̂t dans le contexte d’un autre mot relation syntagmatique : ➥ association 2004 Exploration de corpus : trois ordres d’affinité (Grefenstette, 1994) (Rapp, 2000+) ➊ Observation des cooccurrences entre mots : un mot apparaı̂t dans le contexte d’un autre mot relation syntagmatique : ➥ association ➋ Comparaison de deux distributions de cooccurrences : un mot apparaı̂t dans les mêmes contextes qu’un autre mot relation paradigmatique : ➥ substituabilité 2004 Exploration de corpus : trois ordres d’affinité (Grefenstette, 1994) (Rapp, 2000+) ➊ Observation des cooccurrences entre mots : un mot apparaı̂t dans le contexte d’un autre mot relation syntagmatique : ➥ association ➋ Comparaison de deux distributions de cooccurrences : un mot apparaı̂t dans les mêmes contextes qu’un autre mot relation paradigmatique : ➥ substituabilité ➂ Recherche d’une structure sur les distributions de cooccurrences : appartenance à un paradigme ➥ classification 2004 Exploration de corpus : unités de discours ✓ syntagme ✓ phrase ✓ paragraphe ✓ document ✓ fenêtre de N mots ✓ ... 2004 Acquisition de connaissances à partir de corpus ✓ Connaissances morphologiques familles de mots construits (Hathout et al.) 2004 Acquisition de connaissances à partir de corpus ✓ Connaissances morphologiques familles de mots construits (Hathout et al.) ✓ Connaissances syntaxiques probabilités de sous-catégorisation (Bourigault et al.) 2004 Acquisition de connaissances à partir de corpus ✓ Connaissances morphologiques familles de mots construits (Hathout et al.) ✓ Connaissances syntaxiques probabilités de sous-catégorisation (Bourigault et al.) ✓ Connaissances sémantiques couples N-V qualia (Fabre et al.) 2004 Acquisition de connaissances à partir de corpus ✓ Connaissances morphologiques familles de mots construits (Hathout et al.) ✓ Connaissances syntaxiques probabilités de sous-catégorisation (Bourigault et al.) ✓ Connaissances sémantiques couples N-V qualia (Fabre et al.) ✓ ... 2004 Quels traitements pour quelles connaissances ? Le jeu de la découverte : secouer son corpus pour faire émerger les relations linguistiques qui le sous-tendent 2004 Quels traitements pour quelles connaissances ? Le jeu de la découverte : secouer son corpus pour faire émerger les relations linguistiques qui le sous-tendent ✓ Type de connaissance ✓ Ordre ✓ Unité de discours ✓ ... 2004 Quels traitements pour quelles connaissances ? Le jeu de la découverte : secouer son corpus pour faire émerger les relations linguistiques qui le sous-tendent ✓ Type de connaissance ✓ Ordre ✓ Unité de discours ✓ ... ➠ Quelques exemples 2004 ✓ Les trois ordres de G. Grefenstette ✑ Premier ordre : mots thématiquement proches ✓ Second ordre : mots sémantiquement proches ✓ Second ordre : alignement en corpus comparables ✓ Conclusion 2004 Premier ordre : mots thématiquement proches ✓ Associations de mots ✓ Premier ordre : mots qui cooccurrent (plus souvent qu’au hasard) ✓ (distance courte) : collocations : expressions à plusieurs mots, sous-catégorisation infarctus du myocarde, indexé sur, résoudre un problème ✓ (distance plus grande) : relations thématiques hôpital, médecin, chirurgie, hospitalisation, chirurgien, chirurgical 2004 Proximité thématique Une (longue) phrase Le caractère multifactoriel de la maladie asthmatique (prédisposition génétique, facteurs d’environnement allergènes et polluants -, rôle des infections notamment virales) rend compte du polymorphisme de l’affection et explique le fait qu’aucune définition de l’asthme n’apparaı̂t pleinement satisfaisante dans la mesure où elle n’inclut pas tous les aspects d’une affection très polymorphe dans ses modes de déclenchement, son profil évolutif ou sa sévérité. 2004 Proximité thématique Une (longue) phrase Le caractère multifactoriel de la maladie asthmatique (prédisposition génétique, facteurs d’environnement allergènes et polluants -, rôle des infections notamment virales) rend compte du polymorphisme de l’affection et explique le fait qu’aucune définition de l’asthme n’apparaı̂t pleinement satisfaisante dans la mesure où elle n’inclut pas tous les aspects d’une affection très polymorphe dans ses modes de déclenchement, son profil évolutif ou sa sévérité. 2004 Proximité thématique Phrases plus courtes A côté des problèmes inhérents à l’identification de l’asthme, les conditions d’une prise en charge correcte du patient asthmatique tiennent à plusieurs facteurs :... De nos jour, l’asthme est une maladie relativement bien connue des asthmatiques, ce qui n’a pas été toujours le cas. Un asthmatique peut avoir un asthme d’origine allergique ET intrinsèque. 2004 Proximité thématique Phrases plus courtes A côté des problèmes inhérents à l’identification de l’asthme, les conditions d’une prise en charge correcte du patient asthmatique tiennent à plusieurs facteurs :... De nos jour, l’asthme est une maladie relativement bien connue des asthmatiques, ce qui n’a pas été toujours le cas. Un asthmatique peut avoir un asthme d’origine allergique ET intrinsèque. 2004 Proximité thématique D’une phrase à l’autre 5 à 10 % des patients atteints d’un asthme corticodépendant aux Etats-Unis (3) correspondraient à une ABPA ; 28 % des asthmatiques dont les tests cutanés sont positifs envers Aspergillus fumigatus, dans une autre étude américaine, présentent tous les critères d’une ABPA (3,11,28). 2004 Proximité thématique D’une phrase à l’autre 5 à 10 % des patients atteints d’un asthme corticodépendant aux Etats-Unis (3) correspondraient à une ABPA ; 28 % des asthmatiques dont les tests cutanés sont positifs envers Aspergillus fumigatus, dans une autre étude américaine, présentent tous les critères d’une ABPA (3,11,28). 2004 Proximité thématique D’une phrase à l’autre On sait que l’environnement joue un rôle significatif dans le développement de l’asthme chez les enfants. Une étude menée en Grande Bretagne (*) met en évidence qu’un enfant de moins de 2 ans exposé à la fumée de cigarette de sa maman présentera assez systématiquement des symptômes de type asthmatiques. 2004 Proximité thématique D’une phrase à l’autre On sait que l’environnement joue un rôle significatif dans le développement de l’asthme chez les enfants. Une étude menée en Grande Bretagne (*) met en évidence qu’un enfant de moins de 2 ans exposé à la fumée de cigarette de sa maman présentera assez systématiquement des symptômes de type asthmatiques. 2004 Proximité thématique D’une phrase à l’autre L’asthme affecte près de 15 millions d’américains dont 5 millions d’enfants. En milieu rural, 7% des enfants sont asthmatiques, le double le sont en ville. 2004 Proximité thématique D’une phrase à l’autre L’asthme affecte près de 15 millions d’américains dont 5 millions d’enfants. En milieu rural, 7% des enfants sont asthmatiques, le double le sont en ville. 2004 Proximité thématique D’une phrase à l’autre Notamment, elle irrite les muqueuses de la trachée et des poumons et favorise le déclenchement de crises d’asthme. Si vous êtes asthmatique, il est donc essentiel de vérifier la qualité de l’air dans votre région pour anticiper. 2004 Proximité thématique D’une phrase à l’autre Notamment, elle irrite les muqueuses de la trachée et des poumons et favorise le déclenchement de crises d’asthme. Si vous êtes asthmatique, il est donc essentiel de vérifier la qualité de l’air dans votre région pour anticiper. 2004 Proximité thématique Cinq phrases Certains climats et certaines zones géographiques peuvent être profitables aux asthmatiques du fait d’un air plus pur, d’un meilleur ensoleillement. Les séjours climatiques : Il y a en France de nombreux établissements : en montagne, en mer ou en plaine. La qualité de l’air y est meilleure et il y a une diminution du contact avec des substances allergisantes ou allergènes ( acariens, pollens ). Beaucoup de patients sont satisfaits des cures thermales, c’est un lieu de détente et d’oxygénation. Par exemple LA BOURBOULE (au niveau ORL et asthme) ;AVENE, LA ROCHE POSAY (peau). 2004 Proximité thématique Cinq phrases Certains climats et certaines zones géographiques peuvent être profitables aux asthmatiques du fait d’un air plus pur, d’un meilleur ensoleillement. Les séjours climatiques : Il y a en France de nombreux établissements : en montagne, en mer ou en plaine. La qualité de l’air y est meilleure et il y a une diminution du contact avec des substances allergisantes ou allergènes ( acariens, pollens ). Beaucoup de patients sont satisfaits des cures thermales, c’est un lieu de détente et d’oxygénation. Par exemple LA BOURBOULE (au niveau ORL et asthme) ;AVENE, LA ROCHE POSAY (peau). 2004 Premier ordre : mots morphologiquement reliés ✓ Objectif : repérer des familles morphologiques ✓ Mots de forme proche corpus mot A ✓ Qui sont reliés thématiquement ✓ Unité : fenêtres de mots sens Occurrences mot B forme Types (Zweigenbaum & Grabar, 2003) 2004 Corpus de travail ✔ Corpus construit à partir du web à travers le catalogue CISMeF des sites médicaux francophones http ://www.chu-rouen.fr/cismef/ ✔ Étiqueté et lemmatisé : TreeTagger (Schmid, NEMLAP 1994) + FLEMM (Namer, TAL 2000) fournit essentiellement des dérivations ➠ 4 627 documents ➠ 5 204 901 mots ➠ 2 041 627 mots non grammaticaux 2004 Unité : fenêtre graphique ✔ Suppression des mots “outils” ✔ Fenêtre glissante, de M mots à gauche et à droite du “mot pivot” Cooccurrences : ✔ Collecte les cooccurrents du mot pivot ✔ qui commencent par les mêmes N premières lettres (N = 4) {asthme, asthmatique} 2004 Sélection heuristique des dérivés ✑ Pas de dérivation régressive longueur dérivé ≥ longueur base − 1 articulation / articulaire, sacrum / sacré ✑ Éviter les composés (morphèmes longs) longueur dérivé ≤ longueur base + 5 bronche / bronchopneumonique ✑ Fréquence de la règle : le même opérateur morphologique (“règle”) est employé “souvent” Ex. : la substitution -e / -aire s’applique 72 fois dans les couples trouvés 2004 Exemples de dérivations repérées Sur 26 noms d’anatomie commençant par a trouvés dans la nomenclature SNOMED Internationale (376 examinés en tout) Nom abdomen amygdale aorte apophyse appendice articulation artériole aréole astrocyte axone Adjectif # cooc loglike ch.i.c.m. suf1 abdominal 101 584.21 abdom en amygdalien 8 100.24 amygdal e aortique 170 1314.74 aort e apophysaire++ 3 39.66 apophys e appendiculaire++ 19 225.24 appendic e articulaire 216 1406.34 articula tion artériolaire+ 15 99.99 artériol e aréolaire+ 2 27.55 aréol e astrocytaire 2 28.60 astrocyt e axonal+ 8 93.21 axon e + association non spécifiée par SNOMED ++ adjectif absent de SNOMED suf2 f inal 2 ien 24 ique 131 aire 72 ulaire 5 ire 13 aire 72 aire 72 aire 72 al 42 2004 Précision, rappel, ajouts % SNOMED Proportions de couples nom-adjectif Corpus = 150 seulement dans trouvés par ajoutés par erronés SNOMED le corpus le corpus 13 = 91 % 72 = 49 % 76 = 51 % rappel 61 = 41 % ajouté de précision SNOMED = 148 Ajouts : apophysaire, appendiculaire, cardial, cotyloı̈dien, cristallinien, diaphysaire, hippocampique, intimal, jambier, lysosomal, macrophagique, mastocytaire, myométrial, métatarsien, néphronique, olécrânien, paramétrial, plasmatique, rhinopharyngé, réticulocytaire, tympanique, éosinophilique 2004 ✓ Les trois ordres de G. Grefenstette ✓ Premier ordre : mots thématiquement proches ✑ Second ordre : mots sémantiquement proches ✓ Second ordre : alignement en corpus comparables ✓ Conclusion 2004 Mots sémantiquement proches : second ordre ✓ Sens proche ⇔ usage similaire ✓ Premier ordre : Représenter le sens d’un mot par l’ensemble de ses contextes d’usage ✓ Vecteur de contextes : vecteur des mots associés ✓ Second ordre : les mots qui possèdent des vecteurs de contextes similaires ont des sens proches (Habert, Nazarenko, Bouaud, Zweigenbaum, 1997–2000) 2004 Préparation des données Zellig (Habert et al., 1996) ✓ Corpus Menelas (84 kmots) ✓ Syntagmes nominaux obtenus par Lexter ou AlethIPGN ✓ Arbres élémentaires (dépendances) ✓ Contextes syntaxiques d’occurrence des N et Adj administration de médicament, administration de routine, administration orale 2004 Vecteurs de contexte Contextes de sténose : (score d’association = nb de cooccurrences) contexte score de artere 10 de allure 10 de branche 3 de carotide 3 de debut 3 diagonale 3 droite 4 ... 2004 Graphe de contextes partagés ✓ Deux mots sont liés par une arête si leur nombre de contextes communs est supérieur à un seuil donné ✓ Seuil = 10 2004 Exemple : première composante connexe (AlethIPGN) AKINESIE TERRITOIRE PAROI HYPOKINESIE SEGMENT NECROSE MYOCARDE DERIVATION TRONC INFARCTUS DIAGONALE SYMPTOMATOLOGIE ISCHEMIE ANGOR IVA RESEAU DOULEUR DYSPNEE BRANCHE INTERVENTRICULAIRE DROITE SOUFFLE AVAL ARTERE INSUFFISANCE PONT LESION MARGINAL PONTAGE PATHOLOGIE ATTEINTE RESTENOSE CORONAROGRAPHIE ANGIOPLASTIE STENOSE MALADIE EPREUVE BILAN TRES ASSEZ RETRECISSEMENT DILATATION PLAQUE ANOMALIE ATHEROME OCCLUSION PLAN EXPLORATION EXAMEN CONTROLE 2004 Exemple : clique (+) (Lexter) LATERAL akinesie ~ artere ~ courant ~ decalage ~ endocardique ~ epicardique ~ hypocinesie ~ hypokinesie ~ infarctus ~ ischemie ~ myocarde ~ necrose ~ paroi ~ pont ~ reseau ~ sous ~ territoire ~ topographie ~ ANTERIEUR akinesie ~ atteinte ~ dyskinesie ~ hypokinesie ~ idm ~ infarctus ~ lesion ~ necrose ~ sequelle ~ territoire ~ LIMITE akinesie ~ decalage ~ derivation ~ epicardique ~ hypokinesie ~ infarctus ~ ischemie ~ akinesie ~ myocarde ~ antero ~ necrose ~ courant ~ derivation ~ paroi ~ epicardique ~ postero ~ hypokinesie ~ segment ~ infarctus ~ infero ~ sous ~ ischemie ~ territoire ~ myocarde ~ necrose ~ topographie ~ paroi ~ postero ~ posteroinfero ~ segment ~ sous ~ territoire ~ akinesie ~ artere ~ epicardique ~ hypokinesie ~ infarctus ~ interventriculaire ~ ischemie ~ necrose ~ paroi ~ sous ~ territoire ~ akinesie ~ courant ~ dyskinesie ~ epicardique ~ hypokinesie ~ infarctus ~ ischemie ~ myocarde ~ necrose ~ paroi ~ sequelle ~ sous ~ territoire ~ POSTERIEUR akinesie ~ bord ~ decalage ~ dyskinesie ~ epicardique ~ hypokinesie ~ idm ~ infarctus ~ ischemie ~ myocarde ~ necrose ~ paroi ~ sequelle ~ sous ~ territoire ~ topographie ~ akinesie ~ ectasie ~ epicardique ~ hypokinesie ~ infarctus ~ infero ~ ischemie ~ necrose ~ paroi ~ segment ~ sous ~ territoire ~ INFERIEUR akinesie ~ derivation ~ dyskinesie ~ epicardique ~ hypofixation ~ hypokinesie ~ infarctus ~ ischemie ~ myocarde ~ necrose ~ paroi ~ postero ~ segment ~ sequelle ~ siege ~ sous ~ territoire ~ APICAL 2004 Exemple : clique ABSENCE DE ~ ANATOMIE DE ~ STENOSE AUTRE ~ ANGIOPLASTIE DE ~ DEUX ~ ANGIOPLASTIE SUR ~ LONG ~ AUTRE ~ PREMIER ~ CALIBRE DE ~ TROIS ~ DEUX ~ DILATATION DE ~ PAS DE ~ PREMIER ~ ~ A SEGMENT ~ CALCIFIE ~ CIRCONFLEXE ~ CORONARIEN ~ DIAGONAL ~ DISTALE ~ IRREGULIER ~ PROXIMAL ~ SIGNIFICATIF ARTERE ~ AVEC AVAL AUTRE ~ ~ CIRCONFLEXE DEUX ~ ~ DE ARTERE DEUXIEME ~ ~ DE DROITE OCCLUSION DE ~ ~ DE INTERVENTRICULAIRE PLAQUE AU_NIVEAU_DE ~ ~ DE IVA PREMIER ~ ~ DE MARGINAL STENOSE DE ~ ~ INFERIEUR STENOSE SUR ~ ~ IRREGULIER ~ CIRCONFLEXE ~ MOYEN ~ COMMUN ~ PROXIMAL ~ IRREGULIER ~ LATERAL ~ NORMAL ~ POSTERIEUR SEGMENT ~ PROXIMAL ~ STENOSE 2004 Exemple : projection de classes connues Axes sémantiques de la nomenclature SNOMED T = anatomie, G = qualificatifs et termes relationnels, M = lésions, F = dysfonctions, D = diagnostics. . . T/VALVULAIRE G/INFERIEUR /POSTERO−INFERIEUR T/PULMONAIRE G/POSTERIEUR G/GAUCHE G/LATERAL /ARTERIEL T/CIRCONFLEXE G/DROIT /APICAL G/ANTERO−LATERAL G/ANTERO−APICAL G/ANTERIEUR M/DIFFUS T/AORTIQUE T/CORONARIEN /RECENT T/CORONAIRE G/ANCIEN T/VENTRICULAIRE T/MYOCARDIQUE G/ACTUEL G/SEVERE T/CARDIAQUE G/NORMAL M/CALCIFIE T/MITRAL /DISTALE G/PROXIMAL G/MOYEN G/MINIME G/IMPORTANT G/SIGNIFICATIF 2004 Exemple : prédiction de la classe d’un mot RECIDIVE DE ~ SIGNE DE ~ EPISODE DE ~ R E C I D I V E D E ~I N F A R C T U S / M / 2 . 0 RECIDIVE DE ~ ANGOR/D/2.00 ~ CARDIAQUE 0 DOULEUR/F/2.00 ARRET/A/2.00 CAVITE/T/2.00 IMPREGNATION/P/2.00 ~ CARDIAQUE ISCHEMIE/F/2.00 CHIRURGIE/P/3.00 ~ PULMONAIRE ECHOGRAPHIE/P/3.00 RECIDIVE DE ~ INTERVENTION/P/2.00 EPISODE DE ~ N E C R O S E / F / 3 . 0 0 SIGNE DE ~ ~ PULMONAIRE E M B O L I E / M / 2 . 0 0 STIMULATEUR/A/3.00 EPISODE DE ~ SILHOUETTE/G/3.00 SIGNE DE ~ ~ CARDIAQUE P A L P I T A T I O N / F / 2 . 0 0 S U R C H A R G E / F / 3 . 0 0 ~ PULMONAIRE SIGNE DE ~ S T A S E / F / 3 . 0 0 ~ PULMONAIRE ENZYME/F/2.00 RADIO/P/1.00 ETAT/F/3.00 LESION/M/1.00 ~ CARDIAQUE SIGNE DE ~ SIGNE DE ~ ARTERE/T/1.00 ~ REANIMATION/P/1.00 ~ CARDIAQUE PULMONAIRE RECIDIVE ~ HYPERTENSION/D/1.00 ~ ~ TRANSPLANTATION/P/1.00 ~ RECIDIVE ARYTHMIE/F/1.00 ~ DE CARDIAQUE ~ CARDIAQUE ~ ~ ~ FREQUENCE/F/4.00 CARDIAQUE CARDIAQUE C A R D I A QD U EE ~ T/4.00 CATHETERISME/P/4.00 CARDIAQUE ~ PULMONAIRE INDEX/F CARDIAQUE ~ CARDIAQUE ~ CARDIAQUE ~ CARDIAQUE PULMONAIRE INSUFFISANCE/F/6.00 DECOMPENSATION/F/ F51.00/P26.00/T11.00/M8.00/D8.00/G8.00/A5.00/L1.00 ~ PULMONAIRE PRESSION/F/1.00 SIGNE DE ~ ~ CARDIAQUE ~ CARDIAQUE ~ PULMONAIRE BIT/F/5.00 AUSCULTATION/P/5.00 CARDIAQUE DE ~ DE SIGNE ~ DE SIGNE EPISODE ~ DE EPISODE ~ REPRISE/G/1.00 SIGNE SIGNE SIGNE DYSFONCTION/F/1.00 SIGNE DE ~ ~ CARDIAQUE ~ ~ DE ~ ~ ~ CARDIAQUE ~ ~ PULMONAIRE RECIDIVE SPASME/M/1.00 DE EPISODE ~ ~ DE ~ ~ ~ MUSCLE/T/1.00 ~ PHLEBITE/D/1.00 ~ RUPTURE/M/1.00 ~ PULMONAIRE OPPRESSION/F/1.00 CARDIAQUE PULMONAIRE PULMONAIRE RADIOGRAPHIE/P/1.00 PULMONAIRE PULMONAIRE MALADIE/F/1.00 PULMONAIRE EPISODE DE ~ ~ PULMONAIRE ~ CARDIAQUE ~ CARDIAQUE ~ PULMONAIRE ~ PULMONAIRE ~ CARDIAQUE ~ CARDIAQUE ~ PULMONAIRE ~ PULMONAIRE ~ PULMONAIRE ~ P U L M O~N APIURLEM O N A I R E ~ PULMONAIRE GENES/F/1.00 DE DE DE OEDEME/D/1.00 AIGU/G/1.00 ANGIOGRAPHIE/P/1.00 BASE/G/1.00 ANGINE/D/1.00 RALE/F/1.00 DYSPNEE/D/1.00 CAPILLAIRE/T/1.00 EFFORT/F/1.00 RESISTANCE/F/1.00 RYTHME/F/1.00 PRE−TRANSPLANTATION/P/1.00 COEUR/T/1.00 PARENCHYME/T/1.00 BRUIT/F/1.00 SOUFFLE/F/1.00 PLAGE/G/1.00 SCINTIGRAPHIE/P/1.00 SOMMET/G/1.00 T U B E R C U L OSSUER/IDN/F1E.C0T0I O N / L / 1 . 0 0 VASCULARISATION/M/1.00 2004 Discussion ✓ Importance de l’interprétation humaine des graphes obtenus ✓ Outil d’accès à certaines relations dans un corpus ✓ Importance de la préparation des données ➢ connaissances linguistiques initiales sténose d’allure, sténose du début (Hirschman, 1975) ➢ Gestion de la polysémie au genou de l’artère interventriculaire antérieure ✓ Surtout sur un petit corpus ? 2004 ✓ Les trois ordres de G. Grefenstette ✓ Premier ordre : mots thématiquement proches ✓ Second ordre : mots sémantiquement proches ✑ Second ordre : alignement en corpus comparables ✓ Conclusion 2004 Alignement en corpus comparables : second ordre ✓ Second ordre : les mots d’usage similaire partagent leurs mots associés ✓ Représenter le sens des mots par des vecteurs de contextes (premier ordre) ✓ Les mots qui possèdent des vecteurs de contextes similaires (second ordre) ont des sens proches 2004 Alignement en corpus comparables : traduction ✓ Objectif : trouver des équivalents traductionnels pour un mot corpus comparable ✓ Unité : fenêtres de mots dans deux corpus monolingues comparables ✓ Connaissances : lexique bilingue (partiel) F E Occurrences sens mot A mot B forme Types (Thèse de Yun-Chuang Chiao, juin 2004) (Chiao & Zweigenbaum, 2002–2004) 2004 Alignement en corpus comparables : corpus ✑ Thème : Signes et symptômes (MeSH C23) ✑ Français : corpus obtenu à travers le catalogue CISMeF (16 Mmots, puis 54 Mmots) ✑ Anglais : corpus obtenu à travers le catalogue CliniWeb (1 Mmots, puis 7 Mmots) ✑ Simple segmentation en mots ✑ Suppression des mots grammaticaux 2004 Lexique bilingue d’amorçage ✓ Collecte des correspondances entre unitermes (termes à un mot) français-anglais dans le Metathesaurus UMLS ✓ Dictionnaire médical français avec traductions anglaises ✓ Lexique bilingue géneral (paquetages dictd) Fournit un alignement (partiel) des mots de contexte 2004 Exemple : vecteur de contexte ✓ Vecteur de contexte pour adénose, restreint aux mots du lexique d’amorçage Vecteur de contexte : en français adénome score (11.8) converti en anglais adenoma cellule (8.9) cell examen (5.9) test hyperplasie (14.2) hyperplasia ✓ Taille de la fenêtre de contexte : ±3 mots, ±2 mots lésion photographie (13.9) photograph ✓ Score d’association : cooc, IM, loglike prolifération proliferation nucléole prostate prostatique (8.8) (17.4) (11.9) lesion nucleolus (9.1) prostate (11.9) prostatic ... 2004 Exemple : scores de similarité (Fr → En) français anglais ✓ Mots du corpus anglais qui ont les vecteurs de contexte les plus similaires au vecteur de contexte (converti) français de foie ✓ Mesure de similarité : Jaccard, cosinus similarité foie lung .270294 foie liver .231073 foie pain .174125 foie patient .162746 foie tumor .137852 foie disease .136998 foie primary .119938 foie treatment .119257 foie brain .109586 foie cancer .105038 foie bone .104870 foie kidney .104498 2004 Exemple : scores de similarité (En → Fr) anglais français ✓ Mots du corpus français qui ont les vecteurs de contexte les plus similaires au vecteur de contexte (converti) anglais de liver ✓ (listes similaires pour les autres mots anglais) similarité liver foie .365169 liver rare .309686 liver associée .292330 liver alzheimer .284989 liver transmissible .269096 liver fréquente .263598 liver pathologie .257709 liver cardiovasculaire .250468 liver cardio-vasculaire .248039 liver creutzfeldt-jakob .243688 liver hépatique .242475 liver origine .240563 2004 Combinaison des rangs Moyenne harmonique des rangs initiaux pour les correspondants de foie candidats rangF rEn rangEnF r MH nouveau rang lung 1 4 1.60 2 liver 2 1 1.33 1 pain 3 31 5.48 4 2004 Proportion de traductions correctes dans les meilleurs rangs ✓ Mots fréquents hors lexique (meilleure situation) 2004 Discussion Dans quel usage effectif ce type de performance est-il utile ? ✓ Lexicographie, terminologie ? ✓ Recherche d’information translangue ? 2004 ✓ Les trois ordres de G. Grefenstette ✓ Premier ordre : mots thématiquement proches ✓ Second ordre : mots sémantiquement proches ✓ Second ordre : alignement en corpus comparables ✑ Conclusion 2004 Conclusion Quel rôle pour les méthodes automatiques ? 2004 Conclusion Quel rôle pour les méthodes automatiques ? ✓ Débroussaillage : faciliter l’examen de masses de textes ✓ Accès à l’évident vs accès aux pépites ✓ Accès au fréquent vs accès au rare 2004