Modèle de régression logistique I. Présentation de notre modèle

Mole de régression logistique
I. Présentation de notre modèle
Dans un modèle de régression linéaire multiple on a :




Avec :
Zt : variable quantitative
Xt : variables quantitatives pour tout t {1,…,100}
t : iid et qui suit N(0,2)
Dans un modèle de régression logistique on cherche à évaluer la probabilité que (Yt) prenne
comme valeur chacune de ses modalités.
Nos variables quantitatives Xt seront représentées par quatre différentes caractéristiques
psychologiques :
Xt
(1) représentera le fait qu’un individu ait un bon sommeil
Xt
(2) représentera le fait qu’un individu présente une bonne attention, une bonne
concentration
Xt
(3) représentera le fait qu’un individu ait une bonne motivation pour son travail
Xt
(4) représentera le fait qu’un individu ne présentera pas de troubles affectifs.
Nous allons donc faire une régression logistique afin de connaître la probabilité qu’un individu
présentant une ou plusieurs de ces quatre caractéristiques psychologiques ait :
Une bonne vision binoculaire
Une déviation de ses axes visuels
Pour cela nous allons utiliser la variable qualitative Yt




En second lieu, nous referons une régression logistique pour connaître la probabilité qu’un individu
présentant une déviation de ses axes visuels ait :
Ses axes visuels en sur-convergence
Ses axes visuels en sur-divergence
Pour réaliser ces deux régressions logistiques, nous avons cherché différentes données en rapport
aux nombres d’individus présentant les caractéristiques présentées ci-dessus. N’ayant pas eu de
réponse satisfaisante, nous avons recueilli des renseignements auprès de notre tutrice du TER, Mme
Hélène Van Setters-Husson. Ce sont des indications qu’elle a observées parmi ses patients, la
méthodologie aura donc une portée scientifique, en revanche les données d’apprentissage seront
simulées, et donc nécessairement arbitraire.
Voici les données que nous avons recueillies :
Environ 75% de la population présente une déviation des axes visuels ;
Parmi ces 75 % :
o Globalement 70% présente une sur-convergence ;
o A peu près 30% présente une sur-divergence ;
Quasiment 75 % de la population a un sommeil correct ;
Environ 60% de la population dispose d’une bonne attention et d’une bonne concentration ;
Approximativement 31 % de la population montre une réelle motivation au travail ;
Globalement 80 % de la population ne présente aucun trouble affectif.
II. Spécification du modèle
Revenons à notre régression logistique. La variable Y est une variable aléatoire parente qui suit une
loi de Bernoulli de paramètre p, et donc Yt est aussi une variable aléatoire qui suit une loi de Bernoulli
de paramètre p, avec . Afin que Y ne prenne que 2 valeurs, nous allons
utiliser la fonction logistique logit.



 

= 


Voyons maintenant les probabilités théoriques associées à Y pour le modèle de régression logistique
de fonction de lien logit :
   =

   =  

III. Estimation du modèle
Nous allons maintenant chercher à estimer nos. Nous remarquons qu’il y a une non
linéarité en donc faire une estimation par la méthode des moments ne
provoquerait pas d’expression explicite. Il faut donc que nous utilisions l’estimateur du maximum de
vraisemblance.
Voici la méthode théorique qui nous permettra de trouver les estimations des
Soit :

 
 
 ||
 =
















Posons le vecteur des dérivées partielles premières de la vraisemblance afin de trouver l’estimation
de
:

  
Nous ferons ces estimations de nos à l’aide du logiciel R-Project.
IV. Construction du modèle
Afin de construire notre modèle de régression logistique, nous avons créer un échantillon d’une
population de 1000 individus. Notre population suit les critères que nous avons recueillis, c'est-à-dire
qu’environ 75% des individus de notre échantillon ont un sommeil correct, 60% des individus ont une
bonne attention, 31% d’entre eux ont une bonne motivation pour leur travail et 80% ne rencontrent
pas de troubles affectifs. Chacune de nos quatre covariables suivent donc une loi que nous avons
créée à la main, mais qui respecte le critère de la densité de probabilité (c'est-à-dire que l’air sous la
courbe est égale à un 1).
Voici les différentes représentations de nos covariables :
Avec ces quatre lois, nous avons ensuite créé un modèle afin qu’environ 75% de nos individus
présentent une déviation de leurs axes visuels. Pour cela nous avons créé la variable Y.


Pour connaître la probabilité qu’un individu i ait une déviation de ses axes visuels, nous avons cette
condition :

 ou 
 ou

 ou 

 
Afin d’arriver à avoir un jeu de données avec environ 75% de notre population qui ait une déviation
des axes visuels, nous avons ajuster notre .
Grâce à ceci, nous avons pu faire une estimation des Voici les estimations :





C’est estimations des nous servirons plus tard pour faire des prédictions.
Nous avons fait ensuite un second échantillon, nous avons récupéré l’ensemble des individus ayant
une déviation des axes visuels de notre premier échantillon. Nous nous retrouvons maintenant avec
un échantillon de 750 individus.
Nous avons donc pris ici, les variables répondant au critère Y = « O » de notre premier modèle pour
ce second modèle. Le critère qu’une personne possède une sur-convergence au niveau de ses axes
visuel est qu’elle ait des troubles du sommeil et des troubles affectifs, inversement le critère qu’une
personne ait une sur-divergence de ses axes visuel, est qu’elle ait des troubles au niveau de son
attention et de sa motivation au travail. Pour connaître la probabilité qu’un individu j de notre
second échantillon ait un problème de sur-divergence nous avons donc émis cette condition :

 et 



 et 


Comme nous savons que 75% des personnes ayant une déviation des axes visuels possède une sur-
convergence, nous avons adapté notre  0,5 et notre  Nous avons donc maintenant un
échantillon de 750 personnes ayant un trouble visuel avec 562 personnes qui ont une sur-
convergence et 188 ayant une sur-divergence.
Grâce à ceci, nous avons pu faire une estimation des Voici les estimations :
 
 
 
 
 
C’est estimations des nous servirons plus tard pour faire des prédictions.
1 / 7 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !