
Projet SYBILIUM 
 
  5/8 
 
 
- Pas d'historique (unigramme) : 
 
 p : 2 occurrences sur 10 lettres = 1/5 
     e : 3 occurrences sur 10 lettres = 3/10 
     x : 1 occurrence sur 10 lettres = 1/10 
 
... La somme des probabilités étant nécessairement égale à 1.0. 
 
- Historique de taille 1 (on considère la lettre et un successeur) : 
 
  p-a : 1 occurrence sur 9 couples = 1/9 ; 
  p-l : 1 occurrence sur 9 couples = 1/9 ; 
  p-e : 0 occurrence sur 9 couples = 0 ; 
 
... La somme des probabilités étant toujours nécessairement égale à 1.0. 
 
Nous obtenons des probabilités conditionnelles nous permettant de connaître, 
à partir d'une sous-séquence, la probabilité de la sous-séquence suivante. Dans notre 
exemple, P(a | p) = 1 / 9 est la probabilité d'apparition de l'élément a sachant que 
l'élément p est apparu. 
À  titre  d'exemple,  le  bi-gramme  le  plus  fréquent  de  la  langue  française  est 
« de », comme dans l'article « de », mais aussi comme dans les mots  « demain », 
« monde » ou « moderne ». 
 
Ici, nous utiliserons le modèle de prédiction N-Gram Pour des mots et non pas 
pour des lettres. Ainsi, nous allons prédire un mot à partir des n-1 mots précédents. 
Théoriquement, c’est la probabilité contextuelle d’apparition d’un mot en fonction des 
n-1 précédents. 
 
Par  exemple,  dans  le cas  d’une  prédiction  Tri-Gram  (3  mots),  si  l’utilisateur 
tape « le poisson », Sybilium va proposer « rouge ». 
 
Dans le cas d’une prédiction N-Gram, Sybilium va proposer à l’utilisateur un 
mot a partir des n-1 mots précédents. Pour cela le moteur se servira de ce qu’il  aura 
appris des habitudes de l’utilisateur.