Le Machine Learning: fondements et applications — 2/3
Décomposition de matrice et modèle de réduc-
tion de dimension (matrix factorization and di-
mensionality reduction model en anglais)
Ces techniques sont généralement utilisés par les
sites de commerce (pour proposer aux clients les pro-
duits susceptibles de les intéresser) et par les réseaux
sociaux (pour proposer aux utilisateurs de nouvelles rela-
tions). Dans le cas des systèmes de recommandation, on
dispose de données sous la forme utilisateur
×
produit,
avec potentiellement des millions d’utilisateurs et des
centaines de milliers de produits. L’objet de ces tech-
niques est de construire des matrices de factorisation et
de mettre en place des modèles de facteurs latents pour
la tâche de prédire de nouvelles relations utilisateur
×
produit.
Modèles utilisés :
Filtrage collaboratif(collaborative fil-
tering) , décomposition de matrice (matrix factorization),
analyse en composantes principales (ACP), etc.
Algorithmes utilisés :
Coordinate descent, décomposi-
tion en valeurs propres (Eigen decomposition), K-SVD,
etc.
Deep Learning
Vous avez probablement entendu dire que le deep
learning fait parler de lui à travers le monde comme
l’une des techniques de machine learning les plus pro-
metteuses. Beaucoup d’industries déploient maintenant
leurs ressources afin de s’approprier du potentiel de cette
technique, notamment pour la reconnaissance d’images,
d’objets, la reconnaissance vocale, et de l’analyse tex-
tuelle. Cette technique innovante utilise les réseaux de
neurones pour fournir des caractéristiques descriptives
qui apportent d’impressionnantes performances à la clas-
sification et à la recherche d’objets. Elle requiert par
contre un grand jeu de données pour avoir une meilleure
précision. Une nouvelle approche "deep features" basée
sur cette technique permet d’utiliser la technique du deep
learning si l’on n’a pas beaucoup de données.
Modèles utilisés : réseaux de neurones, etc.
Quelques exemples d’application
Analyse des sentiments
Vous vous levez un beau jour et vous voulez aller
manger des sushi dans un restaurant japonais. Vous vous
dites d’un coup : "Tiens, qu’est ce que les clients disent
sur les plats, sur l’ambiance ?". Vous regarderez sûre-
ment la notation globale de ces caractéristiques. Cette
dernière est calculée en découpant d’abord les commen-
taires des clients en phrases, à regrouper les mots selon
qu’ils soient positives ou non et en utilisant un classifieur
linéaire pour attribuer des scores à chaque mot. La nota-
tion globale de ce restaurant sera la différence entre les
scores positives et négatives, pondérés par les nombres
de mots. A l’image de notre exemple, on suppose que
seules deux appréciations sont données par les clients :
affreux (awful) et génial (awsome).
Recherche documentaire
Vous êtes en train de lire un article intéressant sur
le sport et vous voulez trouver un article similaire à
ce dernier. La similarité entre deux articles peut être
mesurée de plusieurs façons :
—
en alignant les deux vecteurs contenant le nombre
d’occurrences des mots présents dans chaque ar-
ticle et de faire la somme des produits des élé-
ments des éléments de ce vecteur. Il faudra cepen-
dant normaliser les vecteurs avant pour se départir
de l’effet taille des articles.
—
soit en priorisant juste les mots importants (mots
très fréquents ou mots rares : arbitrage à faire).
La représentation utilisée pour cette approche est
appelée "TF-IDF (Term frequency – inverse docu-
ment frequency) representation".