Résumé
Résumé :
Plusieurs cheminements pourraient être impliqués dans le développement de la catégorisation,
différents type de données utilisé pour faire la catégorisation. Le problème majeur de la
catégorisation est la présence des données manquantes, tel que ceci se produit pour de
nombreuses raisons : erreurs de saisie, rubriques non renseignées dans des enquêtes, valeurs
aberrantes qu’on préfère supprimer, données recueillies difficilement, ainsi que les internautes
ne décrivent pas toutes leurs propres informations pour inscrire dans un réseau social, et ça
devenu un inconvénient pour faire une bonne catégorisation. Donc il faut estimer les valeurs
manquante et les remplacer, pour cela il ya différentes méthodes de traitements des donnés
manquante.
Dans le cadre de ce projet, j’ai présenté une application de catégorisation des identités
sociaux à partir d’une base de données qui contient des informations de certain utilisateur de
réseau sociale Facebook. Pour commencer, on a déjà fait la classification avec des méthodes
non symbolique proposer par l’outil « Weka » avant d’essayé d’imputer les données
manquantes, les résultats obtenue ne sont pas bien catégoriser tel que ils restent un nombre
d’instances non regrouper. Donc il faut essayer après imputation, pour cela on a utilisé deux
méthodes, la première avec la méthode de « Plus Proche Voisin : KNN », et la deuxième est :
l’imputation par la moyenne. La seconde donne une bonne estimation et elle a nous aidé à
faire une bonne catégorisation.
Ensuit la création d’une application JAVA avec une interface graphique facile a gérer pour
faire la catégorisation selon certain attribut, pour cela il faut passer par la réalisation des base
de connaissance à l’aides de la création des règles de production XML.
Mots clé :
Réseaux sociaux, Catégorisation, Données Manquante, Weka, JRuleengine, XMLRule
Abstract:
Several pathways may be involved in the development of categorization, different types of
data used for categorization. The major problem of categorization is the presence of missing
data, as this occurs for many reasons: input errors, items not indicated in surveys, it is
preferred to remove outliers. And users do not disclose all information to their own part of a
social network, and it becomes a disadvantage to make a good categorization. So we must
estimate the missing value and replace it, why there are different methods of treatment
missing data. In this project, I submitted an application for categorization of social identities
from a data set which contains information of some social network “Facebook” user.
To start has already been made with the classification of non-symbolic methods found in the
"Weka" tool before trying to impute missing data; the results obtained are not very good as
they remain a number of instances not group. So try after charging for it we used two
methods, the first with the method of "K-Nearest Neighbor: KNN," and the second is the
mean imputation. The second gives a good estimate and has helped us make a good
categorization.