Resume
Ce document est un rapport de stage dans le cadre d’un master 2 informatique à
l’Université de la Réunion située à St-Denis. Ce travail d’étude et de recherche
concerne un projet informatique et se fait sur une durée de 6 mois. Le projet
informatique effectué est encadré par deux experts en analyse de données et en
recherche : Cynthia PITOU et Jean DIATTA, ce projet concerne la mise en place
d’outils d’extraction d’informations à partir de documents numérisés et d’études
de méthodes de classifications sur ces informations. Ainsi dans une génération où
l’information numérisées joue un rôle primordial et où son volume ne cesse de
croitre, tirer le maximum de bénéfice de ces données par le biais de techniques,
d’outil et de technologies serait un atout considérable. Ce rapport mets donc en
avant plusieurs dispositifs permettant de générer des documents numérisés, d’or-
ganiser, de stocker, d’extraire et d’analyser des masses d’informations de ces do-
cuments numérisés afin de localiser celles qui seraient pertinentes relativement à
un besoin en information d’un utilisateur sans avoir eu au préalable des indications
sur son emplacement.
Mots clés : Data Mining , JAVA , classification supervisée, classification non
supervisée, méthodes d’évalutations, R, SQL.
Abstract
This paper is an internship report in connection with a last-year master’s degree
in computer sciences at the University of Reunion Island located in Saint-Denis.
This work of study and research involves a computer project and was done over
a period of six months. The IT project done was provided by two data mining
and research experts : Cynthia Pitou and Jean DIATTA, this project talk about
the implementation of data extract tool from scanned document and the study
of classifications methods on it. In this way, within a generation where scanned
data plays an crucial role and has a volume which are becoming more and more
important, obtaining the maximum of benefits of this data through methods, tools,
technologies will be a considerable asset. This report is therefore highlighting
devices allowing to generate scanned documents, organize, record, extract and
analyze wealth of information in order to locate those relevant in the context in an
informations needs to a user without any indications about the location.
Key-words : DataMining, java, clusterings, evaluation methods, r, sql.
2