Thomas André Manuel Brisville | Data Mining
3.3 Exploration des données
Le langage R permet d’explorer les données du Dataset, de façon individuelle ou
multidimensionnelle.
On peut, par exemple connaitre la distribution des types de vin dans l’ensemble de données et
recourir à une représentation graphique de ces résultats.
La fonction hist() permet d’avoir une
représentation graphique de la distribution d’un
attribut dans l’intervalle de ses valeurs.
Il existe de nombreuses façons de représenter les données, en voici quelques exemples.
Le Boxplot est une représentation graphique de données statistiques. Il s'agit de tracer un rectangle
allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute alors des
segments aux extrémités menant jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième
déciles.
Quartile : En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données
triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population.
le 1er quartile sépare les 25 % inférieurs des données ;
le 2e quartile est la médiane de la série ;
le 3e quartile sépare les 25 % supérieurs des données.
Décile : En statistique descriptive, un décile est chacune des 9 valeurs qui divisent un jeu de données,
triées selon une relation d'ordre, en 10 parts égales, de sorte que chaque partie représente 1/10 de
l'échantillon de population.
le seuil du 1er décile sépare le jeu de données entre les 10 % inférieurs et le reste des
données ;
le seuil du 9e décile sépare les 90 % inférieurs des données des 10 % supérieurs.