2.1. Caractéristiques de l`information disponible sur - Accueil

publicité
Webmaster
-1-
I. INTRODUCTION
La révolution mise en mouvement par les nouvelles technologies de l’information et
de la communication (NTIC) est au cœur du changement profond que connaissent les sociétés
dans tous les pays du monde ou il s’agit d’engager, sans tarder, des actions d’envergure pour
leur entrée dans l’ère de l’information et de la modernité.
Au cours de ces vingt dernières années, le monde a produit plus d’informations qu’au
cours de plusieurs siècles passés et il y a tout lieu de penser que ce processus va s’accélérer.
la société post-industrielle recèle ainsi d’immenses potentialités ouvrant la voie à des
transformations radicales programmées ou facilement prévisibles.
Le moteur de ces changements et leurs rapidités résident, à la fois, dans las applications des
sciences et des technologies, et dans les mutations sociales qui les accompagnent.
Les acquis des nouvelles technologies de l’information et de la communication ont été utilisés,
dans une première étape, dans le domaine de l’économie et celui des services. Mais les
progrès les plus importants seront réalisés à travers les technologies révolutionnaire dites
« diffusantes » comme les nouveaux matériaux, la microélectronique, la robotique, la micro
mécanique, les biotechnologies, etc.
Les nouvelles technologies interviennent désormais partout ou il sera question de
transformation de la connaissance. elle permettent en effet la mise en commun des
compétences pour parvenir à la résolution des problèmes posées par l’évolution du monde
moderne.
Au cour des dernières années, la littérature économique a mis plus précisément l’accent sur
l’impact de la diffusion des TIC sur la croissance économique. deux types de mécanismes,
pour le moins , sont alors mis en évidence. D’une part , réduisant le coût d’accès à
l’information et en améliorant la coordination des acteurs au sein de ces réseaux numériques,
l’usage des TIC contribue à dégager des gains d’efficacité d et de productivité (économies ,
d’échelles,..). d’autres part, la convergence des industries des télécommunications , de
l’informatique , de l’électronique et de l’audiovisuel a suscité l’émergence de nouvelles
activités à rendements croissants et à plus forte valeur ajoutée.
D’autres travaux se sont intéressés aux implications de la diffusion des TIC sur l’emploi et
l’organisation du travail. D’abord , d’un point de vue quantitatif , la contribution nette des
TIC en matière de création d’emplois ( soit à travers la création de nouveaux métiers , soit à
travers la transformation des métiers) se révèle positive. D’un point de vue qualitatif , en
raison du relâchement de la contrainte spatiale et temporelle induit par les TIC , l’organisation
du travail au sein des entreprises (voir des administrations ) tend à se fonder sur les principes
de la flexibilité , la décentralisation et l’autonomie.
Toutes les fonctions de l’entreprise sont concernées par l’introduction des NTIC :
 Les fonctions liées au management : finances, GRH, stratégies, communication,
etc.
 Les fonctions techniques : toutes les opérations liées au travail technique sur les
réseaux , intra net, Internet, l’informatique, etc.
 Les fonctions liées à la production : les logiciels de gestion des stocks, gestion des
approvisionnements, gestion de la qualité, etc.
 Les fonctions commerciales : suivi de la clientèle, les call-centers , les
webmasters, etc..
 La fonction recherche développement : le veille technologique, les innovations, la
consultation des banques de données. Etc.
Exposé MCSI
2003-2004
1
Webmaster
-2-
II. LE World Wide Web :(WWW)
1. Définition
Le World Wide Web est né en 1989 au laboratoire physique des hautes énergies du
CERN (Centre Européen de Recherche Nucléaire) à l’initiative de Tim Bernerrs-lee…. Le
projet visait à donner au CERN un moyen de mettre en commun les recherches et les idées
avec des employés ou d’autres chercheurs dispersée dans le monde. Au début on parlait du
Web comme d’un « projet hypertexte ». Le terme hypertexte a été créé par Ted Nelson dans
les années soixante. Il désigne un texte qui contient des liens avec d’autres documents de telle
sorte que lorsque le lecteur clique sur un mot ou une phrase, il obtient de l’information
supplémentaire sur le sujet. Sur le Web on parle également de l’hypermédia. Il s’agit alors de
documents contenant des composantes multimédia. Notamment des sons et des images vidéo.
Sur le plan purement technique, le World Wide Web désigne l’interface utilisateur et
l’Internet, le réseau, c’est-à-dire le matériel constitué de câbles et d’ordinateurs. Tout ce
système repose sur l’utilisation des protocoles, séries de langages et de règles par les quels les
ordinateurs communiquent entre eux. Ainsi, le TCP/IP (pour transmission control protocol
and Internet protocol) consiste en un ensemble de protocoles de réseau permettant à différents
types d’ordinateurs de communiquer entre eux. C’est ce protocole qu’exploite internet. Le
World Wide Web n’est pas simplement un type de protocole. Il rassemble plusieurs
protocoles, notamment le protocole de transfert de fichiers FTP (pour File Transfert Protocol),
tel net, WAIS (Wide Area Information Servers, ou serveurs de données à couverture nationale)
et bien d’autres encore.
Comme le web fait appel aux protocoles normalisés d’Internet pour le transfert de fichiers et
de documents, on assimile souvent le web à l’Internet pour parler à la fois du réseau collectif
d’ordinateurs et de la masse d’information qu’il renferme.
Web n’est pas synonyme d’Internet
Beaucoup confondent ces deux termes, qu sont apparentés sans être synonyme, Internet,
issu du réseau de la défense américaine ARPANet, a vu le jour dans les années 1960. Il
s’agissait, à l’époque, de construire un réseau qui continuerait de fonctionner dans
l’éventualité où certains de ses composants seraient défaillants. Il repose sur une
infrastructure de réseau bâtie selon certaines normes, les standards Internet, qu’utilisent tous
ses membres pour se connecter entre eux. Les spécifications du protocole internent (IP) ne
précisent pas quels types d’informations, de services ou de produits doivent être échangés. IP
définit la façon dont le flux des informations est organise.
Ces spécifications résidant sur une couche située au-dessus de la couche internet. Et l’un de
ces protocoles d’échange d’informations est le World Wide Web assorti de ses protocoles de
transfert hypertexte (http). Outre le World Wide Web il existe d’autres protocoles qui
permettent aux utilisateurs de communiquer par messagerie électronique (POP3, SMTP,
IMAP), de discuter en ligne (IRC) ou de participer a des groupes de discussions (NNTP). Le
Web permet l’échange de documents via HTTP, essentiellement au format HTML qui assure
un affichage correct par les logiciels de navigation.
Le World Wide Web n’est que l’un des nombreux services existant sur Internet, et ne spécifie
pas ci une certaine page web est disponible sur intra net, extra net ou internet. Il fournit une
interface facile à utiliser et permet à des personnes connaissant peu l’informatique d’
accéder aux services Web sur tout le réseau Internet. Ces services Web concernent des
informations (contenu, en jargon Internet), des produits ou des services, qui peuvent être
consultés ou commandés à l’aide du logiciel de navigation, ou navigateur. Le navigateur Web
Exposé MCSI
2003-2004
2
Webmaster
-3-
coïncide avec la première génération de l’Internet commercial. Il permet aux clients de faire
leurs courses sur le Web. La deuxième génération de l’utilisation commerciale de l’Internet
abandonnera l’idée de « faites-le vous même » pour celle de « faites-le pour moi ».
Ce nouveau concept de l’informatique omniprésente automatisera de nombreux processus
que les utilisateurs confient aujourd’hui aux logiciels de navigation ; mais ce n’est pas pour
demain, et les navigateurs ont encore de beaux jours devant eux.
2. Taille de World Wide Web
2.1. Caractéristiques de l’information disponible sur le World Wide Web :
Le développement rapide du World Wide Web a créé des sources d’information nouvelles et
importantes, qui rivalisent, voire remplacent celles détenues par nos grandes bibliothèques.
Néanmoins, malgré la popularité grandissante du Web, les types de documents qui y sont disponibles
sont encore mal connus. Le lancement du logiciel de navigation par Mosaic par le NCSA (National
Center for SuperComputing) en novembre 1992 est à l’origine de l’immense popularité que connaît le
Web. Au début de 1993, il n’existait que 130 sites Web sur l’Internet, mais moins de six mois après
l’apparition de Mosaic, on comptait pas moins de 10000 centres serveurs Web. John Quartrman,
ayant transmis un sondage démographique sur plus de trois millions et demi d’utilisateurs . Il y a
aujourd’hui aux alentours de 50000 sites Web dans le Web dans le monde (chiffres cités un peu
partout dans les médias).
En cinq ans, le World Wide Web est devenu une source importante pour la littérature scientifique et a
transformé radicalement la façon dont l’information est distribuée et utilisée. Les ressources
disponibles sur le Web dépassent, du moins en nombre, celles de nos grandes bibliothèques. L’an
dernier, Inktomi1 estimait qu’il y avait un total de 50 millions de documents sur le Web dont le volume
atteindrait environ un demi teraoctet. La taille du Web et sa croissance explosive qui ne montre aucun
signe de ralentissement ne laissent aucun doute sur son intérêt pour les bibliothèques et leurs
usagers.
Le World Wide Web est une forme d’accès à Internet. Utilisant des butineurs spécifiques
(comme Netscape ou Internet Explorer), les usagers peuvent avoir accès à une série de
services d’Internet. En outre, le Web dispose de son propre protocole appelé Hypertexte
Transfert Protocol (HTPP) qui permet la transmission de documents hypertextes. La souplesse
du Web et le fait qu’il puisse transmettre des documents hypertextes graphiques en ont fait le
composant d’Internet le plus populaire.
Bien que le Web soit maîtrisé techniquement, on connaît mal la nature des documents qui sont
disponibles et qui forment le Web. Une chose est claire : le Web est un ensemble de documents créés
par des auteurs et des éditeurs disposant d’un serveur Web. Le Web n’a pas de politique de sélection,
à l’inverse des bibliothèques où des décisions sont prises sur les documents qui seront acquis et
conservés dans les collections. En opposition avec les politiques d’acquisition définies par les
bibliothèques, le Web semblent être le résultat d’une campagne très réussie d’incitation aux dons, qui
inclurait le bon, le mauvais et l’horrible.
Du point de vue du contenu, le Web reste un mystère. Nous connaissons mal les sources des
documents, les types de documents disponibles, leur valeur, les langues utilisées, l’âge ou la longévité
des documents, l’étendue des sujets traités, ainsi que d’autres caractéristiques décrivant une
collection d’informations. Peu d’études ont été menées sur le contenu en raison de son instabilité et
du développement erratique du Web. General Magic2, une source de statistiques récemment utilisée
par le magazine Time3, a estimé le nombre de sites Web à 400 000 tandis que Gray4 donnait le
chiffre de 650 000.
Les usagers peuvent avoir accès au Web depuis leur bureau, leur école, leur maison et leur
bibliothèque publique quand elle propose des terminaux en accès public. Pour continuer à fournir aux
Exposé MCSI
2003-2004
3
Webmaster
-4-
usagers une assistance de qualité en matière de recherche et d’utilisation, les bibliothèques ont
besoin de statistiques fiables décrivant la source d’information pléthorique et inestimable qu’est le
Web. Comme préliminaire à l’étude décrite ici, OCLC a fait des recherches sur le Web et dans des
documents papier pour trouver des statistiques fiables et exhaustives décrivant le contenu des pages
Web. Aucune n’a été trouvée qui puisse aider les bibliothèques et leurs usagers. Cette étude a donc
été entreprise pour modifier cette situation afin d’identifier les contenus du Web et produire des
statistiques utiles pour la communauté des bibliothèques.
Le Web utilise sa propre terminologie pour décrire le stockage, la maintenance et la diffusion
de ses documents. Les termes les plus importants pour l’étude décrite ci-dessous sont home
pages (pages d’accueil), pages Web statiques et interactives et sites Web.
2.2. Les pages Web :
L’entrée dans le Web se fait par la page d’accueil qui est à peu près équivalente à la page de
titre dans un environnement imprimé. La page d’accueil fournit généralement des
informations générales sur le site mais peut aussi fonctionner comme une table des matières.
Après la page d’accueil, l’unité bibliographique fondamentale du Web est la page Web (un
document Web, un fichier HTTP). La page Web est une entité distincte qui est identifiée par
une adresse unique appelée Uniform Resource Locator ou URL. Il y a deux types de pages
Web : statique et interactive (dynamique).
Une page Web statique est un document qui peut être lu de haut en bas sans quitter le document. A
moins qu’elle ne soit modifiée, la page Web statique présente la même information à tous les usagers.
Une page Web interactive est un document élaboré qui utilise des programmes externes pour réaliser
des fonctions spécifiques. Ces pages interactives permettent aux usagers de soumettre des
formulaires, d’interroger des bases de données, de formater des résultats, de structurer l’affichage et
d’avoir accès à des parties du site protégées par un mot de passe. Un bon exemple de site interactif
est celui de la compagnie Delta Airlines5. Plutôt que de chercher dans des tableaux d’horaires de vol
imprimés, les usagers entrent l’information nécessaire pour obtenir un document contenant
l’information pertinente (à savoir un horaire d’avion).
Un site Web est un ensemble de pages Web liées entre elles et qui sont hébergées sur un serveur
particulier.
2.3. Recueillir des extraits de pages Web
La taille imposante du Web interdit toute analyse exhaustive de son contenu. La meilleure
approche possible est le recueil d’extraits de pages Web. Cet échantillon doit être assez large
pour être représentatif de la diversité des informations du Web et assez petit pour être géré
facilement. Cet échantillon ne doit pas être biaisé afin de permettre des extrapolations sur le
Web dans son ensemble.
Le Web inclut des sites Intranet protégés par des garde-barrières (firewalls), des pages qui ne sont
consultables qu’après paiement d’une redevance, des pages qui nécessitent d’avoir une autorisation
d’accès ou tout autre moyen de restriction.
Cette étude utilise un échantillonnage de groupe dans lequel le site Web devient l’unité
d’échantillonnage et la page Web la sous-unité. L’échantillonnage de groupe est bien adapté aux
pages Web puisqu’il n’y a pas de liste des sous-unités. Un échantillon aléatoire de sites Web sera
sélectionné et les données seront prises dans chaque page Web du site.
La méthodologie de l’échantillonnage de groupe est bien expliquée par Cochran6. L’adresse IP
(Internet Protocol) sera utilisée pour identifier les sites Web. Chaque site a une adresse unique, un
identifiant numérique sur 32 bits, son adresse IP. Cette adresse est divisée en quatre octets de 8 bits
Exposé MCSI
2003-2004
4
Webmaster
-5-
chacun, habituellement séparés par des points (ex : 132.174.1.5). Comme chaque octet est composé
de 8 bits, il peut prendre des valeurs comprises entre 8 et 255 ce qui crée 4 milliards de possibilités
d’adresses.
Chaque site Web a une adresse IP unique mais chaque adresse IP ne correspond pas à un site Web.
Plusieurs adresses IP sont associées avec d’autres services Internet comme la messagerie
électronique ou le transfert de fichiers (FTP) ; certains sites ne sont pas consultables par le public ;
certaines adresses IP n’ont pas encore été attribuées. La faible proportion d’adresses IP associées à
des services Web complique la collecte des données mais ne nuit pas à la validité de l’échantillon.
Chaque site Web a une chance équivalente d’être sélectionné dans l’échantillon. Toutefois, le nombre
de sites Web dans l’échantillon définitif sera inférieur au nombre d’adresses IP sélectionnées.
L’échantillonnage lui-même sera fait en trois temps. Tout d’abord, un échantillon aléatoire sera
constitué. Ensuite un programme automatique tentera de se connecter au port 80 (port standard pour
les serveurs W3) de chaque adresse IP pour déterminer si cette adresse a un site Web public. Enfin,
les contenus de chaque site seront collectés en déchargeant tous les fichiers HTML de ce site.
Le recueil des données débutera en juin 1997 et continuera pendant l’été. Une première analyse sera
disponible à la fin de l’été afin que des résultats détaillés soient disponibles pour la conférence. Nous
pensons que cette analyse donnera des statistiques fiables à la fois sur l’orientation thématique et les
caractéristiques de l’information disponible sur le Web.
2.4. Analyse
Les bibliothèques et la communauté des utilisateurs d’Internet ont besoin de statistiques
fiables sur la taille du Web et sur le contenu des pages Web. Ces statistiques doivent être
basées sur une méthodologie éprouvée et ayant donné lieu à des publications. Les statistiques
sont nécessaires pour :




le nombre de sites Web.
le nombre de pages Web statiques.
la taille moyenne des pages statiques.
le nombre de pages Web interactives.
La nature différente des pages Web statiques et interactives exige un traitement différent. Par
exemple, alors que l’on peut estimer la taille d’une page Web statique, la taille moyenne d’une page
interactive n’a pas de sens. En général, le service produit par une page interactive est plus important
que le texte lui-même. Une petite page interactive peut être l’équivalent de plusieurs volumes de
tableaux ou fournir un service qui n’a pas d’équivalent papier.
Ces estimations ressemblent plus à celles qui sont rassemblées par les éditeurs qu’à celles faites par
les bibliothèques puisqu’elles reflètent ce qui est publié sur le Web. Pour évaluer la nature de cette
information publiée, il faut créer des catégories de types d’information. Pour cette étude, chaque page
Web extraite de l’échantillon sera rangée sous les catégories suivantes :



Non-fiction : rapports, articles scientifiques, commentaires, essais, éditoriaux,
monographies;
Fiction/Distraction : humour, fiction, jeux, documents liés aux loisirs
Référence/Index : pages d’accueil, index, résumés, tableaux statistiques, annuaires,
profils, bibliographies, guides, information biographique/autobiographique, références
à d’autres ressources
Exposé MCSI
2003-2004
5
Webmaster


-6-
Institutionnelle : vente en ligne, publicités, information commerciale, catalogues,
modes d’emploi, documents promotionnels, descriptions des établissements
Personnelle : pages réservées à une information sur un individu ou un groupe.
Ces catégories ne se recoupent pas. Des tests préliminaires ont montré que ces catégories sont
pertinentes même si elles ne sont pas exhaustives. Vraisemblablement, d’autres catégories ou souscatégories devront être ajoutées à cette liste. Elles seront identifiées au cours de l’analyse.
D’autres statistiques seront estimées à partir de l’échantillon :



la répartition par langue
la répartition par lieu d’édition
l’âge moyen de la page Web.
Bien que l’échantillon soit limité aux pages accessibles directement, nous rassemblerons des
informations sur les pages qui ne sont pas publiques. Mis à part les sites Web sur Intranet, la plupart
de ces pages sont accessibles via une page de passerelle. Ces dernières sont des pages publiques
qui seront prises dans l’échantillon. Ces pages de passerelle fourniront une information suffisante pour
estimer le nombre de documents non consultables directement et d’identifier des types communs de
pages à la diffusion contrôlée.
3. Les différentes pages Web
3.1. Page statique
D’après le nom statique on comprend que se son des pages presque figé, leur contenu est actualise
par un webmaster.
3.2. Page dynamique
3.2.1. Vers des sites Web dynamiques
La plupart des entreprises ont commencé par utiliser des pages statiques pour créer leurs sites
web. Ce système présente un avantages de taille : aucune connaissance en programmation
n’est nécessaire et toute personne équipée d’un éditeur de page Web est capable de créer
quelques pages et de les installer en ligne. Après quoi, il suffit d’un serveur Web en bon état
de fonctionnement, ce qui n’est pas un problème aujourd’hui. Des pages Web statiques
occupent moins de ressources sur un serveur que des pages dynamiques puisque le serveur n’a
qu’une tache a effectuer : retrouver la page Web sur son disque dur et la transférer au
navigateur web.
Mais un jour ou l’autre, les entreprises veulent en faire plus et souhaitent relier leurs pages
Web à leurs bases de données. Il est alors possible de créer des pages dynamiques à qui
permettent aux visiteurs d’ajouter, d’insérer ou de supprimer des données, pendant que les
données internes sont immédiatement disponibles sur internet. Les pages dynamiques sont
incomparablement plus souples et plus utiles que les pages statiques, même si elles
consomment un peu plus de ressources sur le serveur web.
Les pages statiques existent toujours, mais ne sont plus utilisées que sur les sites de quelques
pages rarement mises à jour. Une entreprises proposant des services en ligne doit disposer
d’un site, et donc de données, toujours parfaitement à jour. Imaginez une entreprise vendant
des imprimantes sur le Web, mais ne proposant pas le dernier modèle parce que la mise à jour
de ces pages statiques demande trop de temps. Si elle utilisait un site Web dynamique, elle
introduirait les données de la nouvelle imprimante dans la base de données du serveur Web et
les informations seraient aussitôt disponibles pour les visiteurs du site.
Exposé MCSI
2003-2004
6
Webmaster
-7-
Grâce aux pages Web dynamiques, les entreprises peuvent créer une mise en page standard,
enregistrée séparément des données. La mise en page et le contenu sont combinés au moment
ou un client accède à votre site pour constituer une page Web très personnalisée , répondant a
la demande du client.
Presque tous les sites commerciaux utilisent des pages Web dynamiques. La modification et
la mise en page en sont facilitées, car il suffit de changer quelques modèles ; le coût et le délai
de réalisation d’une nouvelle présentation de page se trouvent réduits. Ce concept permet aux
agences de design de concevoir la présentation d’un site Web sans toucher le contenu.
Les pages dynamiques ne sont pas obligatoirement pré construit sur le serveur. Avec CSS
(Cascading Style Sheets). DOM (Document Objet Model) et Java script, il est possible de
créer des site Dynamique HTML coté client.
3.2.2. L’intérêt des pages dynamiques :
Si le passage aux pages dynamiques requiert un petit effort pour assimiler un langage de
programmation, les avantages qui en découlent sont considérables, par exemple :
a. Des mises à jour automatiques
La mise à jour des sites réalisés totalement en HTML devient vite infernale, surtout s le
nombre de pages est important. L’utilisation d’un langage de programmation permet
d’automatiser partiellement ou totalement ces mises à jour.
Vous affichez sur votre site des informations, avec des pages statiques, il vous faut faire
régulièrement le tri, réorganiser ces informations et supprimer celles qui sont périmées.
Bref vous devez souvent refaire une bonne partie des pages.
En passant aux pages dynamiques, vous pouvez ajouter à vos informations une durée de
validité. Le programme comparera alors la date du jour avec la période de validité des
informations et n’affichera que celles qui sont d’actualité. Sans intervention aucune de votre
part.
b. Une maintenance facilitée
Les sites Internet doivent régulièrement évoluer. Si vous voulez changer ne serait-ce
que la présentation générale de vos pages, il faudra les revoir une à une si elles sont réalisées
en HTML. Si ce sont des pages dynamiques, vous pourrez, si vos programmes sont bien
conçus, changer un paramètre ou deux et toutes vos pages seront automatiquement modifiées.
Lorsqu’il ne s’agit que de changement de couleurs ou de polices de caractères, les feuilles de
styles peuvent résoudre le problème. Mais les feuilles de styles ne sont pas exploitées par tous
les navigateurs. En traitant le problème avec un langage de programmation, vous n’avez pas à
vous préoccuper de la version du navigateur utilisée par les internautes.
La maintenance est d’autant plus facilitée par le passage aux pages dynamiques qu’il suffit
quelquefois d’un seul programme pour remplacer des centaines de pages. Exemple typique :
Un service de petites annonces. Si vous gérez votre service en HTML, vous aurez
probablement une page par annonce. Avec les pages dynamiques, vous n’aurez besoin que
d’un seul programme pour afficher toutes les annonces. Ce programme affichera la maquette
choisie pour la présentation et inséreras les données concernant l’annonce. Ces données
pourront être lues à partir d’un fichier ou d’une base de données.
Exposé MCSI
2003-2004
7
Webmaster
-8-
II. Les Administrateurs en informatique
1. Définition
Personne charger d’un logiciel complexe, de son installation, de sa configuration, de son
évolution et du suivi de ses performances.
Exposé MCSI
2003-2004
8
Webmaster
-9-
2. Différentes administrateur
La fonction d’administrateur se rencontre principalement pour les systèmes d’exploitation
(administrateur système), pour les réseaux informatiques (administrateur réseau), pour les
systèmes de gestion de bases de données (administrateur de base de données) et pour les sites
Web (webmestre ou webmaster).
2.1. Administrateur système
Bien que les connaissances requises pour administrer un système dépendent fortement de ce
système, les fonctions d’administration restent semblables. On peut les découper en deux
grandes catégories : les fonctions d’initialisation du système qui sont effectuées peu
fréquemment et les fonctions de maintenance qui sont effectuées quotidiennement.
Les fonctions d’initialisation comprennent l’installation du logiciel, sa configuration (ou
paramétrisation) qui consiste à adapter le logiciel à son environnement d’utilisation
(configuration de l’ordinateur, charge attendue), et son évolution (installation des nouvelles
versions et reconfiguration). Les fonctions de configuration sont souvent les plus difficiles à
assurer, en raison de la forte interaction entre les différents paramètres à définir.
Les fonctions de maintenance comprennent la sauvegarde des données sensibles du logiciel et
notamment des données utilisateurs (voir archivage). Ces sauvegardes seront plus ou moins
fréquentes, selon le taux de mise à jour des données et la fiabilité que l’on veut obtenir. La
sécurité informatique constitue une fonction primordiale de l’administrateur d’un système.
Cela passe par la surveillance des accès au logiciel, par l’identification de trous éventuels de
sécurité dans le logiciel utilisé (il existe des sites Web spécialisés dans le recensement des
failles de sécurité dans les logiciels les plus utilisés).
Le maintien d’un bon niveau de performance du logiciel administré est également une
fonction importante. La notion de « bon niveau » est généralement fixée par les utilisateurs du
système, qui eux seuls peuvent définir ce qui est tolérable ou non en termes de temps de
réponse. L’administrateur a généralement à sa disposition un ensemble d’outils d’observation
qui vont lui permettre de diagnostiquer les problèmes éventuels. Par exemple, un webmestre
dispose des fichiers d’enregistrement des accès sur le serveur Web, ce qui lui fournit de
précieuses informations.
2.2. Administrateur de site Web (Webmaster)
Le webmestre (ou webmaster) doit veiller au bon fonctionnement du site Web dont il a la
charge. Cela recouvre l’installation du serveur Web et sa configuration. Celle-ci dépend
fortement de la nature du site : est-il composé uniquement de pages statiques ou contient-il
des pages dynamiques (pages construites par des programmes) ? Quel est le nombre moyen de
pages consultées par jour? Est-ce qu’il contient de l’information sensible qu’il faut sécuriser?
En fonction des réponses à ces questions, la configuration du serveur va être différente. S’il
faut assurer des fonctions de sécurité élevées, il est nécessaire d’ajouter des modules
supportant des protocoles sécurisés, comme SSL (Secure Socket Layer). En outre, si le site
contient des pages dynamiques, il convient d’autoriser l’exécution de programmes et
d’installer des modules permettant l’accès aux bases de données. Enfin, si le nombre de pages
Exposé MCSI
2003-2004
9
Webmaster
- 10 -
consultées est important, il faut lancer plusieurs exemplaires du serveur, de manière qu’ils
puissent traiter des requêtes en parallèle.
La configuration doit être adaptée de façon continue à l’utilisation du site. Pour ce faire, le
webmestre analyse les fichiers de journalisation des accès, ce qui lui permet de connaître la
charge du serveur, la répartition des accès dans le temps, le domaine de provenance des
requêtes clients, ainsi que les erreurs d’accès (pages demandées sur le serveur qui n’existent
pas ou pour lesquelles le mécanisme d’autorisation a refusé l’accès).
Dans certains cas, le webmestre peut aussi être responsable de la cohérence graphique du site.
Par exemple, les pages doivent être organisées de la même façon avec un bandeau de
navigation en haut, une aide sur le côté. De même, il y a souvent une charte graphique
associée précisant les couleurs à utiliser, le choix des icônes, etc. Le webmestre doit alors
vérifier que les pages qui sont ajoutées sur le site respectent toutes ces règles.
2.3. Administrateur réseau
Un réseau informatique se compose à la fois de parties logicielles (les multiples protocoles
utilisés), d’équipements (routeurs, concentrateurs…) et de liens physiques (câble coaxial,
fibre optique). Le rôle de l’administrateur réseau consiste à superviser ces différents aspects.
Pour l’aspect logiciel, on retrouve les fonctions classiques d’administration. En outre, il existe
sur le marché des plates-formes logicielles d’administration de réseau qui permettent d’avoir
une vision globale sur le réseau (on peut citer par exemple OpenView de Hewlett-Packard).
Pour connaître l’état du réseau, ces plates-formes interrogent les divers ordinateurs et
équipements présents à l’aide de protocoles de niveau application. Dans le monde TCP / IP
(Transmission Control Protocol / Internet Protocol), le protocole le plus utilisé est SNMP
(Simple Network Management Protocol). Les informations recueillies auprès des équipements
sont par exemple la charge, le nombre de paquets ayant transité, le nombre de paquets perdus,
etc. Si des problèmes surviennent, ils sont détectés par la plate-forme qui peut soit prévenir
l’administrateur, soit prendre elle-même des décisions de reconfiguration. Des problèmes
importants peuvent amener à modifier le réseau lui-même, en remplaçant un équipement par
un autre plus performant (passage d’un concentrateur (ou hub) à un routeur), ou en rajoutant
de nouveaux liens physiques pour fournir des chemins supplémentaires.
IV. Administrateur de site Web « Webmaster »
Exposé MCSI
2003-2004
10
Webmaster
- 11 -
1. Webmaster et l’entreprise
L’avènement d’Internet a grandement contribué à la création de nouvelles professions au
niveau de l’entreprise. Cette situation a entraîné une forte demande sur le marché de l’emploi
qui n’était pas préparé pour répondre à ce type de sollicitation.
Les causes de cette carence s’expliquent par l’absence de compétence dans ces nouveaux
domaines, du fait de l’émergence et de la propagation rapides des nouvelles technologies
de la communication. Dès lors, les besoins de formation en cadres rapidement
opérationnels pour l’entreprise se sont posés avec acuité.
Parmi les postes les plus convoités par certaines entreprises et organisations nous pouvons
recenser, en premier lieu, la fonction d’un Webmaster.
Pourquoi un Webmaster ?
Les raisons de recruter un Webmaster au sein de l’entreprise sont :
- La volonté de mise en place et d’administration des sites Web.
- Introduire la culture Internet, ce qui devait passer forcément par la formation et la
conversion du personnel.
- Nécessité d’établissement d’une passerelle entre la vie interne de l’entreprise et le
monde externe.
Au-delà de son rôle de catalyseur de la communication interne et externe au niveau de
l’entreprise, le Webmaster procure à l’organisation différents services : veille stratégique,
suivi du comportement des marchés, détection des opportunités sur le net, collecte de
données techniques…
2. Domaines d’intervention des Webmaster
Exposé MCSI
2003-2004
11
Webmaster
- 12 -
Le champ d’action du Webmaster est variable. Il dépend globalement de la stratégie et de
la dimension de l’entreprise.
2.1. Mise en route
2.1.1. Hébergement
Un site doit être stocké sur un serveur connecté à Internet pour que les internautes puissent le
consulter.
2.1.1.1. Stratégie d’hébergement d’un site Web
La décision d’ouverture de l’entreprise sur Internet relève d’une stratégie avec des dimensions
financières, commerciales, techniques et sociales. L’environnement dans lequel évolue
l’organisation l’incite aujourd’hui à abandonner les politiques de confinement et l’encourage à
s’inscrire dans une dynamique d’évolution qui garantira la pérennité.
La mise en place du site Web de l’entreprise sur Internet ne représente plus seulement une
petite vitrine sur ce réseau, mais il est devenu le prolongement naturel du système
d’information de l’organisation.
a. Hébergement du site en interne
Mettre un site en interne demande des ressources importantes et des compétences certaines.
Le serveur doit bénéficier d’une bonne connectivité à travers une ligne spécialisée et requiert
un personnel qualifié capable d’assurer son fonctionnement H24 et sa totale sécurité contre
les intrusions.
b. Hébergement du site en externe
Installation du site chez un hébergeur sélectionné.
Concernant ce mode d’hébergement, deux solutions sont disponibles :
 Choix d’un serveur virtuel ou co-hosting
Allocation d’une fraction de l’espace disque d’un serveur qui partage ses ressources avec
plusieurs clients. Les avantages d’une solution réside dans le fait qu’elle présente une
économie de coûts et ne demande qu’un Webmaster qui sera chargé de son administration.
 Choix d’un serveur dédié
Dans ce cas, le serveur n’est pas partagé, il reste attribué à un seul exploitant.
D’autres solutions existent qui viennent en complément des formules précédemment citées,
il s’agit de :
 Co-location
C’est l’hébergement du site (généralement sa duplication) dans une optique de se rapprocher
du marché naturel de l’entreprise. L’objectif visé est l’accessibilité du site. L’obtention des
meilleurs temps de réponse du site sur le backbone d’un pays, relever d’une stratégie de
proximité de la cible visée.
 Miroring
C’est la copie conforme d’un site appelé à fonctionner constamment. Le miroring est une
opération qui consiste à assurer le relais permanent du site de l’entreprise et lui assurer une
relève permanente pour pallier toute défaillance d’interruption de fonctionnement.
2.1.1.2. Les différentes familles d’hébergeur de site Web
Exposé MCSI
2003-2004
12
Webmaster
- 13 -
Les entreprises spécialisées dans la fourniture de ce genre de prestation se répartissent
globalement comme suit :
 Les fédérateurs
Ce type de sociétés spécialisées concentre leur offre sur un type d’hébergement mutualisé.
Les fédérateurs, généralement de grandes sociétés américaines, cherchent à fédérer un grand
nombre de clients pour loger leurs sites Web sur les mêmes machines. La proposition consiste
à attribuer des serveurs virtuels (non visible pour les internautes) qui partagent les ressources
d’une seule machine affectée à un nombre calculé de clients.
Le point fort de la stratégie réside dans des offres packagées avec des prix qui défient toute
concurrence pour le même type de qualité de service.
On peut citer comme exemple, les sociétés Verio et Rapidiste (sa filiale) qui hébergent à aux
seuls plus de 600 000 sites Web. Les solutions proposées consistent à offrir des services de
base qui peuvent évoluer en fonction des besoins propre de chaque propriétaire, ceci implique
automatiquement une facturation supplémentaire d’extra.
Ces sociétés sont d’un haut niveau de spécialisation dans les techniques de partage des
ressources, dans l’augmentation continue de la bande passante et la redondance de leur
connexion au backbone. Les mesures de sécurité et la planète. Elles garantissent au site Web,
un fonctionnement permanent avec des qualités de services très appréciables.
 Les fournisseurs d’accès Internet
Les providers profitent de leur bande passante Internet pour affecter une partie de ce débit à
l’hébergement des sites Web.
Leurs services d’hébergement consistent globalement à :
 L’allocation de serveur dédié
 L’allocation d’un serveur virtuel (partage d’un serveur entre plusieurs sites Web)
 La permission de recevoir la machine de la société au niveau de son centre
d’accès pour son raccordement au débit Internet
 L’opérateur réseau
Le métier de cet opérateur consiste à allouer de la bande passante. Ces sociétés, généralement
publiques, sont des spécialistes de la connectivite, la maîtrise totale des techniques de
raccordement et les optimisations de la gestion de la bande passante en font des fournisseurs
d’espace d’hébergement non négligeable. Leurs offres ciblent les fournisseurs d’accès et les
spécialistes de l’hébergement.
 Les hébergeurs gratuits
Dans la quête et la frénésie de capter d’avantage la manne issue de recettes publicitaires
récoltées à travers les bannières insérées obligatoirement dans le haut des pages, certaines
grandes sociétés n’hésitent pas à proposer l’hébergement gratuit des sites Web allant jusqu'à 1
giga-octets. L’offre vise la catégorie des particuliers pour les pages personnelles, celle-ci n’est
pas une offre commerciale. Ces solutions ne répondent nullement aux besoins des entreprises
compte tenu de l’obligation faite à l’hébergé de faire tourner sur le site free de la pub
appartenant aux annonceurs mondiaux. La décision d’opter pour ce type de site signifie que
l’entreprise ne dispose pas de ressources financières ou que l’encadrement de l’organisation
comporte des carences en matière de culture Internet.
Exposé MCSI
2003-2004
13
Webmaster
- 14 -
2.1.1.3.
Les différentes hébergeurs de site Web
Nom
Absence de pub
Scripts
Citeweb
CiteWeb est un hébergeur créé par des bénévoles, ce qui rend la publicité (quasiment)
absente. De plus, CiteWeb propose de nombreux services : compteurs, formulaires,
statistiques, possibilité d'avoir un nom de domaine... la bande passante du site est de
qualité.
ASP
IFrance et
Le village
(mêmes
serveurs)
Espace Web
200 Mo (le site Web doit être
de langue française)
Vous pouvez sur ce site créer des sites perso pour WAP. Les services sont nombreux
(E-mail, compteurs, statistiques détaillés...) et une aide claire. Avec ce site, la création
vous ouvre ses portes !
(Grande frame en bas de
l'écran)
Illimité !
Xoom est spécialisé dans l'hébergement et propose un espace illimité et gratuit ! Qui
plus est, une banque d'image, des compteurs et pleins d'autres services viennent
compléter le tout.
Xoom
(Petite frame en haut du
site)
-
Illimité !
Multimania est un site très populaire, proposant une multitude de services, mais le plus
important est sans doute sa fréquentation, ce qui assure de plus grandes interactions
entre les visiteurs (chat, forum)...
Multimania
(ancien
Mygale)
(un bandeau publicitaire
lors de l'ouverture de
chaque pages)
PHP4 + MySQL
100 Mo + 50 Mo sur
demande (illimité)
Votre demande ne sera
prise en compte que si votre
espace actuel est plein et si
votre site est conforme à la
chartre de Multimania.
Free est avant tout un fournisseur d'accès gratuit, mais c'est sans doute l'hébergement
la clef de son succès. Celui-ci propose plusieurs services intéressants (ex: Mailing-List)
et de nombreuses aides pour les webmasters.
Free
PHP3 + MySQL
Absence de la fonction
mail().
Extension GD.
100 Mo (possibilité de créer
plusieurs sous-comptes)
Nexen est un hébergeur qui s'est spécialisé dans le PHP, qui fait en grande part sa
réputation. De nombreux exemples de scripts et une documentation très riches vous
sont présentés. Sans pub, ce serait sans doute le meilleur hébergeur PHP.
Nexen
(Publicité
personnalisable)
PHP4 + MySQL +
extensions
100 Mo
Forez est également un hébergeur PHP.
Forez
(Bannière obligatoire sur
la première page)
Chez.com
PHP + MySQL
Pas d'extensions.
20 Mo
Peut de services (pas de statistiques, pas de formulaires) ; possibilité de créer 5
comptes, soit 250 Mo avec la même adresse mail.
(Frame en bas de l'écran)
-
50 Mo extensibles à 250 Mo
(5 comptes).
2.1.2. Mise en ligne
Que faire d’une page une fois conçue ?
Exposé MCSI
2003-2004
14
Webmaster
- 15 -
Si la page est destinée au World Wide Web, il faut l’envoyer sur le Site Interne. Le Site
Internet se trouve sur un serveur chez un fournisseur d’accès (provider) hébergeur.
La publication du Site Web sur un système extérieur, nécessite un accès FTP pour télécharger
tous les fichiers. La procédure de téléchargement est relativement simple grâce aux logiciels
clients FTP. Parmi ces logiciels nous citerons FTP Voyager, Cute FTP, WS_FTP…
2.1.2.1. Les clients FTP
Les clients FTP vous permettent de transférer via le protocole FTP (File Transfert Protocole)
vos pages sur un serveur (votre hébergeur), et vice vers sa. C'est la méthode universelle pour
le transfert de fichiers.
2.1.2.2. Exemple de publication avec FTP Expert
FTP Expert est un client FTP réputé et couramment utilisé, c'est pourquoi je vais vous faire la
démonstration avec celui-ci. Par ailleurs, bien qu'il s'agisse d'un shareware, il ne comporte
aucune limitation et il est simple d'utilisation.
L'écran de connexion de FTP Expert :
Exposé MCSI
2003-2004
15
Webmaster
- 16 -
Voici l'écran qui apparaît lorsque vous lancez le logiciel.
o
o
o
o
Dans le champ Nom du site, peut importe ce que vous mettez. Il s'agit tout simplement
du nom de votre connexion. Donnez lui un nom explicite du genre "Mon site sur
Multimania".
Dans le champ Adresse hôte vous devez mettre l'adresse FTP du serveur (de votre
hébergeur). Cette adresse est du genre ftp.serveur.com.
Par exemple ftp.multimania.com si vous êtes hébergé par Multimania.
Dans le champ ID de l'usager, vous devez mettre votre login. Il s'agit du nom de votre
compte, par exemple http://www.multimania.com/votrecompte/.
Mot de passe : il s'agit de votre mot de passe, que vous avez donnez lors de la création
de votre compte chez l'hébergeur.
Après avoir remplit ces paramètres, cliquez sur Appliquer puis sur Connecter pour accéder au
serveur.
Certain hébergeurs comme IFrance vous demanderez une clef d'ouverture de compte pour
que tout le monde puisse accéder à votre site. (Sans cela, il vous sera demander votre nom et
votre mot de passe à chaque fois que vous voudrez accéder à votre site et l'internaute ne
pourra évidemment pas le visiter).
Une fois connecté, il vous suffit de faire glisser les pages de votre disque dur (écran de gauche)
vers le serveur (écran de droite). L'interface fonctionne comme l'Explorateur de Windows.
2 répertoires sont en général déjà présent sur le serveur : le répertoire BIN et un autre
répertoire. Il se peut que vous ne les voyez pas car ceux-ci sont cachés (il faut avoir décoché
une option dans le client FTP pour les voir). N'essayez pas de les supprimer, c'est impossible
et vous en avez besoin pour que votre site puisse fonctionner.
Les clients FTP utilisent en général par défaut le mode de transfert ASCII, or dans ce mode,
conçu pour les pages HTML, certains fichiers contenant des caractères spéciaux (les fichier
ZIP par exemple, ou autre), sont mal transférés et même parfois irrécupérables. Pour résoudre
le problème, le mieux est de configurer le mode de transfert en binaire pour ces fichiers
Exposé MCSI
2003-2004
16
Webmaster
- 17 -
2.1.2.3 Sélection de logiciels
http://www.wsftp.com/
Rapide et simple d'emploi - très professionnel - celui que
j'utilise personnellement
FTP Expert3
http://www.visic.com/webexpert/
très complet :







indicateur de vitesse de téléchargement,
personnalisation poussée de l'interface;
transferts de serveur à serveur;
exécution de plusieurs transferts en parallèle de
façon simultanée;
contrôle sur les transferts à l'aide de la liste
d'attente;
survol des images d'un répertoire donné sous forme
de miniatures (thumbnails) côtés local et serveur;
fonction de recherche de fichiers sur le serveur .....
Attention : ne convient pas aux débutants car interface un
peu trop fournie et donc peut paraître un peu "touffue"
CuteFTP
http://www.cuteftp.com/download/index.html
Un autre utilitaire de transfert FTP assez simple à utiliser
2.1.3. Statistique
2.1.3.1. Les services
Voici les principaux services de statistiques français. Notez la différence entre "statistiques",
qui permet de visualiser les heures de visites, l'origine des visiteurs, leur configuration... de
"compteurs", qui n'est qu’une image présentant le nombre total de visiteurs sur le site
eStat
eStat est certes un service très répandu, mais qui n'offre pas beaucoup d'intérêt par
rapport à d'autres sites de statistiques (qui parfois ont des statistiques plus détaillés et
avec moins de restrictions).
Nombres de compteurs max : 20
Discrétion : logo eStat
http://www.estat.com
Weborama
Exposé MCSI
2003-2004
17
Webmaster
- 18 -
Des statistiques détaillées de votre site, un espace de discussion (Chat) sur votre site ;
des sondages en ligne sur votre site ; accès aux nouvelles de l'Internet francophone.
Nombres de compteurs max : ?
Discrétion : logo
http://www.weborama.fr
Xiti
Un autre site de mesure d'audience. Il à l'air pas mal, mais je ne l'ais pas encore essayé.
Nombres de compteurs max : ?
Discrétion : logo Xiti
http://www.xiti.com
Statistiques :




Nedstat : Espionnage de votre site (discret), avec un petit logo est des statistiques
détaillées consultables en temps réel.
Real Track Free : Statistiques détaillés de votre site (logo). Ce site est traduit en
plusieurs dizaines de langues.
Hit-Parade : Compte les visites de votre site et établie un classement de celui-ci ;
mesure donc la popularité de votre site. Avantage : plus votre site est haut dans le
classement, plus vous aurez de chances d'avoir encore plus de visites ! Attention : le
logo Hit-Parade doit toujours bien se charger, car sinon vous risqueriez d'avoir des
surprise dans vos statistiques - et dans votre classement - !
AllStats4u : Ce service semble pas mal, les statistiques sont très détaillées et vous
permettront de savoir tout ce que vous avez toujours voulu savoir sur vos visiteurs !
o Statistiques quantitatives : nombre illimité de pages vues, nombre illimité de
visiteurs, sur un nombre illimité de sites…
o Statistiques qualitatives : mots clés, moteurs de recherche, résolution d'écran,
domaine et origine géographique, système d'exploitation, navigateur et version
utilisée….
Compteurs :


Perl gratuit : 70 styles de compteurs.
Compteur.com : Plus de 100 styles de compteurs pour votre site !
Exposé MCSI
2003-2004
18
Webmaster
- 19 -
2.1.3.2. Interprétation
1) Les heures de visites :
On remarque que les heures de pointe de visites sur les sites français se situent entre 17H et
22H. Les heures creuses entre 0H et 10H. Ces informations sont importantes dans le sens de
l'administration du site : faite les mises à jour pendant les heures creuses ! Le mieux est de se
lever tôt le matin...
Ces chiffres dépendent également de la cible de votre site : un site professionnel, ou éducatif
(par exemple ce site) aura les pointes de visites vers 17 - 18H, alors qu'un site plus de détente
aura les pointes un peut plus tard.
2) Origines géographique :
Exposé MCSI
2003-2004
19
Webmaster
- 20 -
Ce graphique montre les origines géographiques des visiteurs, pour un site francophone. A
noter que celles-ci peuvent être très variable selon les moteurs de recherches dans lesquels
sont référencé le site. Pour un site français, il est normal d'avoir beaucoup de visites des pays
francophones. Dans le cas contraire, sachez que cela signifiera que le référencement de votre
site à été mal effectué !
3) Visites par domaines :
Vous pouvez voir à travers ce graphique les principaux fournisseurs d'accès utilisés par vos
visiteurs.
4) Navigateurs :
Exposé MCSI
2003-2004
20
Webmaster
- 21 -
Ce graphiques est très parlant : on ne voit aucun navigateur antérieur à la version 4 (non pas
qu'ils y en a pas, mais que leur quantité est trop faible : moins de 1%) ! Par contre, il se peut
également que les vieux navigateurs ne soient pas pus atteindre la page contenant le compteur..
5) Systèmes :
Monopole ? Microsoft Windows (95, 98 et NT) est utilisé par plus de 95% des internautes (les
0% veulent dirent en fait moins de 1%
2.2.Promotion
C'est bien beau d'avoir fait un chef d'oeuvre, encore faut-il que tout le monde puisse le voir !
2.2.1. Référencement
Comprendre et améliorer un référencement, c'est avant tout analyser le "comportement" des
différents moteurs et annuaires de recherche, ceci afin de référencer correctement son site
Web et d'accroître la fréquentation de celui-ci.
2.2.1.1. Moteurs de recherche
2.2.1.1.1. Principe de fonctionnement
Dans cette partie on va explique comment fonctionne un moteur de recherche :
l'Aspirateur, qui surfe sur le Web à la recherche de nouvelles pages - l'Indexeur, qui
se charge de sauvegarder les résultats dans une base de données - le Guichetier, qui
permet à l'internaute d'effectuer ses recherches.
Exposé MCSI
2003-2004
21
Webmaster
- 22 -
La forme du Web
Après une analyse des liens tissés entre 200 millions de pages, la répartition des pages des
chercheurs ressemble à un noeud de papillon. Le Coeur est constitué de pages hyperconnectés,
qui se citent mutuellement. Cet espace est facile à parcourir avec des robots. Les pages IN
citent mais ne sont pas cités (la moitié d'entre elles, les dendrites, pointent vers le coeur),
contrairement aux pages OUT, qui sont citées mais qui ne citent pas. Enfin, les pages
déconnectées ne sont pas citées et ne citent pas.
a. Aspirateur
Un moteur de recherche, contrairement à un annuaire, fonctionne avec des robots, dont le but
est de rechercher le plus de pages possibles, en suivant les liens d'un site à l'autre. Mais il est
impensable de faire cette opération qui nécessiterait des semaines pour chaque requête d'un
internaute. C'est pourquoi les résultats sont aux préalables stockés dans une immense base de
donnée constamment mise à jour par des robots. Plus la vitesse de rafraîchissement de cette
base est importante, plus vous obtiendrez une représentation fidèle du Web. Cette tache de
recherche est confiée à des robots, aussi appelés crawlers (rampeurs) ou encore spider
(araignées). Nous dirons plutôt, pour une meilleur compréhension qu'il s'agit d'aspirateurs.
Un aspirateur donc est un programme qui cherche des pages en passant de site en site et le
plus rapidement possible. Cette opération nécessite un logiciel et un ordinateur très
performants ainsi qu'une connexion Internet ultra rapide. Les aspirateurs actuels visualisent
dans les 100 pages par seconde pour les meilleurs. Il faudra donc disposer de plusieurs
aspirateurs pour être performant (ou se contenter d'une remise à jour de l'index tous les
trimestres, ce qui est beaucoup trop lent vu l'évolution du Web actuel).
Mais les aspirateurs ne visualisent pas toute la page, comme nous la voyons. Seul des balises
comme le titre, ou encore la description et les mots clefs sont prises en compte, si elles
existent, ainsi que le début du texte de la page généralement.
Il ne faut pas oublier à ça l'URL de la page, qui doit être enregistrée, ainsi que les liens se
trouvant sur cette page, permettant d'arriver à d'autres pages et de les aspirer à leur tour.
Bien sur, lorsqu'il passe par une page déjà visitée il y a peu de temps, celle-ci est ignorée.
Dans le cas contraire, elle est placée dans la file d'attente des pages restant à visiter.
Toutes ces informations ont étés prisent à la volé, et ne figurent pas encore dans la base de
donnée du moteur de recherche. Il faut d'abord traiter ces pages (par exemple déterminer sa
Exposé MCSI
2003-2004
22
Webmaster
- 23 -
langue, repérer les mots importants qui seront décisifs lors d'une recherche), l'aspirateur cède
alors sa place à l'indexeur.
b. Indexeur
Le but premier de l'indexeur est d'analyser les pages envoyées continuellement par l'aspirateur.
La première étape consiste à identifier la langue du document. Pour cela, l'indexeur, qui est un
programme rappelons le, ne peut pas faire autrement que d'utiliser une méthode statistique, en
recherchant les mots ou les lettres qui reviennent souvent dans une langue. Essayer de
comprendre le sens de chaque mot nécessiterait beaucoup plus de temps et s'avèrerait très
complexe.
Dans le même contexte, l'indexeur peut choisir d'ignorer certaines pages inopportunes, à
caractère pornographique ou raciste par exemple, en se basant sur une liste de mots interdits.
Une fois cette lourde tache effectuée, il faut préparer les informations contenues dans les
pages pour êtres stockées dans une base de donnée. La première chose à faire, dans un soucie
de performance, est d'éliminer tout ce qui est inutile dans la page, comme les mots courts (les
articles par exemple), ainsi que les signes de ponctuation (seul les points sont conservés).
L’opération suivante est de classer les mots de la page par ordre d'importance. Ainsi un mot
étant répété souvent ou précocement (dans le titre par exemple) dans la page sera considéré
comme important.
Un autre critère important pris en compte est la popularité des pages. Plus elles sont
populaires (cités par d'autres pages), mieux elles seront classées.
Ce système pose néanmoins un problème de taille : quelqu'un souhaitant voir sa page en
première position dans un moteur de recherche pour le mot "mp3" n'hésitera pas à le répéter
dans la page pour lui donner plus d'importance. Cette technique s'appelle le spam indexing.
Une des méthodes employées par les Webmasters consiste à répéter dans mots dans la page en
leur donnant la même couleur que l'arrière plan de celle-ci, et ainsi les camoufler aux yeux
des internautes. A noter que cette vieille technique est déjà contrée par tous les robots.
Cela pose évidemment un autre problème à l'indexeur, qui ne doit pas se faire duper par les
Webmasters. Plusieurs techniques sont mises en oeuvre pour limiter cette tricherie.
Une autre forme d'arnaque consiste à augmenter la popularité d'une page "artificiellement", en
créant des pages bidons, optimisées chacune pour certains mots clefs, qui redirigent
automatiquement l'internaute et le robot vers celle-ci. On parle alors de pages "Fantômes".
Dans ce cas, l'indexeur n'hésitera pas à supprimer simplement la page citée abusivement par
des pages fantômes.
Enfin, les pages ainsi traités peuvent être enregistrées dans la base de données du moteur de
recherche.
Exposé MCSI
2003-2004
23
Webmaster
- 24 -
c. Guichetier
Le guichetier est en quelque sorte un intermédiaire entre l’internaute et la base de donnée du
moteur : c'est le lui qui se charge de rechercher dans l'index les pages correspondantes aux
mieux aux critères de recherche et à les classer par ordre de pertinence.
La principale difficulté est de sélectionner les bons sites. Pour cela, l'internaute peut utiliser
des opérateurs logiques, comme ET, OU, SANS, PROCHE...
Mais le principal problème est qu'un moteur classique est incapable de comprendre le langage
naturel que nous parlons. Bien que certains moteurs permettent ce type d'approche, les
résultats sont encore assez hasardeux.
Le guichetier peut également classer les résultats en fonction du choix des internautes. Par
exemple, si un site classé initialement en troisième position pour un certain mot clef est
choisit le plus souvent en premier, il aura de forte chance de grimper à la deuxième, voir la
première place. Cependant, un site ayant un titre et une description attrayante ne contiendra
pas forcément l'information finalement recherchée, et pourra gagner des places sur d'autres
sites contenant eux la bonne information.
Il ne faut pas oublier non plus que certain moteur sont plus performants que d'autres dans
certains domaines et d'autres dans d'autres. Pour faire une bonne recherche, il faut donc savoir
utiliser et interpréter les résultats de plusieurs moteurs de recherches.
2.2.1.1.2. Fonctionnement des principaux moteurs
Sur quels critères se basent les moteurs de recherche pour indexer votre page ? Analyse du
fonctionnement de quelques moteurs.
Voici un tableau comparatif des différents moteurs de recherches
Quelques explications relatives aux tableaux :
Intitulé de l'URL : chaque terme de l'URL peut servir de mot clé. Exemple :
http://www.abondance.com/produits/epicerie/stylos.html peut fournir les mots clés abondance,
produits, épicerie et stylos.
Frames : Le fichier principal est celui qui contient la balise <FRAMESET>.
Imagemaps : Il s'agit des Imagemaps contenant la description des zones dans la balise HTML
(fonction USEMAP).
Exposé MCSI
2003-2004
24
Webmaster
- 25 -
Délai de rafraîchissement de l'index : délai moyen entre deux renouvellements complets de
l'index du moteur.
Soumission
Soumission
Délai de prise en compte
de la page lors d'une
soumission manuelle
1 ou 2 jours
1 à 3 semaines
Délai de rafraîchissement
de l'index
6 semaines
6 semaines
Scooter
ArchiText Spider
Nom du spider
Champs pris en compte lors de l'indexation des pages
Titre
Oui (environ 100 caractères
maximum)
Balise META description Oui (1 024 caractères maximum)
Balise META keywords
Oui (50 caractères environ)
Non (affichée dans les résultats,
mais non prise en compte dans
les calculs de pertinence).
Oui (1 024 caractères maximum)
Non
Commentaires <!-- -->
Non
Non
Attributs ALT des balises
IMG
Oui
Non
Intitulé de l'URL
Oui
Oui
Le fichier principal est indexé, et
parfois le contenu de chaque
cadre.
Seul le fichier principal est pris
en compte.
Oui
Non
Oui : tout le texte de la page est
indexé jusqu'à 100 Ko. Au-delà,
seuls les liens sont indexés.
Oui : tout le texte de la page est
indexé. Une page de petite taille
est préférable à un long
document.
Titre ***
Titre ***
Corps du texte **
Corps du texte **
Balise META keywords *
Balise META keywords : Non
Pas pris en compte
***
Frames
Imagemaps
Corps du texte
Importance relative des
différents critères
Indice de popularité de la
page
Modalités d'exclusion des pages
Fichier robots.txt
Oui : pris en compte
Oui : pris en compte
Balise META robots
Oui : prise en compte
Non : pas de prise en compte
Exposé MCSI
2003-2004
25
Webmaster
- 26 -
Soumission
Soumission
Délai de prise en compte
de la page lors d'une
soumission manuelle
2 à 4 semaines
1 ou 2 semaines
Délai de rafraîchissement
de l'index
2 à 3 semaines
2 à 4 semaines
T-Rex
Gulliver
Nom du spider
Champs pris en compte lors de l'indexation des pages
Titre
Oui
Oui
Balise META description
Non
Oui
Balise META keywords
Non
Oui
Commentaires <!-- -->
Non
Non
Attributs ALT des balises
IMG
Oui
Non
Intitulé de l'URL
Non
Oui
Frames
Imagemaps
Corps du texte
Importance relative des
différents critères
Indice de popularité de la
page
Northern Light semble
Seul le fichier principal est indexé. prendre en compte de façon
efficace les frames.
Non
Oui
Oui. Le début du texte est très
important. Les pages courtes
(mais contenant plus de 100
mots) sont mieux classées que
les longs documents.
Oui Tout le texte de la page
est indexé. Les mots clés
importants doivent se trouver
dans la première partie de
celui-ci.
Titre ***
Titre ***
Corps du texte ***
Corps du texte **
Balise META keywords : Non
Balise META keywords *
**
Pas pris en compte
Modalités d'exclusion des pages
Fichier robots.txt
Oui : pris en compte
Oui : pris en compte
Balise META robots
Oui : prise en compte
Oui : prise en compte
Exposé MCSI
2003-2004
26
Webmaster
- 27 -
2.2.1.2. Pré-référencement
Cette étape est importante avant de référencer le site : il s'agit de mettre en place des balises
lues par les robots des moteurs de recherches, comportant les mots clefs et la description du
site (sans oublier le titre).
2.2.1.2.1. Les balises Méta-tags
a. Le titre
La page principale (index ou default) doit avoir un titre attrayant et pas trop long (5 à10 mots)
qui doit décrire en quelque mot un site et ses thèmes abordés..
Surtout ne le négligez pas, c'est ce que voie l'internaute en premier dans un moteur de
recherche et il cliquera beaucoup plus facilement sur un bon titre, parfois même sans lire sa
description ! Le titre est définit dans la balise <title>, dans "head". Celui-ci ne doit pas
excéder une demi-ligne.
Exemple : Guide Webmaster : toutes les techniques pour faire un site
Quelques conseils pour le choix de titre :




Essayez autant que possible de faire commencer le titre par l'une des premières lettres
de l'alphabet. En effet, les annuaires classent les sites alphabétiquement. Si un titre
commence par a ou un chiffre, ils bénéficiaient d'une meilleure visibilité (le site sera
en haut de la liste).
Adoptez un titre concis et clair.
Évitez les titres du style : "Le meilleur site...", "Tout sur ce site..." Il ne vous
démarqueront pas des autres sites et seront souvent ignorés par les annuaires.
Évitez la répétition de mots. La plupart des moteurs et annuaires sanctionnent ce genre
de pratiques.
La balise :
<html>
<head>
<title>le titre</title>
</head>
<body>
Corps de la page
</body>
</html>
b. La description
La page principale doit aussi avoir une description.
La description est définit dans la balise <meta name="description">, dans "head". La
description ne doit pas excéder 200 caractères pour une bonne compréhension des moteurs de
Exposé MCSI
2003-2004
27
Webmaster
- 28 -
recherche. Par contre, utilisons ses 200 caractères au maximum, sans toutefois y répéter
entièrement le titre du site.
Exemple : Le guide complet du Webmaster : tout pour réaliser les pages Web, les trucs à
savoir, les outils, graphiques...
La balise :
<html>
<head>
<meta name="description" content="La description du site">
</head>
<body>
Corps de la page
</body>
</html>
c. Les mots clefs
Enfin, la page principale doit avoir des mots clefs, pour que le moteur de recherche puisse
l’indexer correctement.
Les mots clefs sont définis dans la balise <meta name="keywords">, dans "head". La balise
ne doit pas excéder 1000 caractères.
Exemple : webmaster,html,java,applet,référencement,hébergement,méta
Voici comment se présente le plan de votre page d'accueil :
<html>
<head>
<meta name="keywords" content="Les mots clefs séparés par une ,">
<meta name="description" content="La description">
<title>Le titre</title>
</head>
<body>
Corps de la page
</body>
</html>
La page Méta-tags permet de générer des balises META pour votre site.
d. Contrôle des robots
Il est également possible de définir des attributs s'adressant aux robots concernant l’indexation
des pages :




All : Le robot indexe tout (valeur par défaut).
Index : La page est indexée.
Noindex : La page n'est pas indexé.
None : Aucune indexation.
Exposé MCSI
2003-2004
28
Webmaster
- 29 -
On peut cumuler certaines valeurs avec celles-ci, comme dans l'exemple :


Follow : Le robot suit et index les liens vers les pages suivantes.
Nofollow : Le robot ne suit pas les liens et n'index donc pas les pages suivantes.
D'autres valeurs spécifiques à certains moteurs (ces valeurs sont reconnues par Altavista
notamment) sont possibles :


NoImageIndex : Empêche l'indexation des images de la page mais garde intact
l'indexation du texte.
NoImageClick : Empêche la liaison aux images, le lien se faisant sur la page contenant
les images.
Exemple :
<html>
<head>
<meta name="robots"content="index, follow">
</head>
<body>
Corps de la page
</body>
</html>
Une autre technique pour contrôler le mouvement des robots dans le site est l'utilisation du
fichier robots.txt.
2.2.1.2.2. Fichier robots.txt
Les grands moteurs scrutent inlassablement nuit et jour le Web à la recherche de nouveaux
sites afin de les indexer. Bien sûr, ils visiteront les innombrables nouveautés qu'on leur
propose tous les jours mais ils rechercheront aussi ceux qui n'ont pas demandé leur inscription.
Or, pour diverses raisons, il se peut que vous ne souhaitiez pas que votre site soit indexé et
que son contenu soit dévoilé au public internaute. C'est là qu'intervient le fichier robots.txt
qui contiendra les interdictions de visites entières ou partielles que nous y aurons indiquées.
En effet, les moteurs de recherche utilisent un robot, dénommé spider (araignée) ou crawler,
qui, lorsqu'il scrute un site nouveau ou un site proposé, va chercher en premier lieu ce fichier
qui doit se trouver à la racine du site. Si le site s'appelle "http://www.site.com/", le spider
examinera en premier lieu "http://www.site.com/robots.txt". S'il ne le trouve pas, il visitera et
indexera éventuellement toutes les pages. S'il le trouve, le spider se conformera aux
interdictions éventuelles.
Examinons maintenant le fichier robots.txt. Dans ce fichier, vous déterminez les droits
d'accès du site aux robots. Toutes les combinaisons sont possibles. On peut limiter l'accès à un
moteur en particulier, ou à tous, ou tous les laisser examiner les fichiers. On peut aussi
interdire l'accès d'un répertoire, d'une ou plusieurs pages pour chacun d'eux.
La réalisation, l'écriture du fichier robots.txt, se fait à l'aide du plus simple éditeur de texte
comme NotePad ; de cette façon, pas de rajout sauvage de codes invisibles. La syntaxe en est
Exposé MCSI
2003-2004
29
Webmaster
- 30 -
simple. La première ligne doit spécifier quels sont les moteurs autorisés :
User-agent: indique le nom du ou des moteurs autorisés à examiner le site.
User-agent: * indique que tous les moteurs sont autorisés à examiner le site.
User-agent: nom_du_robot indique le nom du robot du moteur.
Disallow: interdit soit un robot, un dossier, un fichier.
# indique une remarque non prise en compte par les robots.
/ / indique ce qui est interdit au robot entre ces signes.
|
| une ligne vide indique une nouvelle commande.
Prenons un exemple
simple :
User-agent: *
Disallow: /cgi-bin/
Disallow: /page.htm
Permet à tous les robots de visiter le site
Interdit à tous les robots de visiter le dossier cgi-bin
Interdit à tous les robots d'indexer la page page.htm
Interdit à tous les robots d'indexer la page page.htm qui se
Disallow: /perso/page.htm
trouve dans le dossier perso
Autres exemples :
Useragent: ArchitextSpider
Disallow: /
Précise le nom du robot. Ici, celui d'Exite.
Interdit au robot d'Exite la visite du site
Une ligne vide indique aux robots une nouvelle commande
Tous les robots sauf ArchitextSpider peuvent visiter le site
User-agent: *
Interdit à tous les robots d'indexer la page page.htm
Disallow: /page.htm
Une ligne vide indique aux robots une nouvelle commande
Présice le nom du robot. Ici, celui d'Altavista.
User-agent: Scooter/1.0
Interdit au robot d'Altavista de visiter le dossier /private/
Disallow: /private/
Interdit au robot d'Altavista de visiter la page page.htm
Disallow: /perso/page.htm
contenue dans le dossier /perso/
Une ligne vide indique aux robots une nouvelle commande
Ligne non prise en compte par les robots mais qui vous servant
# remarque
de pense-bête.
User-agent: * Tous les robots sont concernés
Disallow: / Tous le fichiers et dossiers sont interdits (à tous les robots)
- Il n'y a pas d'équivalant à Disallow (non autorisé) qui serait en anglais Allow. Tout ce qui
n'est pas marqué Disallow est considéré comme autorisé sauf dans le cas ci-dessous.
Useragent: ArchitextSpider
User-agent: Scooter/1.0
Allow: /perso/page.htm
Disallow: /perso
Exposé MCSI
Précise le nom du robot. Ici, celui d'Exite.
Précise le nom du robot. Ici, celui d'Altavista
Permet aux 2 robots de visiter la page page.htmr dans le dossier
/perso/
Interdit aux 2 robots le dossier /perso sauf la page contenue et
spécifié au-dessus.
2003-2004
30
Webmaster
- 31 -
Remarque :
- Respectez la casse (majuscule, minuscule) des ordres et de des fichiers Disallow et non
disallow - Mon_dossier et non mon_dossier - maPage.htm et non mapage.htm Scooter/1.0 et non scooter/1.0.
- L'écriture des ordres est Disallow: (sans espace entre Disallow et :), un espace entre
Disallow: et la suite.
- Attention, certains spiders ne respectent pas le protocole imposés par le fichier robots.txt. Si
on ne souhaite pas que le site soit visité par certains spiders, on doit en protéger l'accés par le
fichier .htaccess.
Le complément indispensable du fichier robots.txt sont les balises meta de l'en tête
<head> des pages HTML. Il faudra les renseigner obligatoirement.
L'une d'entre-elles se présente sous la forme : <meta name="robots" content="X, Y">
Dans laquelle X sera au choix index - ou - noindex
Dans laquelle Y sera au choix follow - ou - nofollow
index : le robot indexe la page
noindex : le robot n'indexe pas la page
follow : le robot suit tous les liens qu'il trouvera sur la page.
nofollow : le robot ne suit aucun lien présent dans la page.
On peut donc combiner toutes les possibilités :
<meta name="robots" content="index, follow">
<meta name="robots" content="index, nofollow">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
On peut remplacer noindex, nofollow par none
On peut remplacer index, follow par all
Renseignent ensuite la balise <meta name="revisit-after" content="XX days"> ou XX
indiquera au spider le nombre de jours avant qu'il ne revienne visiter le site. On Met 30 à
moins que nous ne traitions d'actualité journalière, il n'est pas nécessaire d'écourter ce chiffre,
les robots n'en tenant pas compte systématiquement.
Enfin, il faudra renseigner la balise <meta name="expires" content="never"> dans
laquelle never (jamais) indique la durée de vie de la page. Là aussi, on peut laisser cette balise
telle quelle à moins qu’on ne préférée mettre une date. En ce cas on doit l'écrire avec la
synthaxe anglo-saxonne :
<meta name="expires" content="Sun, 07 Aug 2005 08:21:57 GMT"> : cette page ne sera
plus disponible le dimanche 7 août 2005 à 8 heures 21, 57 secondes GMT
2.2.1.2.3. Générateur de Méta-tags
Un générateur de balises méta unique, très complet. Il permet entre autre d'insérer une
description et des mots clefs à un site, mais aussi d'ajouter des effets surprenants lors de
l'ouverture d'une page sur Internet Explorer (IE).
Exposé MCSI
2003-2004
31
Webmaster
- 32 -
Exemple
le nom de votre site : <META NAME="Title" CONTENT="Le monde de la glisse">
les mots clés : <META NAME="Keywords" CONTENT="sports de glisse, ski alpin, surf des neiges,
ski de fond, planche à voile, ski nautique">
la description de votre site : <META NAME="Description" CONTENT="Tous les sports de glisse:
de la montagne à la mer">
le sujet de votre site : <META NAME="Subject" CONTENT="Les sports de glisse">
le nom de l’auteur : <META NAME="Author" CONTENT="Thierry Durand">
la langue de votre site : <META NAME="Language" CONTENT="français">
les mises à jour de votre site : <META NAME="Revisit-After" CONTENT="7 days">
ce que doit faire le robot : <META NAME="Robot" CONTENT="index, follow"> (ici vous indiquez
au robot qu'il doit indexer la page et qu’il doit suivre les liens présents sur la page)
Cela donnera au final:
<head>
<METANAME="Title" CONTENT="Le monde de la glisse">
<META NAME="Keywords" CONTENT="sports de glisse, ski alpin, surf des neiges, ski de fond, planche à
voile, ski nautique">
<META NAME="Description" CONTENT="Tous les sports de glisse: de la montagne à la mer">
<META NAME="Subject" CONTENT="Les sports de glisse">
<META NAME="Author" CONTENT="Thierry Durand">
<META NAME="Language" CONTENT="français">
<META NAME="Revisit-After" CONTENT="7 days">
<META NAME="Robot" CONTENT="index, follow">
</head>
2.2.2. Référencement assisté
2.2.2.1. Services de référencement gratuits
Quelques adresses de sites proposant un service de référencement.









Webmasterplan : Un site intéressant proposant de nombreux services gratuits pour les
concepteurs de sites, dont une offre de référencement gratuit.
Net-Ads : Il permet de faire indexer son site sur des moteurs de recherches ; ce site
s'occupe aussi de bannières de publicités.
Submit Now Fr : Ce site vous permet de vous faire référencer sur une trentaine de
moteurs de recherche francophone.
Promo Web : Référencement francophone et anglophone.
Brioude : Référencement dans 20 annuaires et moteurs de recherche français et 40
internationaux.
Ineedhits : Référencement dans 23 moteurs.
Site Owner : Référencement dans 7 moteurs + vérification de votre site (balises méta
et position par exemple).
Submit It : Référencement dans 20 moteurs.
Référencement 2000 : Référencement dans 60 moteurs + autres services pour
optimiser votre site.
Exposé MCSI
2003-2004
32
Webmaster
- 33 -
2.2.2.2. Programmes spécialisés
Il existe de nombreux programmes permettant de référencer un site automatiquement dans
plusieurs centaines, voir millier de moteurs, annuaires ou sites de liens. Certains programmes
comme AddWeb annoncent même un référencement dans plus de 30 000 sites !!!
Les chiffres pourraient laisser rêveur : les 30 000 sites ayant un lien vers le site (annuaire ou
moteur où le site est indexé), même s'il sont très peut connu et visité, disons 10 visites par
jours en moyenne, ça nous fait 300 000 visiteurs potentiels directement reliés à le site via au
moins un lien. Il nous suffit de faire une division. Avec 0,1% des visiteurs qui trouveront
effectivement le site après une recherche dans ces 30 000 sites, ça nous fait donc 300 visites
quotidiennes.



AddWeb : Prétend indexer votre site dans 30 000 autres... ça reste à voir, mais bon.
Ce programme reste néanmoins un bon logiciel d'indexation, très complet.
SubmitWolf : Indexation dans plus de 3000 sites. Il permet une bonne gestion de
l'indexation en indiquant les réussites, les échecs, les sites en attentes... autre avantage :
ce logiciel est en français et permet une sélection uniquement des sites francophones.
The Spider : Indexation dans 1000 sites. Ce programme reste assez rudimentaire
par rapport aux deux autres, mais permet néanmoins de sélectionner une catégorie
pour chaque site, un part un !
2.2.2.3. Les annuaires
Le référencement de votre site dans un annuaire est différent que dans un moteur de
recherche : un annuaire ne se base pas sur les balises Méta-tags pour le référencement. Il faut
en fait inscrire manuellement son site, la plupart du temps en remplissant un formulaire ; et
l'annuaire se chargera d'aller voir votre site et de l'indexer (contrairement aux moteurs de
recherches, se sont des personnes humaines qui visitent votre site avant de l'indexer, donc
méfiance).
Il faut quand même dire que les annuaires sont en général beaucoup moins complets que les
moteurs de recherche en ce qui concerne le nombre de sites indexés. Mais vous risquerez plus
facilement d'y trouver votre bonheur.
Il faut préciser qu'en se faisant indexer par Yahoo, vous risquerez d'avoir un revenu de
visiteurs bien plus important que en faisant référencer votre site dans n'importe quel moteur
de recherche...
2.2.3. Autres méthodes de promotion
2.2.3.1. Une newsletter pour le site
Une newsletter, une "lettre d'information" est en fait un mail que vous publipostez dans le but
d'informer les abonnés, les visiteurs, les membres. Chez les webmasters, c'est un moyen de
communication répandu pour récapituler l'activité et l'évolution de son site.
Exposé MCSI
2003-2004
33
Webmaster
- 34 -
a. Pour quoi faire ?
Une newsletter a tout d'abord fonction d'informer l'internaute de l'évolution et de la vie de site
lui-même, son actualité, de prévenir de ses nouveautés, bref lui donner envie de revenir ! Une
lettre d'information va ramener des visiteurs vers le site...
Par ailleurs, une newsletter est le moyen d'instruire les internautes sur le sujet dont traite un
site... Il peut donc s'agir de l'actualité de ce thème ou d'un thème plus général. Le but est alors
de montrer les compétences et d'échanger sur le sujet...
b. Un outil publicitaire de promotion
Lorsque une lettre d'information commence à cumuler un nombre intéressant d'abonnés,
vendre de l'espace. Entre deux articles, on insérons un message publicitaire pour un sponsor et
on peut mettre en place une partie "annonces" et vendre l'affichage de celles-ci au sein de
newsletter. A ce niveau là, plus le nombre d'abonnés va être important, plus on peut vendre
des annonces dans une lettre. Si il n’y a pas assez de membres, on peut malgré tout insérer des
liens publicitaires les bannières (affiliation, régies)... Cela peut donc être très rémunérateur.
c. La mise en page
Il existe deux types de format : le format texte brut et le format HTML. Comme aujourd'hui
les principaux logiciels (Aol, Outlook, Eudora...) de messageries reconnaissent le format
HTML, on recommande donc d'envoyer les newsletter à ce format. La lettre d'information
devient ainsi une vraie page Web attractive. Attention, si l'aspect graphique n'est donc pas à
négliger, l'important est avant tout dans le contenu des informations diffusées. N'oubliez
jamais qu'une newsletter est jugée sur son sérieux (le contenu), sa régularité, sa sobriété : la
sanction en cas contraire est le désabonnement !
d. Conclusion
Une newsletter n'est pas seulement un simple mail, c'est aussi un outil essentiel de promotion
et un support d'information qui peut se révéler rémunérateur, un outil stratégique.
2.2.3.2. Les bannières
a. Comment faire une bannière
1) Les dimensions
Pour faire une bannière, vous devez avant tout respecter des dimensions, qui se standardisées
au cours du temps. Voici une liste des dimensions possibles pour votre bannière :
Dimensions Utilisation
Exposé MCSI
580x60
La plus grande dimension
468x60
Bannière complète
400x60
Dimensions standards
234x60
Demi-bannière
2003-2004
34
Webmaster
- 35 -
La dimension la plus utilisée est sans doute 468x60, puis 400x60.
2) Le format
Pour le format d'une bannière, on a le choix entre GIF et JPEG. A noter que le format
prédominant est le GIF, d'autant plus que beaucoup de bannières sont animées, ce qui est
possible uniquement avec le format GIF.
Faire une belle bannière, c'est bien, mais qu'elle prennent pas beaucoup de place, c'est encore
mieux ! Celle-ci ne doit pas dépasser les 10 à 12 Ko pour un affichage optimal. D'autant plus
que certains services d'échange de bannières n'acceptent que les GIF de moins de 12 Ko.
b. Modèles de bannières
Ces bannières proviennent de Freegaia.com.
Voici quelques modèles de bannières qu’on peut utiliser :
2.3. Optimisation
2.3.1. Optimisation des images
Pourquoi optimiser ?
Cette question n’est pas étonnante lorsqu’on veut diminuer la taille de fichiers conçus pour
qu’ils soient diffusés sur une page Web.
Pour cela, on utilise différents logiciels qui offre la possibilité d’optimiser des objets
graphiques, en tenant compte bien sur de la qualité de ces derniers et de l’intérêt de leurs
utilisations.
2.3.1.1. Types d’images
Les images informatiques se repartissent en deux catégories : images bitmap et images
vectorielles.
Exposé MCSI
2003-2004
35
Webmaster
- 36 -
a. Images bitmap
Les images bitmap dépendent de la résolution. Elles sont constituées d’un nombre fini de
pixels. C’est pourquoi elles peuvent avoir un aspect dentelé quand on les agrandit ou quand
elles sont imprimées à basse résolution.
Les images Bitmap sont idéales pour représenter de subtils dégradés de teintes et de couleurs,
par exemple, dans des photographies ou des images peintes. Ainsi, une roue de vélo
représentée dans une image bitmap est composée d’une mosaïque de pixels arrangés en cercle.
En manipulant une image bitmap, on édite des pixels plutôt que des formes ou des objets.
b. Images vectorielles
Les programmes de dessin, comme Adobe Illustrator, créent des graphiques vectoriels,
composés de lignes et de courbes, définies par des objets mathématiques appelés vecteurs. Les
vecteurs décrivent les objets par leurs caractéristiques géométriques.
Pour reprendre l’exemple précédent, dans un espace vectoriel, une roue de vélo est composée
d’un cercle d’un rayon donné, placé a un endroit spécifique et rempli d’une couleur
particulière. Vous pouvez le déplacer, le réduire, le re-dimensionner ou modifier sa couleur
sans perdre en qualité.
Les images vectorielles ne sont pas définies par un nombre fixe de pixels et, de ce fait, sont
automatiquement mises à l’échelle, de façon à apparaître très nettes sur n’importe quel
périphérique de sortie, quelle que soit sa résolution. Elles sont donc parfaitement adaptées à la
création de textes, de titres ou de logos qui doivent rester très nets à toutes les échelles.
Toutefois, les écrans informatiques étant constitués d’une grille de pixels, les images
vectorielles comme les images bitmap s’affichent sous forme de pixels.
2.3.1.2. Les outils d’optimisation
Il existe plusieurs logiciels qui ont la possibilité d’optimiser les images, prenant comme
exemple « Fireworks » qu’il a deux manières d’optimiser
a. Aperçu direct
Il permet d’optimiser la taille et la qualité de l’image grâce aux onglets d’aperçu du document
Fireworks. Ainsi, on disposera d’un affichage en grandeur réelle de l’original.
Les paramètres de compression GIF sont pris par défaut de Fireworks qui permet de faire une
comparaison de format de d’apparition, le nombre de couleurs…etc.
Exposé MCSI
2003-2004
36
Webmaster
- 37 -
b. Aperçu avant exportation
Il permet de définir certains paramètres d’optimisation et laisse le choix à l’utilisateur, afin
qu’il décide de la bonne qualité de l’image avant l’exportation. Il lui permet de l’affiner ou de
lui attribuer les meilleurs paramètres.
2.3.2. Optimisation de code HTML
Même si on optimise avant tout ses images (gif et jpeg) et ses animations (gifs animés ou
Flash), la plupart du temps, par le biais de réduction des couleurs, on oublie de nettoyer et
optimiser son code HTML...
Et pourtant on peut réaliser jusqu'à 20% de gain en terme d'optimisation, ce qui se traduit par
une lecture plus facile de vos pages, un code compact et "propre" et surtout un site plus rapide
à charger...
Exposé MCSI
2003-2004
37
Webmaster
- 38 -
2.3.2.1. Optimisation automatique
Ci-dessous un code HTML non optimisé (premier cas) et celui optimisé et compacté par
HTML Shrinker (deuxième cas)
Fiche Téléchargement : HTML Shrinker
De nombreux logiciels optimisent et nettoient le code HTML, en réalisant automatiquement
les étapes ci-dessus. HTML Shrinker, qui excelle dans ce domaine et allège considérablement
les pages HTML (jusqu'à 30 % !!).
Exposé MCSI
2003-2004
38
Webmaster
- 39 -
Note : Dreamweaver, Golive, WebExpert, ou encore 1-4 ALL possède également une option
de compactage / nettoyage des pages (attention tout de même à garder une copie des pages
avant compression !).
2.3.2.2. Optimisation manuelle
Tout dépend avec quel éditeur vous avez édité vos pages. Pour ne prendre aucun risque,
ouvrez vos fichiers avec le bloc note (ou tout éditeur de texte) et vérifier (puis corriger) cidessous les différents cas.
a) Balise vide
Tous les éditeurs WYSIWYG (What You See Is What You Get : tel écran, tel écrit) ont une
fâcheuse tendance à insérer des balises sans contenu...
<center></center>
b) Balise en double : Le cas de la balise <font> est le plus fréquenté. Nombreux éditeurs
(FrontPage Express est le spécialiste !) "doublent" cette balise sans aucune raison.
<font color="#ff0000">< font color ="#ff0000">Texte</font></font>
c) Balise inutile
Certains éditeurs insèrent des commentaires que l'on peut supprimer sans aucune conséquence.
<!-- Generated by Microsoft FrontPageExpress -->
d ) Espace et tabulation
Supprimez les espaces et tabulations (plus difficile à cerner) qui alourdissent vos pages Web.
2.3.3. Personnaliser la page d’erreur 404
La page d'erreur 404 apparaît lorsqu'une page n'est pas accessible, le plus souvent parce
qu'elle n'existe plus. Cette erreur, très fréquente, est l'ennemie jurée des Webmasters.
Il existe cependant une manière de personnaliser celle-ci, pour une meilleure présentation se
fondant avec le reste de votre site, mais aussi, plus subtil, c'est elle qui va vous avertir qu'un
lien est mort sur votre site et sur quelle page !
A noter que votre hébergeur doit supporter cette technique.
Deux pages composent l'erreur, ".htaccess" qui appelle "erreur404.html", toutes les deux
placées à la racine du site.
erreur404.html
Vous pouvez personnaliser cette page comme n'importe quelle autre, à condition de respecter
une seule règle : tous les liens qui composeront votre pages doivent être absolus, c'est à dire
avec un http://www.serveur.com/votresite/.
Exposé MCSI
2003-2004
39
Webmaster
- 40 -
Je vais vous proposer ici un petit script vous permettant de connaître la page sur laquelle se
trouve le lien défectueux, vous permettant ainsi de trouver l'erreur en un rien de temps...
Pour cela, vous devez avant tout vous inscrire sur DevParadise pour bénéficier d'un
formulaire CGI. Une fois sur le site allez dans "Outils gratuits" puis "Mailto". Là, il vous
suffit de vous inscrire.
<meta http-equiv="refresh" content="5; URL=http://www.serveur.com/votre_identifiant">
<form name="msg" method="POST" action="http://www.devparadise.com/cgibin/mailto.pl">
<input type="hidden" name="ID" value="10238">
<input type="hidden" name="sujet" value="Lien mort">
<input type="hidden" name="message" value=" ">
<input type="hidden" name="url" value="http://www.serveur.com/votre_identifiant">
<input type="hidden" name="mailfrom" size="40" value="[email protected]">
</form>
<script language="JavaScript"><!-var mess = document.referrer
msg.message.value = mess;
document.msg.submit();
//--></script>
Explications :



10238 : C'est votre numéro ID de votre compte DevParadise.
http://www.serveur.com/votre_identifiant : C'est l'URL de la page de redirection, après
l'envoie du formulaire.
[email protected] : C'est l'adresse mail à partir de laquelle vous envoyez les
données. Celle-ci n'a pas besoin d'exister, mais le formulaire ne peut être envoyé sans
adresse mail.
Sous Netscape, le formulaire ne sera pas envoyé automatiquement, c'est pourquoi la balise
META Refresh permet quand même la redirection vers une autre page.
.htaccess
Cette page doit se nommer strictement .htaccess, le point étant le premier caractère du fichier.
Ne prenez pas .htaccess comme une extension.
Ce fichier doit contenir uniquement la ligne qui suit et rien d'autre (oubliez
<html><head><body>...)
ErrorDocument 404 /votre_identifiant/erreur404.html
Exposé MCSI
2003-2004
40
Webmaster
- 41 -
Remplacez votre_identifiant par le nom du site (le pseudo en général).
N'oubliez pas de placer ces deux fichiers à la racine du site, et de les mettre en ligne !
Cette ligne dans le fichier .htaccess peut changer selon les hébergeurs. Sous Free par
exemple, la syntaxe sera :
ErrorDocument 404 /erreur404.html
ou
ErrorDocument 404 http://votre_identifiant.free.fr
2.4. Surveillez le succès de site Web
2.4.1. Créer un sondage
Vous avez sûrement déjà envisagé la possibilité de faire un sondage sur votre site non ? Si
vous ne voyez pas trop en quoi cela consiste, vous pouvez vous rendre sur la page "Sondage"
de ce site pour participer à notre sondage.
Sur Internet, il existe plusieurs services proposant des sondages à placer sur votre site... en
voici quelques uns :
Pour Ou Contre
Voici sans doute un des meilleurs services de sondage, proposant de multiples avantages :





Sondages entièrement personnalisables : choix des couleurs, intégration de
votre logo et votre fond d'écran.
Un seul vote par visite.
Multiquestions : boutons radio, cases à cocher, listes déroutantes, jusqu'à 10
réponses par question ...
Référencement de votre site dans l'annuaire des sondages.
Jusqu'à 4 sondages simultanés par inscription.
En bref, ce service est excellent, le design est également au rendez-vous et un annuaire global
rassemble tous les sondages...
Interface personnalisable, design, sérieux
(aspect professionnel)
Pas grande chose à signaler...
Yoorz
Ce service permet de créer facilement et rapidement un sondage, pratique et simple.
Exposé MCSI
2003-2004
41
Webmaster







- 42 5 questions possibles par E-mail.
5 réponses possibles par question.
La couleur du sondage, la taille et la police des caractères est personnalisables.
Un seul vote par visiteurs.
Possibilité d'afficher un message après chaque réponse
Statistiques instantanées avec nombre de réponses à la question
Affichage des sondages par fenêtre Pop-up.
Interface personnalisable, poser ses question
par E-mail.
Le design du site laisse à désirer...
2.4.2. Les autres techniques
a. positionnement
Assurez que les pages arrivent aux premières places des moteurs de recherche.
b. Analyse de popularité
Combien de sites ont créé un hyperlien vers le site Web.
c. Analyse des liens
Contrôle la validité des hyperliens des pages.
2.5. Sécurité de site Web
2.5.1. Problèmes liés à la sécurité
2.5.1.1. La publicité piratée
Beaucoup d'organisations (au sens large) ouvrent un site Web pour avoir une sorte de vitrine
sur l'Internet où elles peuvent exposer leurs produits, activités, etc ... Une nouvelle sorte de
piratage consiste à entrer illégalement sur le serveur Web et à modifier les pages existantes.
C'est un peu comme entrer dans un magasin et changer les choses exposées. Dans tous les cas,
quand un site est piraté, la nouvelle page remplacée n'est pas pour promouvoir l'activité du
propriétaire. Plusieurs exemples suivent pour illustrer ce nouveau problème.
a. Les administrations américaines
- Le 29 décembre 1996, un hacker a attaqué un site Web de l'US Air Force et a remplacé la
page principale par des images à caractère pornographique. Le résultat a été que le
"DefenseLINK" du pentagone, qui inclue environ 80 homepages, a été débranché pendant
plus de 24 heures pour que les officiels s'assurent qu'il n'y avait pas d'autres brèches de
sécurité sur le système.
Cette attaque a abîmé l'image de l'US Air Force en montrant que ses systèmes informatiques
n'étaient pas vraiment sûrs. De plus, cette administration a dépensé une somme d'argent non
négligeable pour vérifier l'intégrité de ses fichiers.
Exposé MCSI
2003-2004
42
Webmaster
- 43 -
- Une autre attaque de site Web assez récente s'est produite le 5 mars 1997 où la page
principale de la NASA (National Aeronautics and Space Administration) a été piratée et le
contenu changé. Les hackers l'ont remplacée par une nouvelle page exprimant des critiques
sur les institutions américaines. (Site Web de la NASA: http://www.hq.nasa.gov)
- Pendant l'été 1996, des hackers se sont introduits sur le serveur Web de l'US Justice
Department en plaçant des croix gammées et des images d'Adolf Hitler qu'ils considérait au
même titre que le département de la justice américaine. Ils voulaient protester contre la
position du gouvernement américain à contrôler l'Internet.
Les principales attaques sont dirigées vers les institutions américaines dans lesquelles les
pirates voient une proie intéressante pour discréditer le gouvernement américain.
Toutefois, il est important de signaler que les médias qui relaient ce type d'information ne font
pas suivre le message des pirates mais au contraire les font passer pour des délinquants. La
valeur de leur message en est donc occultée contrairement aux exemples que nous allons voir
ci-dessous.
b. Les autres organisations:
- Le 10 février 1997 et encore le 14 février 1997, des hackers portugais ont lancé une attaque
politique sur la page Web du gouvernement indonésien en insistant que ce pays continuait une
oppression sur le Timor Est. Ils voulaient attirer l'attention sur la nécessité de l'indépendance
du peuple du Timor oppressé depuis des décades par le gouvernement d'Indonésie.
- Le site des fourrures Kriegsman fut attaqué en novembre 1996 par un activiste anti-fourrure.
La nouvelle page bien évidemment ne promouvait pas cette entreprise.
Nous avons ici deux exemples de sites Web piratés par des hackers pour défendre une cause.
Le geste est le même que pour les exemples de la partie précédente mais la porté médiatique
en est multipliée. Ce qui montre que la sécurité d'un site Web n'est pas à prendre à la légère
notamment pour les entreprises.
2.5.1.2. L'espionnage industriel et militaire
De nos jours, une grande majorité des serveurs Internet appartiennent aux entreprises.
Beaucoup de compagnies en profite pour utiliser l'Internet comme réseau de transmission de
données intra entreprise. Il y a un grand nombre d'exemples de serveurs Internet d'entreprise
hackés.
Un bon exemple est le serveur de Boeing où il y a quelques années, deux collégiens étaient
rentrés en effraction dans un des ordinateurs de la compagnie afin de rechercher des fichiers
de mots de passe. De plus, Boeing a trouvé l'évidence que les hackers ont obtenu l'accès
"root" à la maison fédérale de Seattle. Le département de justice américaine avait dit que cela
Exposé MCSI
2003-2004
43
Webmaster
- 44 -
était une situation classique dans laquelle les pirates peuvent influer sur les coûts de
production. En effet, les pirates ont très bien pu voler certains fichiers secrets et les distribuer
sur l’Internet ou à des compagnies rivales. Après que le cas fut fini, il couta à Boeing 57.000
Dollars simplement pour vérifier l'intégrité de ses données d'avioniques.
En réalité, le principal risque est le vol de données confidentielles, mais il y a aussi un autre
risque, c'est le risque de données modifiées. En effet, le pirate peut très bien changer les
données actuelles par de fausses. Alors, l'entreprise travaillerait avec des informations altérées
et pourrait produire des résultats erronés sans s'en rendre compte. C'est pourquoi Boeing
dépensa tant d'argent pour vérifier toute l'intégrité de ses données.
Un autre exemple en 1987, une petite erreur comptable de 75 cents révella qu'un intrus s'était
ouvert lui-même un compte dans le système informatique du laboratoire "Lawrence Berkeley".
Les traces du compte provenaient d'un programmeur d'Allemagne de l'est qui avait copié des
documents des ordinateurs militaires attachés à MILNET (Le segment Internet réservé pour
les utilisations militaires). Les documents furent vendus au KGB.
Le groupe Gartner William Malik (Célèbre groupe d'avocats américains) affirme que un de
ses clients, une très grande compagnie de produits manufacturés, a perdu 900 millions de
dollars parce que un de ses concurrents avait pirater plusieurs ordinateurs de l'entreprise et
avait tout appris sur ses projets.
Les exemples de cette sorte sont abondants dans le monde de l'Internet. Toutefois, un grand
nombre d'attaques ne sont pas rapportées au public parce qu'elles pourraient porter atteinte à
la compagnie ou bien parce qu'elles ne sont pas détectées par l'administrateur réseau de
l'entreprise.
2.5.1.3. L'intégrité du commerce
La sécurité des cartes de crédit est un des principaux enjeux de la sécurité sur Internet à cause
de l'énorme potentiel de ce nouveau commerce mondial qui se développe à une vitesse
impressionnante. Tout cela laisse évidemment une grande place à la fraude des cartes de
crédit.
Il y a un grand nombre de magasins virtuels sur l'Internet qui vendent des livres, des
composants d'ordinateurs, des vêtements, etc ... Tous ces magasins virtuels utilisent la
méthode de paiement par carte de crédit. Ce qui signifie que le consommateur envoie son
numéro de carte de crédit au magasin virtuel qui alors débite le montant du compte bancaire
propriétaire de la carte de crédit. Mais il y a deux problèmes. Premièrement, la transmission
du numéro de carte de crédit peut être interceptée par une tierce personne sans l'accord, bien
évidemment, ni du marchant et ni du consommateur. Deuxièmement, une majorité de ces sites
commerciaux ne sont pas sécurisés. Même si la transmission du numéro de carte de crédit à
travers l'Internet est sûr, les moyens de le stocker sur le serveur ne le sont pas forcément. Les
fichiers de numéros de cartes de crédit dans la base de données d'une entreprise peuvent être
piratés. Plusieurs compagnies spécialisées dans le commerce sur Internet ont déjà été hackées
à la recherche des fichiers clients de numéros de carte de crédit.
Exposé MCSI
2003-2004
44
Webmaster
- 45 -
Par exemple, le fournisseur d'accès Internet Netcom de San Jose (Californie, USA) en a déjà
subit les conséquences. Et le célèbre hacker Kevin Mitnick avait volé environ 17.000 numéros
de cartes de crédit avant de se faire capturer par des détectives hi-tech.
Pendant que le commerce sur l'Internet devient un marché de plusieurs centaines de millions
de francs, cela devient aussi une grande problématique en terme de sécurité pour les échanges
commerciaux entre les clients et les marchants.
2.5.1.4. La mise hors service des serveurs
Les serveurs fournissant des services basés sur le protocole TCP (WWW, email, newsgroup,
gopher, telnet, etc ...) à la communauté Internet peuvent devenir incapable de fournir ses
services lorsqu'ils sont sous le coup d'une attaque et même pendant un certain temps après
cette dernière. Le service en lui même n'est pas endommagé par l'attaque; généralement
seulement la capacité à fournir ce service est mis hors service. Dans certains cas, le système
va jusqu'à épuiser toutes ses ressources mémoire, crasher ou sinon devenir inopérant. Ces
attaques bloquent le système temporairement, donc durant ce temps inutilisé, la compagnie
propriétaire du système peut perdre de l'argent notamment si le service proposé est un service
de vente par Internet.
Une description de ces types d'attaques se trouve dans le chapitre suivant.
Premièrement, il est intéressant de se pencher sur le système de fichiers réseau, tout
particulièrement parce que c’est par ce système de fichiers que sont gérés les accès aux
fichiers personnels ou communs et que c’est par lui que se joue la sécurité d’un réseau.
2.5.2. Les types d'attaques
2.5.2.1. Le système de fichiers en réseau
A chaque fois qu’un utilisateur fait une requête pour accéder à un fichier, le système
d’exploitation décide si oui ou non l’utilisateur au droit d’accéder au fichier en question.
Le système d’exploitation prend une décision basée sur qui est le propriétaire du fichier, qui
demande à accéder au fichier et quelles permissions d’accès le propriétaire a mis. Les
permissions d’accès déterminent qui aura accès au fichier.
Il y a deux principales raisons pour que l’on protège ses fichiers des autres utilisateurs. La
première raison est que l’on peut souhaiter protéger le contenu de ses fichiers des autres
utilisateurs. On peut considérer le contenu du fichier comme privé et on ne veut pas que les
autres utilisateurs soient capables de lire ou de modifier le contenu du fichier. La seconde
raison est que si des tierces personnes peuvent modifier des fichiers, elles peuvent aussi
obtenir l’accès au compte. Par exemple, si un utilisateur malintentionné a l’accès “écriture”
dans le répertoire racine, il peut alors créer ou modifier le fichier “.rhost“ (sous UNIX) qui
donne un accès illimité à n’importe qui au compte. Il va sans dire, comme l’utilisateur est
responsable de son compte, que tous les “dégâts“ engendrés sont sous sa responsabilité directe.
Exposé MCSI
2003-2004
45
Webmaster
- 46 -
Le principal but pour une personne qui cherche à s’introduire dans un système est d’obtenir
l’accès administrateur (root). Cet accès permet à la personne de faire tout ce qu’elle désire sur
un système, elle peut effacer, modifier ou ajouter de nouveaux fichiers. La plus part des
intrusions où le hacker obtient l’accès administrateur commencent quand l’intrus pénètre dans
un compte utilisateur normal. Une fois sur la machine en tant qu’utilisateur sans privilège
particulier, le hacker peut alors lancer une attaque pour obtenir l'accès "super utilisateur" sur
la machine en utilisant un trou de sécurité dans le système d’exploitation.
2.5.2.2. Le social engineering
C’est un terme utilisé permis les hackers pour une technique d’intrusion sur un système qui
repose sur les points faibles des personnes qui sont en relation avec un système informatique
plutôt que sur le logiciel. Le but est de piéger les gens en leur faisant révéler leur mot de passe
ou toute autre information qui pourrait compromettre la sécurité du système informatique.
Le piège classique est de faire croire aux utilisateurs du système que leur mot de passe est
demandé d’urgence par le ou les techniciens. Le hacker mentionnera qu’il a besoin du mot de
passe pour d’importants travaux d’administration du système et il demandera à se qu’on lui
envoie le mot de passe par mail. Il faut savoir, comme nous le verrons plus loin, qu’il est
possible pour le hacker de créer un e-mail faisant croire qu’il provient de quelqu’un que l’on
croit être le légitime administrateur réseau. Souvent, le hacker enverra le message à tous les
utilisateurs du système en espérant que plusieurs utilisateurs tomberont dans le piège. Bien
évidemment si la ruse se déroule par téléphone, le hacker imitera la voix du technicien.
Une autre forme de social engineering va jusqu’à deviner le mot de passe d’un utilisateur. Les
gens qui peuvent trouver des informations sur un utilisateur, peuvent utiliser ces informations
pour deviner le mot de passe de ce dernier. Par exemple, le prénom de ses enfants, leur date
de naissance ou bien encore la plaque d’immatriculation de sa voiture est tout à fait candidat à
être des mots de passe. Les hackers peuvent aller très loin pour deviner les mots de passe.
2.5.2.3. Le « crackage » de mot de passe
Les mots de passe sont très important parce qu’ils sont la première ligne de défense contre les
attaques sur un système. Ceci peut être établit simplement : si un hacker ne peut pas interagir
sur un système distant et qu’il ne peut pas ni lire ni écrire dans le fichier des mots de passe
alors il n’a quasiment aucune chance de développer une attaque couronnée de succès sur ce
système. C’est également pourquoi, si un hacker peut au moins lire le fichier des mots de
passe sur un ordinateur distant, il aura aussi la possibilité de cracker un des mots de passe
contenu dans ce fichier. Si il en parvient, alors on peut penser qu’il pourra se connecter sur ce
système et qu’il pourra s’introduire en tant qu’administrateur en passant par un trou de
sécurité dans le système d’exploitation.
La manière la plus classique qu’un hacker va essayer d’obtenir un mot de passe est par
l’intermédiaire d’une attaque avec un dictionnaire. Dans ce genre d’attaque, le hacker utilise
un dictionnaire de mots et de noms propres, et il les essaie un à un pour vérifier si le mot de
passe est valide. Bien évidemment, ces attaques ne se font pas « à la main », mais avec des
Exposé MCSI
2003-2004
46
Webmaster
- 47 -
programmes qui peuvent deviner des centaines voire des milliers de mots de passe à la
seconde. Ce procédé est d’autant plus facile, qu’il lui permet de tester des variations sur ces
mots : mots écrits à l’envers, majuscules et minuscules dans le mot, ajout de chiffres à la fin
du mot, etc ... De plus la communauté des hackers a construit de gros dictionnaires
spécialement conçus pour cracker les mots de passe. En utilisant des mots de langues
étrangères, ou des noms de choses, de personnes ou encore de villes, n’est d’aucun effet
contre ces dictionnaires. Le plus connu des programmes utilisés pour cracker les mots de
passe est « Crack4.1 » avec son dictionnaire de 50 000 mots.
2.5.2.4. Le « sniffing » des mots de passe et des paquets
Si un hacker ne peut pas deviner un mot de passe, alors il a d’autres outils pour l’obtenir. Une
façon qui est devenue assez populaire est le « sniffing » de mots de passe. La plus part des
réseaux utilisent la technologie de « broadcasting » ce qui signifie que chaque message (ou
paquet) qu’un ordinateur transmet sur un réseau peut être lu par n’importe quel ordinateur
situé sur le réseau. En pratique, tous les ordinateurs sauf le destinataire du message vont
s’apercevoir que le message n’est pas destiné pour eux et vont donc l’ignorer. Mais par contre,
beaucoup d’ordinateurs peuvent être programmés pour regarder chaque message qui traverse
le réseau. Si une personne mal intentionnée fait ceci, alors elle pourra regarder les messages
qui ne lui sont pas destinés.
Les hackers ont des programmes qui utilisent ce procédé et qui scannent tous les messages qui
circulent sur le réseau en repérant les mots de passe. Si quelqu’un se connecte sur un
ordinateur à travers un réseau et que des ordinateurs ont été compromis par le procédé de
sniffing, alors cette personne risque contre son gré de donner son mot de passe. C’est
pourquoi il existe une menace sérieuse pour les personnes qui se connectent sur des
ordinateurs distants (par exemple en utilisant Telnet). Toutefois, si quelqu’un se connecte sur
la console d’un système (et non pas sur un terminal), son mot de passe ne circulera pas sur le
réseau ou il pourrait faire l’objet d’un sniffing. Mais si une personne se connecte sur un autre
réseau ou à partir d’un prestataire de service Internet, alors dans ce cas elle sera dépendante de
la sécurité de ces réseaux. Les programmes de sniffing les plus connus sont :
- Esniff.c (programme source pour un sniffer ethernet)
- TCPDump
2.5.2.5. L’IP spoofing
L’adresse IP d’un ordinateur est l’adresse qui est utilisée pour reconnaître un ordinateur sur
Internet. Elle est présumée valide lorsqu’elle est certifiée par les services TCP et UDP. Un des
principaux problèmes est que en utilisant le routage source d’IP, l’ordinateur du hacker peut
se faire croire comme étant un ordinateur connu. Brièvement, le routage source d’IP est une
option qui peut être utilisée pour spécifier une route directe à une destination et renvoyer le
chemin de retour à l’expéditeur. La route peut inclure l’utilisation d’autres routeurs ou de
serveur qui n’aurait normalement pas été utilisés pour faire suivre les paquets à la destination
finale. Voici un exemple qui montre comment ceci peut être utilisé de telle façon que
l’ordinateur de l’intrus apparaisse comme étant l’ordinateur certifié par le serveur :
- L’agresseur change l’adresse IP de son ordinateur pour faire croire qu’il est un client certifié
par le serveur
- Il va ensuite construire une route source jusqu’au serveur qui spécifiera le chemin de retour
direct que les paquets IP devront prendre pour aller au serveur et qu’ils devront prendre pour
Exposé MCSI
2003-2004
47
Webmaster
- 48 -
retourner à l’ordinateur de l’agresseur en utilisant le client certifié comme dernière étape dans
la route vers le serveur.
- L’agresseur envoie une requête client au serveur en utilisant la route source.
- Le serveur accepte la requête du client comme si elle provenait directement du client certifié
et retourne une réponse au client.
- Le client, utilisant la route source, fait suivre le paquet à l’ordinateur de l’agresseur.
Beaucoup de machine de type UNIX accepte les paquets de route source et les redirigent
comme la route source l’indique. Beaucoup de routeurs acceptent également les paquets de
route source bien que certains d’entre eux peuvent être configuré pour bloquer ces paquets.
Une autre manière encore plus simple pour « spoofer » un client est d’attendre que le système
client ait éteint sa machine et de se faire passer ensuite passer pour ce dernier. Dans beaucoup
d’entreprises, les employés utilisent des PC’s et des réseaux TCP/IP pour se connecter sur des
serveurs locaux UNIX. Les PC’s utilisent souvent NFS pour obtenir un accès aux répertoires
et aux fichiers du serveur (NFS utilise les adresses IP uniquement pour authentifier les clients).
Un intrus pourrait configurer un PC avec le même nom et la même adresse IP qu’un autre
ordinateur, et alors essayer de lancer des connexions au serveur UNIX comme si il était le «
vrai » client. Ceci est très simple à réaliser et ressemblerait à une attaque de l’intérieur.
Les courriers électroniques sur Internet sont particulièrement sujets au spoofing car très facile
à réaliser. Les courriers électroniques sans l’ajout d’une signature digitale ne peuvent pas être
d’origine fiable. Par exemple, considérons que l’échange prenne place quand des serveurs
Internet échange un courrier électronique. Cet échange a lieu en utilisant un simple protocol
consistant en une série de commandes en caractères ASCII. Une personne maligne pourrait
facilement entrer ces commandes à la main en utilisant Telnet pour se connecter directement
au port SMTP (Simple Mail Transfert Protocol) du système (port 25 sur les systèmes UNIX).
Le serveur recevant ces commandes fait confiance à cette personne en disant qui elle est.
D’où le fait que le courrier électronique peut lui aussi être spoofé facilement en entrant une
adresse d’expéditeur différente de l’adresse réelle. Comme quoi, sans aucun privilège, on peut
sans problème falsifier ou spoofer le courrier électronique.
D’autres services comme le « Domain Name Service » peuvent aussi être spoofés mais avec
toutefois plus de difficultés que le courrier électronique. Ces services représentent une crainte
qui mérite d’être considérée quand on les utilise.
2.5.2.6. Les chevaux de Troie
Un cheval de Troie est un programme qui se cache lui même dans un autre programme
apparemment au dessus de tout soupcon. Quand la victime (l’utilisateur normal) lance ce
programme, elle lance par la même le cheval de Troie caché.
Il y a des exemples de chevaux de Troie UNIX sur l’Internet. Par exemple, en 1995, un
serveur FTP bien connu a été pénétré et les agresseurs ont modifié un programme très
populaire disponible sur ce site. Le cheval de Troie installé à l’intérieur du programme
permettait quand il était exécuté d’ouvrir l’accès au système UNIX à n’importe qui.
Exposé MCSI
2003-2004
48
Webmaster
- 49 -
2.5.2.7. Les vers
Un ver est un agent autonome capable de se propager sans l’utilisation d’un programme
quelconque ni d’une action par une personne. La plus célèbre attaque de vers s’est produite en
novembre 1988 quand un étudiant lança un programme sur l’Internet qui était capable de se
développer par lui-même à travers le réseau de serveurs. Dans les 8 heures après le lancement
de ce programme, entre 2000 et 3000 ordinateurs étaient déjà infestés. Les ordinateurs
commencèrent à tomber en panne parce que le programme du ver réapparaissait plus
rapidement que les connexions réseaux pouvaient l’effacer.
Que s’est-il exactement passé ? Le ver infestait seulement les ordinateurs fonctionnant sur un
système UNIX particulier. Chaque ver créait une liste de machines distantes cibles qui se
trouvait sur l’ordinateur où le ver agissait.
En parallèle, le ver :
- essayait de trouver les mots de passe des comptes utilisateurs en essayant des permutations à
partir des noms de comptes et en vérifiant une liste de 432 mots de passe courants.
- essayait d’entrer dans chaque machine cible en se faisant passer pour un utilisateur de la
machine « attaquante » (après avoir cracké le mot de passe utilisateur) et en utilisant un « bug
» dans le protocole « finger ».
Quand une attaque fonctionnait, le ver créait un petit programme et les commandes pour
compiler et exécuter sur la machine distante. Ce ver avait aussi des mécanismes qui lui
permettaient de camoufler sa présence sur une machine.
Les attaques de vers sont toutefois rare parce que les serveurs sur Internet sont de plus en plus
différents (bien que cela tend à changer : Windows NT serveur), mais c’est toujours une
méthode utilisée par les hackers quand un nouveau « bug » est découvert dans un système
d’exploitation. Cela a « l’avantage » pour l’agresseur de pouvoir attaquer un maximum de
sites en peu de temps.
2.5.2.8. Les trappes
Une trappe est un point d’entrée dans un système informatique qui passe au-dessus des
mesures de sécurité normales. C’est généralement un programme caché ou un composant
électronique qui permet au système de protection d’être inefficace. De plus, la trappe est
souvent activée par un évènement ou une action « normale ».
Une trappe peut aussi être un trou de sécurité dans un système qui a été délibérément mis en
place par les créateurs ou les personnes chargées de la maintenance. Le principal intérêt de
ces trappes n’est pas toujours néfaste : certains systèmes d’exploitations, par exemple, ont des
comptes utilisateurs avec de hauts privilèges destinés pour faciliter le travail des techniciens
de maintenance.
En 1983, Ken Thompson (un des auteurs de UNIX) révéla l’existence d’une trappe dans les
premières versions de UNIX qui pourrait être identifié comme l’un des plus malins pièges
informatiques de tout les temps. Le compilateur C contenait du code qui reconnaissait quand
la commande « login » était recompilée et insérait du code qui reconnaissait un certain mot de
Exposé MCSI
2003-2004
49
Webmaster
- 50 -
passe que Thompson avait choisi. Ce mot de passe lui ouvrait l’entrée du système qu’un
compte utilisateur ou non ait été créé pour lui. Normalement ce genre de trappes peut être
éliminé en la supprimant du code source du compilateur et en le recompilant. Mais pour
recompiler le compilateur, il faut utiliser le compilateur. Donc, Thompson s’était aussi
arrangé pour que le compilateur reconnaisse quand il compilait une version de lui-même et
insérait dans le compilateur recompilé le code qui reconnaissait la procédure de compilation
de la commande « login » ! De cette façon, le piège pouvait se perpétuer indéfiniment et
laisser une trappe en place sans aucune trace dans les programmes sources.
Presque à chaque fois qu’un hacker quitte un système, il laisse derrière lui une ou plusieurs
trappes pour être capable de revenir quand il veut. C’est pourquoi, quand un système a été
attaqué, il est plus prudent de vérifier tout le système de fichiers ou bien de réinstaller le
système d’exploitation.
2.5.2.9. Le TCP-SYN flooding
Quand un système client essaie d’établir une connexion TCP à un système fournissant un
service (le serveur), le client et le serveur échange une séquence de messages. Cette
connexion technique s’applique à toutes les connexions TCP-IP (Telnet, Web, email, etc ...)
Le système client commence par envoyer un message SYN (pour synchronisation) au serveur.
Le serveur renvoie alors un accusé de réception du SYN: SYN-ACK (pour synchronisationaknowledgment) au client. Le client finit alors par établir la connexion en répondant par un
ACK. La connexion entre le client et le serveur est donc ouverte et le service d’échange de
données peut s’exécuter entre les deux partenaires de la connexion.
Voici un petit récapitulatif de ce qui se produit pour l’établissement d’une connexion :
Client Serveur
------- --------SYN -------------->
<--------------- SYN-ACK
ACK -------------->
Le serveur et le client peuvent donc commencer à s’échanger des données.
Les abus viennent au moment où le serveur a renvoyé un accusé de réception du SYN (ACKSYN) au client mais n’a pas reçu le « ACK » du client. C’est alors une connexion à demiouverte. Le serveur construit dans sa mémoire système une structure de données décrivant
toutes les connexions courantes. Cette structure de données est de taille finie, ce qui veut dire
qu’il peut se créer un dépassement de capacité (overflow) en créant intentionnellement trop de
connexions partiellement ouvertes.
Le fait de créer ces demi-connexions sans se faire repérer est facilement réalisable avec l’IP
spoofing. L’ordinateur de l’agresseur envoie des messages SYN à la machine victime ; ceuxci paraissent provenir d’un ordinateur bien défini mais qui en fait, fait référence à un système
client qui n’est pas capable de répondre au message SYN-ACK. Ce qui veut dire que le
message ACK final ne sera jamais renvoyé au serveur victime.
Exposé MCSI
2003-2004
50
Webmaster
- 51 -
Ces demi-connexions dans la structure de données du serveur victime vont éventuellement
créer un débordement dans cette structure et le serveur sera incapable d’accepter d’autres
connexions tant que la table ne sera pas vidée. Normalement, il y a un système de « time-out »
associé à chaque connexion ouverte, donc les demi-connexions devraient expirer et le serveur
victime récupérer de la place libre dans sa mémoire pour d’autres connexions. Toutefois, le
système agresseur peut simplement continuer à envoyer des paquets dont l’IP est spoofée plus
vite que le serveur victime puisse expirer les demi-connexions.
Dans la plus part des cas, la victime d’une telle attaque aura des difficultés à accepter toute
nouvelle connexion. Dans ces cas, l’attaque n’affectera pas les connexions déjà existantes ou
la capacité à créer des connexions de l’intérieur vers l’extérieur. Par contre, dans certains cas,
le serveur peut épuiser toutes ses ressources mémoires, tomber en panne ou être rendu
inopérant.
La localisation de l’attaque est très souvent obscure parce que les adresses des paquets SYN
envoyés ne sont très souvent pas plausibles. Quand le paquet arrive au serveur victime, il n’y
a pas de moyens de déterminer sa véritable source. Comme Internet fait suivre les paquets
basés sur une adresse de destination, le seul moyen de valider la source d’un paquet est
d’utiliser le filtrage.
2.5.2.10. Conclusion
Il y a encore une grande variété d’autres méthodes d’attaques mais elles sont d’un niveau
relativement élevé pour un utilisateur normal d’UNIX. Voici une courte liste de quelques une
d’entre elles :
- attaque Sendmail par le port système du mail (port 25)
- attaque NIS et NFS
- attaque FTP par le port 21
- attaque Telnet par le port 23
- attaque rlogin et remote shell
- attaque par interception de processus administrateurs
Ce n’est absolument pas une liste exhaustive car il existe probablement beaucoup de type
d’attaques qui restent secrètes.
Exposé MCSI
2003-2004
51
Webmaster
- 52 -
2.5.3. Les solutions
Dans cette partie nous allons découvrir les méthodes utilisées pour améliorer la sécurité sur
Internet. Les deux principaux espoirs de la sécurité sur Internet résident dans la cryptographie
et les firewalls.
2.5.3.1. Les firewalls
Les firewalls sont souvent appelés les préservatifs pour les réseaux des entreprises. Ils
fournissent une protection digitale associée à la rapide croissance des réseaux et de la
commercialisation de l’Internet. Comme les préservatifs, beaucoup de gens ont entendu parler
des firewalls mais peu de personnes les utilisent. De plus, le nombre d’incidents de sécurité
grandissant sur Internet laisse suggérer très fortement que trop peu de personnes les utilisent
correctement.
2.5.3.1.1. Qu’est ce qu’un firewall ?
Un firewall est une sorte de technologie de contrôle d’accès qui empêche les accès non
autorisés aux ressources d’information en plaçant une barrière entre le réseau de l’entreprise
et le réseau non sécurisé (Internet, par exemple). Un firewall est aussi utilisé pour empêcher
les transferts d’information propriétaire du réseau de l’entreprise. En d’autres mots, un
firewall fonctionne comme une passerelle contrôlant le trafic dans les deux directions.
Le firewall typique est un ordinateur bon marché fonctionnant avec UNIX éloigné de toute
donnée confidentielle qui est placé entre Internet et le réseau de l’entreprise. Certains
firewalls ne permettent que le passage de l’email protégeant ainsi tout le réseau contre toutes
les attaques possibles autres que contre le service email. D’autres firewalls fournissent moins
de restrictions et bloquent les services qui sont connus pour être une source de problèmes.
Généralement, les firewalls sont configurés pour protéger contre les connexions interactives
(Telnet par exemple) provenant du « monde extérieur ». Ceci, plus que toute chose, aide à
empêcher les agresseurs de se connecter sur les machines du réseau intérieur. Les firewalls les
plus élaborés bloquent le trafic de l’extérieur vers l’intérieur mais permettent aux utilisateurs
de l’intérieur de communiquer librement avec l’extérieur.
Les firewalls sont d’autant plus importants qu’ils fournissent un point de rencontre où la
sécurité et la vérification peuvent être imposés. Dans une situation où un ordinateur est
attaqué par quelqu’un, le firewall peut agir comme une cassette enregistrable et un outil de
traçage.
Exposé MCSI
2003-2004
52
Webmaster
- 53 -
2.5.3.1.2. Qu’est-ce qu’un firewall ne peut pas faire ?
Les firewalls ne peuvent pas protéger contre les attaques qui ne passent pas par le firewall.
Beaucoup d’entreprises qui se connectent à l’Internet sont très concernées par les fuites de
données propriétaires qui passe par ce chemin. Malheureusement pour ces concernées une
disquette magnétique peut être utilisée tout aussi efficacement pour transférer des données. La
politique du firewall doit être réaliste et refléter le niveau de sécurité du réseau de l’entreprise.
Par exemple, un site avec des données top secrètes ne doit pas avoir de firewall du tout : il ne
doit tout simplement pas avoir sa place sur l’Internet. Les systèmes avec des données
confidentielles et secrètes doivent être isolés du reste du réseau dans l’entreprise.
Les firewalls ne peuvent pas vraiment protéger contre les choses comme les virus. Il y a trop
de sorte d’encoder des fichiers exécutables pour les transférer à travers les réseaux. Il y a
également trop d’architectures différentes et de virus pour essayer de les chercher. En d’autres
mots, un firewall ne remplace pas la sécurité et la conscience de la part des utilisateurs. En
général, un firewall ne protège pas contre les attaques orientées données (attaques dans
lesquelles quelque chose est mailé ou copié vers un ordinateur interne où il sera ensuite
exécuté). Cette forme d’attaque s’est produite dans les anciennes et nombreuses versions de «
Sendmail ».
2.5.3.1.3. Conclusion
Il y a beaucoup de sortes de firewalls. Toutefois, la principale part des firewalls sont des
programmes installés sur le routeur de l’entreprise ou sur un autre ordinateur. Il existe quand
même des firewalls « hardware » qui sont plus rares. Ce sont des cartes électroniques qui sont
branchées dans l’ordinateur.
Exposé MCSI
2003-2004
53
Webmaster
- 54 -
Il peut y avoir plusieurs rôles pour un firewall : certains sont filtreurs de paquets, routeurs,
passerelles, ordinateur bastion, etc ... Il y a aussi une large variété de firewalls pour chaque
système d’exploitation : UNIX, Novell Netware, Windows NT, LINUX, etc...
De nos jours, les firewalls sont des remparts efficaces contre les agresseurs de toutes sortes.
Toutefois, si un firewall n’est pas proprement installé, il peut se révéler pire que de ne pas en
avoir à cause du faux sentiment de sécurité qu’il procure.
2.5.3.2. La protection des mots de passe et la création de mots de passe sûrs
La protection des mots de passe est un des principaux problèmes de la sécurité sur Internet
bien qu’il existe des solutions pour lutter efficacement contre ce dernier :
- les mots de passe « shadow »
- la génération de mots de passe sûrs.
2.5.3.2.1. Les mots de passe « shadow »
Les mots de passe « shadow » sont un système où le fichier de mots de passe cryptés est caché
de tous les utilisateurs excepté l’administrateur, en espérant empêcher les tentatives de
crackage de mots de passe à la source.
2.5.3.2.2. La création de mots de passe sûrs
Premièrement, il serait intéressant de voir combien de mots de passe possibles il existe. La
plus part des gens sont inquiets que des programmes comme « crack » vont éventuellement
gagner en puissance jusqu’à ce qu’ils soient capables d’effectuer un recherche exhaustive de
tous les mots de passe possibles pour rentrer dans un compte utilisateur spécifique
(généralement administrateur).
Les mots de passe valides sont créés à partir de 62 caractères [A-Za-z0-9] et ils peuvent
inclure encore plus de caractères comme : « \}][{$££@ !%&(#/)=-:_.;,?">< ». Ils doivent
également être de longueur comprise entre 5 et 8 caractères. En utilisant seulement les 62
caractères communs, la taille de la série de mots de passe valides est : 625+626+627+628 =
2,2 E+14
Un nombre qui est bien trop grand pour entreprendre une recherche exhaustive avec les
technologies actuelles. De plus, si l’on peut utiliser les 95 caractères, qui ne sont pas des
caractères de contrôle, dans les mots de passe, cela réduit d’autant plus les chances du cracker
de mots de passe.
Par contre, n’importe quel mot de passe qui est dérivé d’un dictionnaire (ou d’information
personnelle), même modifié constitue un mot de passe potentiellement crackable.
Par exemple les mots de passe basés sur les :
- noms de login : monlogin
- noms famille : dupond, durand
- prénoms : Raoul, Adrienne
- mots écris à l’envers : enneirda, dnopud
- mots d’un dictionnaire : ordinateur, livres
Exposé MCSI
2003-2004
54
Webmaster
- 55 -
- mots en capitales : Ordinateur, OrDiNateuR
- mots des dictionnaires de cracking : porsche911, 123456789, azerty, abcxyz, mr.spoke
- mots de langues étrangères : hello!, gutentag
Un bon mot de passe doit toutefois être facile à se souvenir mais difficile à cracker. Le
meilleur moyen de créer un mot de passe incrackable est de le faire apparaître comme défini
au hasard. Il ne faut pas oublier d’insérer des chiffres et des signes de ponctuations dans le
mot de passe. La méthode favorite pour trouver un mot de passe incrackable mais facile à se
souvenir est de :
1. Prendre une phrase ou une ligne d’un poême ou d’une chanson qui doit être d’au moins
long de 8 mots
2. Prendre la première lettre de chaque mot et l’utiliser dans le mot de passe.
3. Utiliser les signes de ponctuations
Par exemple, la phrase : « Un pour tous, et tous pour un » donne un mot de passe relativement
incrackable : « Upt,&tp1 »
Un bon moyen pour un administrateur réseau de savoir si les utilisateurs ont des mots de
passe sûrs est d’utiliser les programmes de crackage de mots de passe sur son propre système
comme le ferait un cracker. « Crack » est un bon outil pour s’assurer que les utilisateurs de
système UNIX n’ont pas choisis des mots de passe facilement crackable qui apparaissent dans
les dictionnaires standards.
2.5.3.3. La cryptographie
La cryptographie est la technologie qui permet d’envoyer des messages qui ne peuvent être
compris (décryptés) que par le destinataire en améliorant les contrôles sur les messages routés
par l’Internet, et en améliorant la qualité du système d’exploitation à abaisser les défauts des
programmes et d’autres vulnérabilités de sécurité.
Il y a deux principaux types de cryptage : le cryptage asymétrique (appelé aussi cryptage à clé
publique) et le cryptage symétrique.
2.5.3.3.1. Le cryptage asymétrique ou à clé publique
C’est un système cryptographique qui utilise deux clés : une clé publique connue de n’importe
qui et une clé secrète connue uniquement du destinataire du message.
Par exemple : Quand Jean veut envoyer un message sûr à Paul, il utilise la clé publique de
Paul pour crypter son message. Ensuite Paul utilise sa clé privée pour le décrypter.
Un élément important au système de clé publique est que les clés publique et privée sont en
relation de telle façon que seulement la clé publique peut être utilisée pour crypter le message
et seulement la clé privée correspondante peut être utilisée pour le décrypter. De plus, il est
Exposé MCSI
2003-2004
55
Webmaster
- 56 -
virtuellement impossible de déduire la clé privée si on ne connaît pas la clé publique.
2.5.3.3.2 Le cryptage symétrique
C’est un type de cryptage où la clé utilisée pour crypter et décrypter le message est la même.
Le cryptage de type DES (Data Encryption Standard) est une des plus célèbre forme de
cryptage symétrique. Il est d’ailleurs toujours utilisé par les administrations aux Etats-Unis
pour envoyer des données à travers un réseau. Toutefois, elles utilisent le système de cryptage
à clé publique pour envoyer la clé DES au destinataire du fichier crypté !
2.5.3.4. IP spoofing et SYN flooding
Avec la technologie actuelle du protocole IP, il est impossible d’éliminer les paquets spoofés.
Mais il existe quelques solutions pour réduire le nombre de paquets spoofés entrant et sortant
du réseau.
La meilleure méthode est d’installer un routeur-filtreur qui limite les entrées à l’interface
externe (connue sous le nom de filtreur d’entrée) en n’accordant pas le droit d’entrée à un
paquet qui a une adresse source du réseau interne. Il peut aussi être bon de filtrer les paquets
sortants qui ont une adresse source différente du réseau interne afin de prévenir une attaque
d’IP spoofing provenant du réseau interne.
La combinaison de ces deux routeurs-filtreurs doit empêcher les agresseurs extérieurs
d’envoyer des paquets prétendants venir du réseau interne. Cela doit également empêcher les
paquets provenant du réseau interne de se prétendre venir de l’extérieur du réseau. Ces
filtreurs ne vont pas stopper toutes les attaques de type TCP-SYN du moment que les
agresseurs extérieurs peuvent spoofer leurs paquets de facon qu’ils proviennent d’autres sites
extérieurs, et les agresseurs internes peuvent toujours envoyer des attaques spoofing avec des
adresses internes.
L’IP spoofing et le SYN-flooding sont actuellement les deux pricipaux problèmes unsoluble
de la sécurité sur l’Internet.
2.5.3.5. Les outils de vérification de la sécurité
Il existe de nombreux outils disponibles sur l’Internet pour tester la sécurité d’un système.
Certains outils scannent les systèmes pour connaître leurs vulnérabilités : « SATAN » est le
plus célèbre programme pour UNIX, d’autres vérifient l’intégrité des fichiers comme «
Tripwire ». L’administrateur réseau est fortement conseillé d’utiliser ces outils avant les
agresseurs si il veut éviter les problèmes les plus courants.
Voici une petite liste des outils de vérification les plus courants : ISS, C2 security, COPS,
Tiger (qui fait parti de TAMU security), MD5.
Exposé MCSI
2003-2004
56
Webmaster
- 57 -
2.5.3.6. La sécurité à travers l’obscurité
C’est une manière de considérer qu’un système ne peut être sûr que aussi longtemps que
personne, en dehors des personnes qui l’ont créé, n’ait compris son fonctionnement interne.
La technique est de cacher les comptes utilisateurs, les mots de passe dans des fichiers
exécutables ou des programmes avec l’espoir que personne ne les trouvera.
C’est une philosophie qui a la faveur des bureaucrates américains. La principale critique de
cette technique est que ce n’est que de la pseudo sécurité car elle ne résout pas les vrais
problèmes de sécurité mais à la place, les caches.
De plus, le responsable du petit groupe qui a créé ce système doit faire confiance aux
employés pendant toute leur vie. Et si les employés ont une meilleure offre de salaire ailleurs,
les connaissances s’en vont avec eux que les connaissances soient remplaçables ou non.
Toutefois, cette technique peut rentrer en complément d’autres mesures de sécurité.
2.5.3.7. La restriction d’IP
La restriction d’IP sert à limiter les utilisateurs à se connecter à certaines parties du serveur.
En accordant seulement quelques adresses IP à se connecter au serveur, l’agresseur n’aura pas
l’accès aux domaines où il peut causer des dommages.
2.5.3.8. L’éducation et la prise de conscience
Une des craintes majeures pour la sécurité d’un système n’est pas les trous techniques de
sécurité d’un système mais le manque de conscience des utilisateurs ou de l’administrateur.
Par « manque de conscience », je veux dire que les utilisateurs d’Internet ont souvent
l’impression que le seul moyen par lequel un hacker peut rentrer dans leur compte ou sur un
système est en utilisant trappe laissée ouverte par un administrateur non-conscencieux. Une
autre croyance est qu’il n’y a aucune valeur dans un simple compte utilisateur et que
personne ne va s’ennuyer à essayer de le pénétrer. Aussi bizarrement qu’il puisse paraître, ce
qu’un agresseur trouve d’intéressant dans un compte utilisateur est tout simplement l’accès au
système. Un simple accès permet à l’intrus de devenir super utilisateur après avoir exploité
une faille dans le système d’exploitation du système ou bien le compte peut être utilisé
comme passerelle pour attaquer d’autre sites. Bien évidemment, l’utilisateur victime est
responsable de se qui se produit sur son compte, d’où l’intérêt de le protéger correctement.
Un bon moyen pour faire prendre conscience aux utilisateurs de l’importance de leur compte
(et donc de leur mot de passe) est de prendre des mesures strictes en les encourageant :
- à changer leur mot de passe après la première connexion,
- à ne pas partager leur compte avec qui que ce soit,
- à protéger leur mot de passe : être prudent des regards indiscret au moment de taper le mot
de passe,
Exposé MCSI
2003-2004
57
Webmaster
- 58 -
- à changer leur mot de passe régulièrement et tout spécialement après s’être connecté sur une
machine éloignée,
- à choisir des mots de passe sûrs
Un autre moyen d’impliquer les utilisateurs à respecter les mesures de sécurité sur un système
est de leur faire signer une charte de responsabilité et de bonne conduite sur l’Internet.
La sécurité est l’affaire de tous sur un système : l’administrateur aussi bien que les utilisateurs.
Et le rôle de l’administrateur est d’éduquer ses utilisateurs à la sécurité.
2.5.4. Conclusion
La meilleure solution pour l’Internet réside sans doute dans le cryptage des données. Mais
beaucoup de gouvernements n’approuvent pas cette technique parce qu’elle représente un
danger pour la sécurité de l’état car l’information ne peut plus être contrôlée. C’est pourquoi
aux Etats-Unis le cryptage à clé publique est seulement permis avec des clés de 48 bits. Dans
certains pays, le cryptage des données est même totalement interdit : Singapour, Chine, etc ...
En France, par contre la cryptologie n’est pas interdite, mais l’utilisateur qui veut crypter des
données doit remettre les clés de cryptage à un organisme.
De nos jours, les entreprises veulent choisir des options de haute sécurité dont elles ont besoin
pour communiquer dans le commerce électronique, et la cryptographie semble être la
meilleure solution pour ces dernières.
Comme il n’y a pas et il n’y aura sans doute jamais de réseaux sûrs à 100%, nous pouvons
quand même nous protéger d’une majorité de problèmes associés à l’Internet en étant vigilant.
Toutefois, l’Internet continue de grandir en popularité et les statistiques de fraudes et
d’attaques risquent de continuer à augmenter si les utilisateurs ne prennent pas conscience que
la sécurité est un enjeu capital pour l’Internet.
« Le seul système informatique qui est vraiment sûr est un système éteint et débranché,
enfermé dans un blockhaus sous terre, entouré par des gaz mortels et des gardiens hautement
payés et armés. Même dans ces conditions, je ne parierais pas ma vie dessus. » Gene Spafford .
Exposé MCSI
2003-2004
58
Webmaster
- 59 -
3. outils du développement
3.1. JavaScript
Présentation










Créé par Netscape (1er nom : LiveScript 1.0)
Script = ensemble d'instructions permettant de réaliser une action.
Embarqué dans la page HTML -> lisible pour le client.
Langage de programmation à la syntaxe proche du C++.
Gestion des événements provoqués par le client.
Exécution par le browser sans recours au serveur -> indépendant de la plate forme.
Aucune analyse du code -> erreurs de syntaxe non signalées.
Pas d'héritage entre les classes.
Netscape a rendu public JavaScript en 1997 -> ECMAScript (ECMA-262) standard de
l'Européen Computer Manufacturiers Association.
Versions :
2.0
Navigateur
Internet Explorer
JavaScript 1.0 3.0
JScript 1.0
3.0
JavaScript 1.1 3.02
JScript 2.0
4.0-4.05
JavaScript 1.2 4.0
JScript 3.0
4.06-4.7x
JavaScript 1.3
> 4.5 compatible ECMA-262 > 4 compatible ECMA-262

6.0 (Mozilla) JavaScript 1.5 5.0
JScript 5.0
7.0 (Mozilla) JavaScript 1.5 6.0
JScript 5.6
JavaScript peut être utilisé côté serveur pour générer dynamiquement des pages (i.e.
scripts CGI écrits en JavaScript), à condition d'avoir un serveur qui l'interprète :
o Entreprise Server de Netscape
o Internet Information Server (IIS) de Microsoft
o Intra Builder de Inprise (ex Borland)
3.2. FrontPage
Présentation
Front Page a été développé par la société Vermeer Technologies, ensuite racheté en 1995 par
Microsoft. Depuis cette année, il a évolué pour devenir un des logiciels les plus marquants de
l’histoire du Web.
Ce fut le premier produit à permettre aux utilisateurs, non seulement de créer des pages Web,
mais aussi de créer, publier et gérer des sites entiers.
Exposé MCSI
2003-2004
59
Webmaster
- 60 -
Front Page a été conçu pour rendre ces taches plus simples et plus complètes. Il permet de
planifier, concevoir, implanter, développer, administrer et mettre a jour des sites Web
complets, ainsi que des ensembles de pages liées entre elles.
3.3. Macromedia Flash MX
1. Introduction
Macromedia Flash MX est un logiciel de conception et de production pour les images et
graphisme web. Les concepteurs de graphisme peuvent créer des images étonnantes et des
options d’interactivité complexes pouvant être intégrées facilement dans des pages Web
dynamiques .il s’agit donc d’un environnement de production permettant de :
- Concevoir rapidement des images modifiables, des animations et des compositions
graphiques du Web.
- Automatiser le processus de création des graphismes Web pour répondre aux exigences
constantes de modifications, de mises à jour, de changements et de la nature dynamique du
Web.
Macromedia Flash MX est un outil de conception Web professionnel. Il combine les outils
d’édition d’images dans un environnement orienté objet. Les concepteurs peuvent ajouter des
styles d’objet, créer des boutons étape par étape à partir d’une fenêtre, enregistrer des
graphismes et des boutons dans une bibliothèque afin de les conserver et ajouter des effets
applicables en direct à n’ importe quel graphisme.
2. présentation du logiciel
L’application Flash MX comporte de nombreuses boites de dialogue et info bulles pour rendre
l’utilisation du programme encore plus facile. Des messages sont affichés lorsque on utilise
certains outils de façon incorrecte.
Flash propose différents outils permettant de dessiner des formes libres ou des lignes, des
formes et des tracés précis, et de peindre des objets remplis.
Exposé MCSI
2003-2004
60
Webmaster
- 61 -
3. espace de travail
Les animations Macromedia Flash MX sont constituées de graphiques, de textes, d'effets
animés et d'applications destinés aux sites web. Elles sont principalement composées de
graphiques vectoriels, mais peuvent également contenir des graphiques bitmap, de la vidéo et
des sons importés. Les animations Flash peuvent être interactives et ainsi permettre l'entrée
d'informations par l'utilisateur et la création d'animations non linéaires capables de dialoguer
avec d'autres applications Web
3.1. Outils de dessin
Dans la boite à outils se rassemblement tous les éléments de dessins comme : attributs de
sélection d’objet, plume, pinceau, crayon, lasso…etc.

Le pointeur : Le pointeur sert à sélectionner l’objet concerné pour lui affecter des
modifications quelconques. Ce pointeur se présente sous différents modes de sélection
et permet de déplacer même une sélection donnée.
Exposé MCSI
2003-2004
61
Webmaster
- 62 -

Le lasso : Le lasso comprend trois outils de sélection d’objet ou d’image
qui sont la baguette magique, le lasso polygonal et celui de la forme libre.

Le Rectangle : C’est pour le tracé des différentes formes d’objets : cercle,
carré, rectangle ou polygone.

le pinceau : C’est comme le crayon mais plus épais que le crayon de dessin.

Transformation libre : C’est un nouveau outil de dessin. Il sert à appliquer des
transformation et des modifications sur l’objet concerné tel que : rotation, extension,
rétrécissement,…etc.
3.2. Panneaux
Les panneaux de Flash vous permettent d'afficher, d'organiser et de modifier les éléments d'un
document.
La plupart des panneaux contiennent un menu déroulant comprenant des options
supplémentaires. Le menu Options est indiqué par une commande placée dans la barre de titre
du panneau. Si aucune commande d'option n'apparaît, ce panneau n'offre aucune option
spécifique.
a. panneau Bibliothèque
Le panneau Bibliothèque est l'endroit où vous stockez et organisez les symboles créés dans
Flash, ainsi que les fichiers importés tels que les graphiques bitmap, les fichiers son et les
clips vidéo. Le panneau Bibliothèque vous permet d'organiser les éléments de la bibliothèque
dans des dossiers, de savoir combien de fois un objet est utilisé dans un document et de trier
les éléments par type.
Exposé MCSI
2003-2004
62
Webmaster
- 63 -
b. panneau Actions
Le panneau Actions vous permet de créer et de modifier des actions pour un objet ou une
image. La sélection d'une occurrence de bouton, de clip ou d'image rend le panneau Actions
actif. Le titre du panneau Actions devient Actions - Boutons, Actions - Clips ou Actions Images en fonction de votre sélection.
Exposé MCSI
2003-2004
63
Webmaster
- 64 -
c. l'inspecteur des propriétés
L'inspecteur des propriétés simplifie la création des documents en facilitant l'accès aux
attributs le plus fréquemment utilisés de la sélection actuelle, que ce soit sur la scène ou dans
le scénario. Il vous permet de modifier les attributs d'un document ou objet sans avoir à
accéder aux menus ou panneaux qui contiennent ces fonctionnalités.
Selon ce qui est sélectionné, l'inspecteur des propriétés affiche les informations et les paramètres du
document, texte, symbole, forme, bitmap, vidéo, groupe, image ou outil actuel. Lorsque plusieurs
types d'objets sont sélectionnés, il affiche le nombre total d'objets sélectionnés.
4. Espace de travail
4.1. Scène
Tout comme les films, les animations Flash divisent les périodes de temps en images. La
scène est l'endroit auquel vous composez le contenu des images de l'animation, soit en y
dessinant directement les illustrations, soit en organisant des illustrations importées.
4.2. Scénario
Le scénario organise et contrôle le contenu d'une animation au fil du temps dans des calques
et des images. Tout comme les films, les animations Flash divisent les périodes de temps en
images. Les calques sont semblables à des bandes de film empilées les unes sur les autres,
chacune contenant une image différente qui apparaît sur la scène. Les principaux composants
du scénario sont les calques, les images et la tête de lecture.
Exposé MCSI
2003-2004
64
Webmaster
- 65 -
Les calques d'un document sont répertoriés dans une colonne affichée sur la gauche du
scénario. Les images contenues dans chaque calque sont affichées sur une ligne à droite du
nom du calque. L'en-tête du scénario, situé en haut du scénario, indique le numéro des images.
La tête de lecture indique l'image actuellement affichée sur la scène.
La barre d'état du scénario, affichée en bas de ce dernier, indique le numéro de l'image
sélectionnée, la cadence d'image actuelle et le temps écoulé jusqu'à l'image actuelle.
5. Création d’animation
Vous pouvez créer de l'animation dans un document Macromedia Flash MX en modifiant le
contenu d'images successives. Vous pouvez déplacer un objet sur la scène, augmenter ou
diminuer sa taille, le faire pivoter, modifier sa couleur, effectuer des fondus en entrée ou en
sortie, ou modifier sa forme. Les modifications peuvent se faire indépendamment ou avec
d'autres modifications. Par exemple, vous pouvez faire pivoter un objet et effectuer un fondu
en entrée lorsqu'il se déplace sur la scène.
Il existe deux méthodes de création d'une séquence animée dans Flash : animation par
interpolation et animation image par image. Dans l'animation interpolée, vous créez l'image
de début et de fin et laissez Flash créer les images intermédiaires. Flash change la taille, la
rotation, la couleur ou d'autres attributs de l'objet de façon égale entre la première et la
dernière image pour créer l'apparence de mouvement. Dans l'animation image par image, c'est
à vous de créer le contenu de chaque image.
5.1. Animation par interpolation
Flash peut créer deux types d'animation interpolée, l'interpolation de mouvement et
l'interpolation de forme.
Exposé MCSI
2003-2004
65
Webmaster
- 66 -

Avec l'interpolation de mouvement, vous définissez des propriétés telles que la
position, la taille et la rotation d'une occurrence, d'un groupe ou d'un bloc de texte à un
point dans le temps, puis modifiez ces propriétés à un autre point dans le temps. Vous
pouvez également appliquer une interpolation de mouvement le long d'un trajet.

Avec l'interpolation de forme, vous dessinez une forme à un point dans le temps, puis
modifiez cette forme ou dessinez une autre forme à un autre point dans le temps. Flash
interpole les valeurs ou formes pour les images intermédiaires, créant ainsi l'animation.
5.2. Animation image par image
L'animation image par image change le contenu de la scène dans chaque image et est plus
adaptée aux animations complexes dans lesquelles le contenu change d'une image à l'autre au
lieu d'être simplement déplacé sur la scène. L'animation image par image accroît la taille du
fichier plus rapidement qu'une animation interpolée. Dans l'animation image par image, Flash
stocke les valeurs de chaque image complète. Pour plus d'informations sur l'animation image
par image.
6. Exportation
La commande Exporter l'animation de Macromedia Flash MX nous permet de créer du
contenu pouvant être modifié dans d'autres applications et d'exporter une animation
directement dans un format unique. Par exemple, on peut exporter une animation tout entière
sous la forme d'un fichier Flash, d'une série d'images bitmap, d'une seule image et sous la
forme d'images animées ou statiques dans divers formats tels que GIF, JPEG, PNG, BMP,
PICT, QuickTime ou AVI.
7. optimisation des animations
La vitesse de téléchargement et de lecture du fichier d’une animation est proportionnelle à sa
taille. On peut prendre un certain nombre de mesures pour préparer une animation à la
meilleure lecture possible. Au cours du processus de publication, Flash effectue
automatiquement quelques opération d'optimisation sur les animations : par exemple, il
détecte les formes exportées en double et en ne les insère qu'en un seul exemplaire dans le
fichier, et convertit les groupes imbriqués en groupes uniques.
Avant d'exporter une animation, on peut l'optimiser un peu plus en utilisant diverses stratégies
pour réduire sa taille. On peut également compresser un fichier SWF lorsque on le publie.
7.1. Animations en général
Utilisez des symboles, animés ou non, pour tout élément apparaissant plus d'une fois.
Chaque fois que cela est possible, utilisez des animations interpolées, qui prennent moins
d'espace qu'une série d'images-clés.
Pour les séquences animées, utilisez des clips plutôt que des symboles graphiques.
Exposé MCSI
2003-2004
66
Webmaster
- 67 -
Limitez la zone de modification de chaque image-clé ; faites en sorte que l'action prenne place
dans une zone aussi réduite que possible.
Evitez d'animer les éléments bitmap ; utilisez les bitmaps comme éléments statiques ou
d'arrière-plan.
Pour le son, utilisez le format MP3, le format audio le plus compact, à chaque fois que cela est
possible.
7.2. Optimiser les éléments et les lignes
Groupez les éléments autant que possible.
Utilisez des calques pour séparer les éléments qui évoluent au cours de l'animation de ceux
qui ne subissent aucune modification.
Utilisez Modification > Optimiser pour réduire le nombre de lignes distinctes utilisées pour
décrire les formes.
Limitez le nombre de types particuliers de lignes (par exemple, lignes en tirets ou pointillées).
Les lignes pleines utilisent moins de mémoire. Les lignes créées avec l'outil Crayon
nécessitent moins de mémoire que les coups de pinceau.
7.3. Optimiser le texte et les polices
Limitez le nombre de polices et de styles de police. Utilisez les polices intégrées avec
parcimonie car elles augmentent la taille du fichier.
Pour les options d'intégration des polices, sélectionnez seulement les caractères nécessaires au
lieu d'inclure la police entière.
7.4. Optimiser les couleurs
Utilisez le menu Couleur de l'inspecteur des propriétés du symbole pour créer de nombreuses
occurrences d'un même symbole dans des couleurs différentes.
Utilisez le mélangeur de couleurs (Fenêtre > Mélangeur de couleurs) pour faire correspondre la palette
de couleurs de l'animation et celle spécifique aux navigateurs.
Utilisez les dégradés avec parcimonie. Le remplissage d'une zone à l'aide de dégradés nécessite 50
octets de plus que le remplissage à l'aide d'une couleur unie.
Utilisez la transparence alpha avec parcimonie car elle peut ralentir la lecture.
7.5. Optimiser ActionScript
Activez l'option Omettre les actions Trace de l'onglet Flash des paramètres de publication
pour ne pas inclure les actions trace dans les animations publiées.
Définissez des fonctions pour le code fréquemment répété.Utilisez des variables locales
lorsque possible.
Exposé MCSI
2003-2004
67
Webmaster
- 68 -
VIl. Etude de cas : Webmaster de l’INI
Dans cette partie on va étudie, qu’est ce quel fait le Webmaster de l’INI ?
Il y a plusieurs taches son fait par le Webmaster :
Mise a jour de site Web de l’INI
Ajouts des nouvelles informations.
Actualiser le site Web.
Optimisation de site
Vérification des liens.
Surveiller les erreurs de connections (erreur 404).
Sécurité de site
Assurer le bon fonctionnement de site.
Surveille les accès au site.
Surveille les pirates
Exposé MCSI
2003-2004
68
Webmaster
- 69 -
VI. CONCLUSION
les technologies de l’information et de la communication , NTIC , sont considérées
aujourd’hui comme des facteurs indispensables pour accélérer les réformes organisationnelles
et propulser la compétitivité des entreprises, d’ou l’apparition de nouveaux métiers tel que le
webmaster , et nous avons procéder dans ce rapport à la définition des fonctions du
webmaster et son rôle essentiel dans l’entreprise.
Il y a beaucoup de définitions de seulement ce qu'un administrateur de site Internet est, ce
qu'ils font, qui ils travaillent pour, et combien ils devraient être payés. Nous voyons que la
place d'Administrateur de site Internet est vue comme une place de niveau supérieur, avec la
personne qui est responsable pour diriger l'évolution et bien-être du site Internet de
l’entreprise.
Exposé MCSI
2003-2004
69
Téléchargement