Webmaster -1- I. INTRODUCTION La révolution mise en mouvement par les nouvelles technologies de l’information et de la communication (NTIC) est au cœur du changement profond que connaissent les sociétés dans tous les pays du monde ou il s’agit d’engager, sans tarder, des actions d’envergure pour leur entrée dans l’ère de l’information et de la modernité. Au cours de ces vingt dernières années, le monde a produit plus d’informations qu’au cours de plusieurs siècles passés et il y a tout lieu de penser que ce processus va s’accélérer. la société post-industrielle recèle ainsi d’immenses potentialités ouvrant la voie à des transformations radicales programmées ou facilement prévisibles. Le moteur de ces changements et leurs rapidités résident, à la fois, dans las applications des sciences et des technologies, et dans les mutations sociales qui les accompagnent. Les acquis des nouvelles technologies de l’information et de la communication ont été utilisés, dans une première étape, dans le domaine de l’économie et celui des services. Mais les progrès les plus importants seront réalisés à travers les technologies révolutionnaire dites « diffusantes » comme les nouveaux matériaux, la microélectronique, la robotique, la micro mécanique, les biotechnologies, etc. Les nouvelles technologies interviennent désormais partout ou il sera question de transformation de la connaissance. elle permettent en effet la mise en commun des compétences pour parvenir à la résolution des problèmes posées par l’évolution du monde moderne. Au cour des dernières années, la littérature économique a mis plus précisément l’accent sur l’impact de la diffusion des TIC sur la croissance économique. deux types de mécanismes, pour le moins , sont alors mis en évidence. D’une part , réduisant le coût d’accès à l’information et en améliorant la coordination des acteurs au sein de ces réseaux numériques, l’usage des TIC contribue à dégager des gains d’efficacité d et de productivité (économies , d’échelles,..). d’autres part, la convergence des industries des télécommunications , de l’informatique , de l’électronique et de l’audiovisuel a suscité l’émergence de nouvelles activités à rendements croissants et à plus forte valeur ajoutée. D’autres travaux se sont intéressés aux implications de la diffusion des TIC sur l’emploi et l’organisation du travail. D’abord , d’un point de vue quantitatif , la contribution nette des TIC en matière de création d’emplois ( soit à travers la création de nouveaux métiers , soit à travers la transformation des métiers) se révèle positive. D’un point de vue qualitatif , en raison du relâchement de la contrainte spatiale et temporelle induit par les TIC , l’organisation du travail au sein des entreprises (voir des administrations ) tend à se fonder sur les principes de la flexibilité , la décentralisation et l’autonomie. Toutes les fonctions de l’entreprise sont concernées par l’introduction des NTIC : Les fonctions liées au management : finances, GRH, stratégies, communication, etc. Les fonctions techniques : toutes les opérations liées au travail technique sur les réseaux , intra net, Internet, l’informatique, etc. Les fonctions liées à la production : les logiciels de gestion des stocks, gestion des approvisionnements, gestion de la qualité, etc. Les fonctions commerciales : suivi de la clientèle, les call-centers , les webmasters, etc.. La fonction recherche développement : le veille technologique, les innovations, la consultation des banques de données. Etc. Exposé MCSI 2003-2004 1 Webmaster -2- II. LE World Wide Web :(WWW) 1. Définition Le World Wide Web est né en 1989 au laboratoire physique des hautes énergies du CERN (Centre Européen de Recherche Nucléaire) à l’initiative de Tim Bernerrs-lee…. Le projet visait à donner au CERN un moyen de mettre en commun les recherches et les idées avec des employés ou d’autres chercheurs dispersée dans le monde. Au début on parlait du Web comme d’un « projet hypertexte ». Le terme hypertexte a été créé par Ted Nelson dans les années soixante. Il désigne un texte qui contient des liens avec d’autres documents de telle sorte que lorsque le lecteur clique sur un mot ou une phrase, il obtient de l’information supplémentaire sur le sujet. Sur le Web on parle également de l’hypermédia. Il s’agit alors de documents contenant des composantes multimédia. Notamment des sons et des images vidéo. Sur le plan purement technique, le World Wide Web désigne l’interface utilisateur et l’Internet, le réseau, c’est-à-dire le matériel constitué de câbles et d’ordinateurs. Tout ce système repose sur l’utilisation des protocoles, séries de langages et de règles par les quels les ordinateurs communiquent entre eux. Ainsi, le TCP/IP (pour transmission control protocol and Internet protocol) consiste en un ensemble de protocoles de réseau permettant à différents types d’ordinateurs de communiquer entre eux. C’est ce protocole qu’exploite internet. Le World Wide Web n’est pas simplement un type de protocole. Il rassemble plusieurs protocoles, notamment le protocole de transfert de fichiers FTP (pour File Transfert Protocol), tel net, WAIS (Wide Area Information Servers, ou serveurs de données à couverture nationale) et bien d’autres encore. Comme le web fait appel aux protocoles normalisés d’Internet pour le transfert de fichiers et de documents, on assimile souvent le web à l’Internet pour parler à la fois du réseau collectif d’ordinateurs et de la masse d’information qu’il renferme. Web n’est pas synonyme d’Internet Beaucoup confondent ces deux termes, qu sont apparentés sans être synonyme, Internet, issu du réseau de la défense américaine ARPANet, a vu le jour dans les années 1960. Il s’agissait, à l’époque, de construire un réseau qui continuerait de fonctionner dans l’éventualité où certains de ses composants seraient défaillants. Il repose sur une infrastructure de réseau bâtie selon certaines normes, les standards Internet, qu’utilisent tous ses membres pour se connecter entre eux. Les spécifications du protocole internent (IP) ne précisent pas quels types d’informations, de services ou de produits doivent être échangés. IP définit la façon dont le flux des informations est organise. Ces spécifications résidant sur une couche située au-dessus de la couche internet. Et l’un de ces protocoles d’échange d’informations est le World Wide Web assorti de ses protocoles de transfert hypertexte (http). Outre le World Wide Web il existe d’autres protocoles qui permettent aux utilisateurs de communiquer par messagerie électronique (POP3, SMTP, IMAP), de discuter en ligne (IRC) ou de participer a des groupes de discussions (NNTP). Le Web permet l’échange de documents via HTTP, essentiellement au format HTML qui assure un affichage correct par les logiciels de navigation. Le World Wide Web n’est que l’un des nombreux services existant sur Internet, et ne spécifie pas ci une certaine page web est disponible sur intra net, extra net ou internet. Il fournit une interface facile à utiliser et permet à des personnes connaissant peu l’informatique d’ accéder aux services Web sur tout le réseau Internet. Ces services Web concernent des informations (contenu, en jargon Internet), des produits ou des services, qui peuvent être consultés ou commandés à l’aide du logiciel de navigation, ou navigateur. Le navigateur Web Exposé MCSI 2003-2004 2 Webmaster -3- coïncide avec la première génération de l’Internet commercial. Il permet aux clients de faire leurs courses sur le Web. La deuxième génération de l’utilisation commerciale de l’Internet abandonnera l’idée de « faites-le vous même » pour celle de « faites-le pour moi ». Ce nouveau concept de l’informatique omniprésente automatisera de nombreux processus que les utilisateurs confient aujourd’hui aux logiciels de navigation ; mais ce n’est pas pour demain, et les navigateurs ont encore de beaux jours devant eux. 2. Taille de World Wide Web 2.1. Caractéristiques de l’information disponible sur le World Wide Web : Le développement rapide du World Wide Web a créé des sources d’information nouvelles et importantes, qui rivalisent, voire remplacent celles détenues par nos grandes bibliothèques. Néanmoins, malgré la popularité grandissante du Web, les types de documents qui y sont disponibles sont encore mal connus. Le lancement du logiciel de navigation par Mosaic par le NCSA (National Center for SuperComputing) en novembre 1992 est à l’origine de l’immense popularité que connaît le Web. Au début de 1993, il n’existait que 130 sites Web sur l’Internet, mais moins de six mois après l’apparition de Mosaic, on comptait pas moins de 10000 centres serveurs Web. John Quartrman, ayant transmis un sondage démographique sur plus de trois millions et demi d’utilisateurs . Il y a aujourd’hui aux alentours de 50000 sites Web dans le Web dans le monde (chiffres cités un peu partout dans les médias). En cinq ans, le World Wide Web est devenu une source importante pour la littérature scientifique et a transformé radicalement la façon dont l’information est distribuée et utilisée. Les ressources disponibles sur le Web dépassent, du moins en nombre, celles de nos grandes bibliothèques. L’an dernier, Inktomi1 estimait qu’il y avait un total de 50 millions de documents sur le Web dont le volume atteindrait environ un demi teraoctet. La taille du Web et sa croissance explosive qui ne montre aucun signe de ralentissement ne laissent aucun doute sur son intérêt pour les bibliothèques et leurs usagers. Le World Wide Web est une forme d’accès à Internet. Utilisant des butineurs spécifiques (comme Netscape ou Internet Explorer), les usagers peuvent avoir accès à une série de services d’Internet. En outre, le Web dispose de son propre protocole appelé Hypertexte Transfert Protocol (HTPP) qui permet la transmission de documents hypertextes. La souplesse du Web et le fait qu’il puisse transmettre des documents hypertextes graphiques en ont fait le composant d’Internet le plus populaire. Bien que le Web soit maîtrisé techniquement, on connaît mal la nature des documents qui sont disponibles et qui forment le Web. Une chose est claire : le Web est un ensemble de documents créés par des auteurs et des éditeurs disposant d’un serveur Web. Le Web n’a pas de politique de sélection, à l’inverse des bibliothèques où des décisions sont prises sur les documents qui seront acquis et conservés dans les collections. En opposition avec les politiques d’acquisition définies par les bibliothèques, le Web semblent être le résultat d’une campagne très réussie d’incitation aux dons, qui inclurait le bon, le mauvais et l’horrible. Du point de vue du contenu, le Web reste un mystère. Nous connaissons mal les sources des documents, les types de documents disponibles, leur valeur, les langues utilisées, l’âge ou la longévité des documents, l’étendue des sujets traités, ainsi que d’autres caractéristiques décrivant une collection d’informations. Peu d’études ont été menées sur le contenu en raison de son instabilité et du développement erratique du Web. General Magic2, une source de statistiques récemment utilisée par le magazine Time3, a estimé le nombre de sites Web à 400 000 tandis que Gray4 donnait le chiffre de 650 000. Les usagers peuvent avoir accès au Web depuis leur bureau, leur école, leur maison et leur bibliothèque publique quand elle propose des terminaux en accès public. Pour continuer à fournir aux Exposé MCSI 2003-2004 3 Webmaster -4- usagers une assistance de qualité en matière de recherche et d’utilisation, les bibliothèques ont besoin de statistiques fiables décrivant la source d’information pléthorique et inestimable qu’est le Web. Comme préliminaire à l’étude décrite ici, OCLC a fait des recherches sur le Web et dans des documents papier pour trouver des statistiques fiables et exhaustives décrivant le contenu des pages Web. Aucune n’a été trouvée qui puisse aider les bibliothèques et leurs usagers. Cette étude a donc été entreprise pour modifier cette situation afin d’identifier les contenus du Web et produire des statistiques utiles pour la communauté des bibliothèques. Le Web utilise sa propre terminologie pour décrire le stockage, la maintenance et la diffusion de ses documents. Les termes les plus importants pour l’étude décrite ci-dessous sont home pages (pages d’accueil), pages Web statiques et interactives et sites Web. 2.2. Les pages Web : L’entrée dans le Web se fait par la page d’accueil qui est à peu près équivalente à la page de titre dans un environnement imprimé. La page d’accueil fournit généralement des informations générales sur le site mais peut aussi fonctionner comme une table des matières. Après la page d’accueil, l’unité bibliographique fondamentale du Web est la page Web (un document Web, un fichier HTTP). La page Web est une entité distincte qui est identifiée par une adresse unique appelée Uniform Resource Locator ou URL. Il y a deux types de pages Web : statique et interactive (dynamique). Une page Web statique est un document qui peut être lu de haut en bas sans quitter le document. A moins qu’elle ne soit modifiée, la page Web statique présente la même information à tous les usagers. Une page Web interactive est un document élaboré qui utilise des programmes externes pour réaliser des fonctions spécifiques. Ces pages interactives permettent aux usagers de soumettre des formulaires, d’interroger des bases de données, de formater des résultats, de structurer l’affichage et d’avoir accès à des parties du site protégées par un mot de passe. Un bon exemple de site interactif est celui de la compagnie Delta Airlines5. Plutôt que de chercher dans des tableaux d’horaires de vol imprimés, les usagers entrent l’information nécessaire pour obtenir un document contenant l’information pertinente (à savoir un horaire d’avion). Un site Web est un ensemble de pages Web liées entre elles et qui sont hébergées sur un serveur particulier. 2.3. Recueillir des extraits de pages Web La taille imposante du Web interdit toute analyse exhaustive de son contenu. La meilleure approche possible est le recueil d’extraits de pages Web. Cet échantillon doit être assez large pour être représentatif de la diversité des informations du Web et assez petit pour être géré facilement. Cet échantillon ne doit pas être biaisé afin de permettre des extrapolations sur le Web dans son ensemble. Le Web inclut des sites Intranet protégés par des garde-barrières (firewalls), des pages qui ne sont consultables qu’après paiement d’une redevance, des pages qui nécessitent d’avoir une autorisation d’accès ou tout autre moyen de restriction. Cette étude utilise un échantillonnage de groupe dans lequel le site Web devient l’unité d’échantillonnage et la page Web la sous-unité. L’échantillonnage de groupe est bien adapté aux pages Web puisqu’il n’y a pas de liste des sous-unités. Un échantillon aléatoire de sites Web sera sélectionné et les données seront prises dans chaque page Web du site. La méthodologie de l’échantillonnage de groupe est bien expliquée par Cochran6. L’adresse IP (Internet Protocol) sera utilisée pour identifier les sites Web. Chaque site a une adresse unique, un identifiant numérique sur 32 bits, son adresse IP. Cette adresse est divisée en quatre octets de 8 bits Exposé MCSI 2003-2004 4 Webmaster -5- chacun, habituellement séparés par des points (ex : 132.174.1.5). Comme chaque octet est composé de 8 bits, il peut prendre des valeurs comprises entre 8 et 255 ce qui crée 4 milliards de possibilités d’adresses. Chaque site Web a une adresse IP unique mais chaque adresse IP ne correspond pas à un site Web. Plusieurs adresses IP sont associées avec d’autres services Internet comme la messagerie électronique ou le transfert de fichiers (FTP) ; certains sites ne sont pas consultables par le public ; certaines adresses IP n’ont pas encore été attribuées. La faible proportion d’adresses IP associées à des services Web complique la collecte des données mais ne nuit pas à la validité de l’échantillon. Chaque site Web a une chance équivalente d’être sélectionné dans l’échantillon. Toutefois, le nombre de sites Web dans l’échantillon définitif sera inférieur au nombre d’adresses IP sélectionnées. L’échantillonnage lui-même sera fait en trois temps. Tout d’abord, un échantillon aléatoire sera constitué. Ensuite un programme automatique tentera de se connecter au port 80 (port standard pour les serveurs W3) de chaque adresse IP pour déterminer si cette adresse a un site Web public. Enfin, les contenus de chaque site seront collectés en déchargeant tous les fichiers HTML de ce site. Le recueil des données débutera en juin 1997 et continuera pendant l’été. Une première analyse sera disponible à la fin de l’été afin que des résultats détaillés soient disponibles pour la conférence. Nous pensons que cette analyse donnera des statistiques fiables à la fois sur l’orientation thématique et les caractéristiques de l’information disponible sur le Web. 2.4. Analyse Les bibliothèques et la communauté des utilisateurs d’Internet ont besoin de statistiques fiables sur la taille du Web et sur le contenu des pages Web. Ces statistiques doivent être basées sur une méthodologie éprouvée et ayant donné lieu à des publications. Les statistiques sont nécessaires pour : le nombre de sites Web. le nombre de pages Web statiques. la taille moyenne des pages statiques. le nombre de pages Web interactives. La nature différente des pages Web statiques et interactives exige un traitement différent. Par exemple, alors que l’on peut estimer la taille d’une page Web statique, la taille moyenne d’une page interactive n’a pas de sens. En général, le service produit par une page interactive est plus important que le texte lui-même. Une petite page interactive peut être l’équivalent de plusieurs volumes de tableaux ou fournir un service qui n’a pas d’équivalent papier. Ces estimations ressemblent plus à celles qui sont rassemblées par les éditeurs qu’à celles faites par les bibliothèques puisqu’elles reflètent ce qui est publié sur le Web. Pour évaluer la nature de cette information publiée, il faut créer des catégories de types d’information. Pour cette étude, chaque page Web extraite de l’échantillon sera rangée sous les catégories suivantes : Non-fiction : rapports, articles scientifiques, commentaires, essais, éditoriaux, monographies; Fiction/Distraction : humour, fiction, jeux, documents liés aux loisirs Référence/Index : pages d’accueil, index, résumés, tableaux statistiques, annuaires, profils, bibliographies, guides, information biographique/autobiographique, références à d’autres ressources Exposé MCSI 2003-2004 5 Webmaster -6- Institutionnelle : vente en ligne, publicités, information commerciale, catalogues, modes d’emploi, documents promotionnels, descriptions des établissements Personnelle : pages réservées à une information sur un individu ou un groupe. Ces catégories ne se recoupent pas. Des tests préliminaires ont montré que ces catégories sont pertinentes même si elles ne sont pas exhaustives. Vraisemblablement, d’autres catégories ou souscatégories devront être ajoutées à cette liste. Elles seront identifiées au cours de l’analyse. D’autres statistiques seront estimées à partir de l’échantillon : la répartition par langue la répartition par lieu d’édition l’âge moyen de la page Web. Bien que l’échantillon soit limité aux pages accessibles directement, nous rassemblerons des informations sur les pages qui ne sont pas publiques. Mis à part les sites Web sur Intranet, la plupart de ces pages sont accessibles via une page de passerelle. Ces dernières sont des pages publiques qui seront prises dans l’échantillon. Ces pages de passerelle fourniront une information suffisante pour estimer le nombre de documents non consultables directement et d’identifier des types communs de pages à la diffusion contrôlée. 3. Les différentes pages Web 3.1. Page statique D’après le nom statique on comprend que se son des pages presque figé, leur contenu est actualise par un webmaster. 3.2. Page dynamique 3.2.1. Vers des sites Web dynamiques La plupart des entreprises ont commencé par utiliser des pages statiques pour créer leurs sites web. Ce système présente un avantages de taille : aucune connaissance en programmation n’est nécessaire et toute personne équipée d’un éditeur de page Web est capable de créer quelques pages et de les installer en ligne. Après quoi, il suffit d’un serveur Web en bon état de fonctionnement, ce qui n’est pas un problème aujourd’hui. Des pages Web statiques occupent moins de ressources sur un serveur que des pages dynamiques puisque le serveur n’a qu’une tache a effectuer : retrouver la page Web sur son disque dur et la transférer au navigateur web. Mais un jour ou l’autre, les entreprises veulent en faire plus et souhaitent relier leurs pages Web à leurs bases de données. Il est alors possible de créer des pages dynamiques à qui permettent aux visiteurs d’ajouter, d’insérer ou de supprimer des données, pendant que les données internes sont immédiatement disponibles sur internet. Les pages dynamiques sont incomparablement plus souples et plus utiles que les pages statiques, même si elles consomment un peu plus de ressources sur le serveur web. Les pages statiques existent toujours, mais ne sont plus utilisées que sur les sites de quelques pages rarement mises à jour. Une entreprises proposant des services en ligne doit disposer d’un site, et donc de données, toujours parfaitement à jour. Imaginez une entreprise vendant des imprimantes sur le Web, mais ne proposant pas le dernier modèle parce que la mise à jour de ces pages statiques demande trop de temps. Si elle utilisait un site Web dynamique, elle introduirait les données de la nouvelle imprimante dans la base de données du serveur Web et les informations seraient aussitôt disponibles pour les visiteurs du site. Exposé MCSI 2003-2004 6 Webmaster -7- Grâce aux pages Web dynamiques, les entreprises peuvent créer une mise en page standard, enregistrée séparément des données. La mise en page et le contenu sont combinés au moment ou un client accède à votre site pour constituer une page Web très personnalisée , répondant a la demande du client. Presque tous les sites commerciaux utilisent des pages Web dynamiques. La modification et la mise en page en sont facilitées, car il suffit de changer quelques modèles ; le coût et le délai de réalisation d’une nouvelle présentation de page se trouvent réduits. Ce concept permet aux agences de design de concevoir la présentation d’un site Web sans toucher le contenu. Les pages dynamiques ne sont pas obligatoirement pré construit sur le serveur. Avec CSS (Cascading Style Sheets). DOM (Document Objet Model) et Java script, il est possible de créer des site Dynamique HTML coté client. 3.2.2. L’intérêt des pages dynamiques : Si le passage aux pages dynamiques requiert un petit effort pour assimiler un langage de programmation, les avantages qui en découlent sont considérables, par exemple : a. Des mises à jour automatiques La mise à jour des sites réalisés totalement en HTML devient vite infernale, surtout s le nombre de pages est important. L’utilisation d’un langage de programmation permet d’automatiser partiellement ou totalement ces mises à jour. Vous affichez sur votre site des informations, avec des pages statiques, il vous faut faire régulièrement le tri, réorganiser ces informations et supprimer celles qui sont périmées. Bref vous devez souvent refaire une bonne partie des pages. En passant aux pages dynamiques, vous pouvez ajouter à vos informations une durée de validité. Le programme comparera alors la date du jour avec la période de validité des informations et n’affichera que celles qui sont d’actualité. Sans intervention aucune de votre part. b. Une maintenance facilitée Les sites Internet doivent régulièrement évoluer. Si vous voulez changer ne serait-ce que la présentation générale de vos pages, il faudra les revoir une à une si elles sont réalisées en HTML. Si ce sont des pages dynamiques, vous pourrez, si vos programmes sont bien conçus, changer un paramètre ou deux et toutes vos pages seront automatiquement modifiées. Lorsqu’il ne s’agit que de changement de couleurs ou de polices de caractères, les feuilles de styles peuvent résoudre le problème. Mais les feuilles de styles ne sont pas exploitées par tous les navigateurs. En traitant le problème avec un langage de programmation, vous n’avez pas à vous préoccuper de la version du navigateur utilisée par les internautes. La maintenance est d’autant plus facilitée par le passage aux pages dynamiques qu’il suffit quelquefois d’un seul programme pour remplacer des centaines de pages. Exemple typique : Un service de petites annonces. Si vous gérez votre service en HTML, vous aurez probablement une page par annonce. Avec les pages dynamiques, vous n’aurez besoin que d’un seul programme pour afficher toutes les annonces. Ce programme affichera la maquette choisie pour la présentation et inséreras les données concernant l’annonce. Ces données pourront être lues à partir d’un fichier ou d’une base de données. Exposé MCSI 2003-2004 7 Webmaster -8- II. Les Administrateurs en informatique 1. Définition Personne charger d’un logiciel complexe, de son installation, de sa configuration, de son évolution et du suivi de ses performances. Exposé MCSI 2003-2004 8 Webmaster -9- 2. Différentes administrateur La fonction d’administrateur se rencontre principalement pour les systèmes d’exploitation (administrateur système), pour les réseaux informatiques (administrateur réseau), pour les systèmes de gestion de bases de données (administrateur de base de données) et pour les sites Web (webmestre ou webmaster). 2.1. Administrateur système Bien que les connaissances requises pour administrer un système dépendent fortement de ce système, les fonctions d’administration restent semblables. On peut les découper en deux grandes catégories : les fonctions d’initialisation du système qui sont effectuées peu fréquemment et les fonctions de maintenance qui sont effectuées quotidiennement. Les fonctions d’initialisation comprennent l’installation du logiciel, sa configuration (ou paramétrisation) qui consiste à adapter le logiciel à son environnement d’utilisation (configuration de l’ordinateur, charge attendue), et son évolution (installation des nouvelles versions et reconfiguration). Les fonctions de configuration sont souvent les plus difficiles à assurer, en raison de la forte interaction entre les différents paramètres à définir. Les fonctions de maintenance comprennent la sauvegarde des données sensibles du logiciel et notamment des données utilisateurs (voir archivage). Ces sauvegardes seront plus ou moins fréquentes, selon le taux de mise à jour des données et la fiabilité que l’on veut obtenir. La sécurité informatique constitue une fonction primordiale de l’administrateur d’un système. Cela passe par la surveillance des accès au logiciel, par l’identification de trous éventuels de sécurité dans le logiciel utilisé (il existe des sites Web spécialisés dans le recensement des failles de sécurité dans les logiciels les plus utilisés). Le maintien d’un bon niveau de performance du logiciel administré est également une fonction importante. La notion de « bon niveau » est généralement fixée par les utilisateurs du système, qui eux seuls peuvent définir ce qui est tolérable ou non en termes de temps de réponse. L’administrateur a généralement à sa disposition un ensemble d’outils d’observation qui vont lui permettre de diagnostiquer les problèmes éventuels. Par exemple, un webmestre dispose des fichiers d’enregistrement des accès sur le serveur Web, ce qui lui fournit de précieuses informations. 2.2. Administrateur de site Web (Webmaster) Le webmestre (ou webmaster) doit veiller au bon fonctionnement du site Web dont il a la charge. Cela recouvre l’installation du serveur Web et sa configuration. Celle-ci dépend fortement de la nature du site : est-il composé uniquement de pages statiques ou contient-il des pages dynamiques (pages construites par des programmes) ? Quel est le nombre moyen de pages consultées par jour? Est-ce qu’il contient de l’information sensible qu’il faut sécuriser? En fonction des réponses à ces questions, la configuration du serveur va être différente. S’il faut assurer des fonctions de sécurité élevées, il est nécessaire d’ajouter des modules supportant des protocoles sécurisés, comme SSL (Secure Socket Layer). En outre, si le site contient des pages dynamiques, il convient d’autoriser l’exécution de programmes et d’installer des modules permettant l’accès aux bases de données. Enfin, si le nombre de pages Exposé MCSI 2003-2004 9 Webmaster - 10 - consultées est important, il faut lancer plusieurs exemplaires du serveur, de manière qu’ils puissent traiter des requêtes en parallèle. La configuration doit être adaptée de façon continue à l’utilisation du site. Pour ce faire, le webmestre analyse les fichiers de journalisation des accès, ce qui lui permet de connaître la charge du serveur, la répartition des accès dans le temps, le domaine de provenance des requêtes clients, ainsi que les erreurs d’accès (pages demandées sur le serveur qui n’existent pas ou pour lesquelles le mécanisme d’autorisation a refusé l’accès). Dans certains cas, le webmestre peut aussi être responsable de la cohérence graphique du site. Par exemple, les pages doivent être organisées de la même façon avec un bandeau de navigation en haut, une aide sur le côté. De même, il y a souvent une charte graphique associée précisant les couleurs à utiliser, le choix des icônes, etc. Le webmestre doit alors vérifier que les pages qui sont ajoutées sur le site respectent toutes ces règles. 2.3. Administrateur réseau Un réseau informatique se compose à la fois de parties logicielles (les multiples protocoles utilisés), d’équipements (routeurs, concentrateurs…) et de liens physiques (câble coaxial, fibre optique). Le rôle de l’administrateur réseau consiste à superviser ces différents aspects. Pour l’aspect logiciel, on retrouve les fonctions classiques d’administration. En outre, il existe sur le marché des plates-formes logicielles d’administration de réseau qui permettent d’avoir une vision globale sur le réseau (on peut citer par exemple OpenView de Hewlett-Packard). Pour connaître l’état du réseau, ces plates-formes interrogent les divers ordinateurs et équipements présents à l’aide de protocoles de niveau application. Dans le monde TCP / IP (Transmission Control Protocol / Internet Protocol), le protocole le plus utilisé est SNMP (Simple Network Management Protocol). Les informations recueillies auprès des équipements sont par exemple la charge, le nombre de paquets ayant transité, le nombre de paquets perdus, etc. Si des problèmes surviennent, ils sont détectés par la plate-forme qui peut soit prévenir l’administrateur, soit prendre elle-même des décisions de reconfiguration. Des problèmes importants peuvent amener à modifier le réseau lui-même, en remplaçant un équipement par un autre plus performant (passage d’un concentrateur (ou hub) à un routeur), ou en rajoutant de nouveaux liens physiques pour fournir des chemins supplémentaires. IV. Administrateur de site Web « Webmaster » Exposé MCSI 2003-2004 10 Webmaster - 11 - 1. Webmaster et l’entreprise L’avènement d’Internet a grandement contribué à la création de nouvelles professions au niveau de l’entreprise. Cette situation a entraîné une forte demande sur le marché de l’emploi qui n’était pas préparé pour répondre à ce type de sollicitation. Les causes de cette carence s’expliquent par l’absence de compétence dans ces nouveaux domaines, du fait de l’émergence et de la propagation rapides des nouvelles technologies de la communication. Dès lors, les besoins de formation en cadres rapidement opérationnels pour l’entreprise se sont posés avec acuité. Parmi les postes les plus convoités par certaines entreprises et organisations nous pouvons recenser, en premier lieu, la fonction d’un Webmaster. Pourquoi un Webmaster ? Les raisons de recruter un Webmaster au sein de l’entreprise sont : - La volonté de mise en place et d’administration des sites Web. - Introduire la culture Internet, ce qui devait passer forcément par la formation et la conversion du personnel. - Nécessité d’établissement d’une passerelle entre la vie interne de l’entreprise et le monde externe. Au-delà de son rôle de catalyseur de la communication interne et externe au niveau de l’entreprise, le Webmaster procure à l’organisation différents services : veille stratégique, suivi du comportement des marchés, détection des opportunités sur le net, collecte de données techniques… 2. Domaines d’intervention des Webmaster Exposé MCSI 2003-2004 11 Webmaster - 12 - Le champ d’action du Webmaster est variable. Il dépend globalement de la stratégie et de la dimension de l’entreprise. 2.1. Mise en route 2.1.1. Hébergement Un site doit être stocké sur un serveur connecté à Internet pour que les internautes puissent le consulter. 2.1.1.1. Stratégie d’hébergement d’un site Web La décision d’ouverture de l’entreprise sur Internet relève d’une stratégie avec des dimensions financières, commerciales, techniques et sociales. L’environnement dans lequel évolue l’organisation l’incite aujourd’hui à abandonner les politiques de confinement et l’encourage à s’inscrire dans une dynamique d’évolution qui garantira la pérennité. La mise en place du site Web de l’entreprise sur Internet ne représente plus seulement une petite vitrine sur ce réseau, mais il est devenu le prolongement naturel du système d’information de l’organisation. a. Hébergement du site en interne Mettre un site en interne demande des ressources importantes et des compétences certaines. Le serveur doit bénéficier d’une bonne connectivité à travers une ligne spécialisée et requiert un personnel qualifié capable d’assurer son fonctionnement H24 et sa totale sécurité contre les intrusions. b. Hébergement du site en externe Installation du site chez un hébergeur sélectionné. Concernant ce mode d’hébergement, deux solutions sont disponibles : Choix d’un serveur virtuel ou co-hosting Allocation d’une fraction de l’espace disque d’un serveur qui partage ses ressources avec plusieurs clients. Les avantages d’une solution réside dans le fait qu’elle présente une économie de coûts et ne demande qu’un Webmaster qui sera chargé de son administration. Choix d’un serveur dédié Dans ce cas, le serveur n’est pas partagé, il reste attribué à un seul exploitant. D’autres solutions existent qui viennent en complément des formules précédemment citées, il s’agit de : Co-location C’est l’hébergement du site (généralement sa duplication) dans une optique de se rapprocher du marché naturel de l’entreprise. L’objectif visé est l’accessibilité du site. L’obtention des meilleurs temps de réponse du site sur le backbone d’un pays, relever d’une stratégie de proximité de la cible visée. Miroring C’est la copie conforme d’un site appelé à fonctionner constamment. Le miroring est une opération qui consiste à assurer le relais permanent du site de l’entreprise et lui assurer une relève permanente pour pallier toute défaillance d’interruption de fonctionnement. 2.1.1.2. Les différentes familles d’hébergeur de site Web Exposé MCSI 2003-2004 12 Webmaster - 13 - Les entreprises spécialisées dans la fourniture de ce genre de prestation se répartissent globalement comme suit : Les fédérateurs Ce type de sociétés spécialisées concentre leur offre sur un type d’hébergement mutualisé. Les fédérateurs, généralement de grandes sociétés américaines, cherchent à fédérer un grand nombre de clients pour loger leurs sites Web sur les mêmes machines. La proposition consiste à attribuer des serveurs virtuels (non visible pour les internautes) qui partagent les ressources d’une seule machine affectée à un nombre calculé de clients. Le point fort de la stratégie réside dans des offres packagées avec des prix qui défient toute concurrence pour le même type de qualité de service. On peut citer comme exemple, les sociétés Verio et Rapidiste (sa filiale) qui hébergent à aux seuls plus de 600 000 sites Web. Les solutions proposées consistent à offrir des services de base qui peuvent évoluer en fonction des besoins propre de chaque propriétaire, ceci implique automatiquement une facturation supplémentaire d’extra. Ces sociétés sont d’un haut niveau de spécialisation dans les techniques de partage des ressources, dans l’augmentation continue de la bande passante et la redondance de leur connexion au backbone. Les mesures de sécurité et la planète. Elles garantissent au site Web, un fonctionnement permanent avec des qualités de services très appréciables. Les fournisseurs d’accès Internet Les providers profitent de leur bande passante Internet pour affecter une partie de ce débit à l’hébergement des sites Web. Leurs services d’hébergement consistent globalement à : L’allocation de serveur dédié L’allocation d’un serveur virtuel (partage d’un serveur entre plusieurs sites Web) La permission de recevoir la machine de la société au niveau de son centre d’accès pour son raccordement au débit Internet L’opérateur réseau Le métier de cet opérateur consiste à allouer de la bande passante. Ces sociétés, généralement publiques, sont des spécialistes de la connectivite, la maîtrise totale des techniques de raccordement et les optimisations de la gestion de la bande passante en font des fournisseurs d’espace d’hébergement non négligeable. Leurs offres ciblent les fournisseurs d’accès et les spécialistes de l’hébergement. Les hébergeurs gratuits Dans la quête et la frénésie de capter d’avantage la manne issue de recettes publicitaires récoltées à travers les bannières insérées obligatoirement dans le haut des pages, certaines grandes sociétés n’hésitent pas à proposer l’hébergement gratuit des sites Web allant jusqu'à 1 giga-octets. L’offre vise la catégorie des particuliers pour les pages personnelles, celle-ci n’est pas une offre commerciale. Ces solutions ne répondent nullement aux besoins des entreprises compte tenu de l’obligation faite à l’hébergé de faire tourner sur le site free de la pub appartenant aux annonceurs mondiaux. La décision d’opter pour ce type de site signifie que l’entreprise ne dispose pas de ressources financières ou que l’encadrement de l’organisation comporte des carences en matière de culture Internet. Exposé MCSI 2003-2004 13 Webmaster - 14 - 2.1.1.3. Les différentes hébergeurs de site Web Nom Absence de pub Scripts Citeweb CiteWeb est un hébergeur créé par des bénévoles, ce qui rend la publicité (quasiment) absente. De plus, CiteWeb propose de nombreux services : compteurs, formulaires, statistiques, possibilité d'avoir un nom de domaine... la bande passante du site est de qualité. ASP IFrance et Le village (mêmes serveurs) Espace Web 200 Mo (le site Web doit être de langue française) Vous pouvez sur ce site créer des sites perso pour WAP. Les services sont nombreux (E-mail, compteurs, statistiques détaillés...) et une aide claire. Avec ce site, la création vous ouvre ses portes ! (Grande frame en bas de l'écran) Illimité ! Xoom est spécialisé dans l'hébergement et propose un espace illimité et gratuit ! Qui plus est, une banque d'image, des compteurs et pleins d'autres services viennent compléter le tout. Xoom (Petite frame en haut du site) - Illimité ! Multimania est un site très populaire, proposant une multitude de services, mais le plus important est sans doute sa fréquentation, ce qui assure de plus grandes interactions entre les visiteurs (chat, forum)... Multimania (ancien Mygale) (un bandeau publicitaire lors de l'ouverture de chaque pages) PHP4 + MySQL 100 Mo + 50 Mo sur demande (illimité) Votre demande ne sera prise en compte que si votre espace actuel est plein et si votre site est conforme à la chartre de Multimania. Free est avant tout un fournisseur d'accès gratuit, mais c'est sans doute l'hébergement la clef de son succès. Celui-ci propose plusieurs services intéressants (ex: Mailing-List) et de nombreuses aides pour les webmasters. Free PHP3 + MySQL Absence de la fonction mail(). Extension GD. 100 Mo (possibilité de créer plusieurs sous-comptes) Nexen est un hébergeur qui s'est spécialisé dans le PHP, qui fait en grande part sa réputation. De nombreux exemples de scripts et une documentation très riches vous sont présentés. Sans pub, ce serait sans doute le meilleur hébergeur PHP. Nexen (Publicité personnalisable) PHP4 + MySQL + extensions 100 Mo Forez est également un hébergeur PHP. Forez (Bannière obligatoire sur la première page) Chez.com PHP + MySQL Pas d'extensions. 20 Mo Peut de services (pas de statistiques, pas de formulaires) ; possibilité de créer 5 comptes, soit 250 Mo avec la même adresse mail. (Frame en bas de l'écran) - 50 Mo extensibles à 250 Mo (5 comptes). 2.1.2. Mise en ligne Que faire d’une page une fois conçue ? Exposé MCSI 2003-2004 14 Webmaster - 15 - Si la page est destinée au World Wide Web, il faut l’envoyer sur le Site Interne. Le Site Internet se trouve sur un serveur chez un fournisseur d’accès (provider) hébergeur. La publication du Site Web sur un système extérieur, nécessite un accès FTP pour télécharger tous les fichiers. La procédure de téléchargement est relativement simple grâce aux logiciels clients FTP. Parmi ces logiciels nous citerons FTP Voyager, Cute FTP, WS_FTP… 2.1.2.1. Les clients FTP Les clients FTP vous permettent de transférer via le protocole FTP (File Transfert Protocole) vos pages sur un serveur (votre hébergeur), et vice vers sa. C'est la méthode universelle pour le transfert de fichiers. 2.1.2.2. Exemple de publication avec FTP Expert FTP Expert est un client FTP réputé et couramment utilisé, c'est pourquoi je vais vous faire la démonstration avec celui-ci. Par ailleurs, bien qu'il s'agisse d'un shareware, il ne comporte aucune limitation et il est simple d'utilisation. L'écran de connexion de FTP Expert : Exposé MCSI 2003-2004 15 Webmaster - 16 - Voici l'écran qui apparaît lorsque vous lancez le logiciel. o o o o Dans le champ Nom du site, peut importe ce que vous mettez. Il s'agit tout simplement du nom de votre connexion. Donnez lui un nom explicite du genre "Mon site sur Multimania". Dans le champ Adresse hôte vous devez mettre l'adresse FTP du serveur (de votre hébergeur). Cette adresse est du genre ftp.serveur.com. Par exemple ftp.multimania.com si vous êtes hébergé par Multimania. Dans le champ ID de l'usager, vous devez mettre votre login. Il s'agit du nom de votre compte, par exemple http://www.multimania.com/votrecompte/. Mot de passe : il s'agit de votre mot de passe, que vous avez donnez lors de la création de votre compte chez l'hébergeur. Après avoir remplit ces paramètres, cliquez sur Appliquer puis sur Connecter pour accéder au serveur. Certain hébergeurs comme IFrance vous demanderez une clef d'ouverture de compte pour que tout le monde puisse accéder à votre site. (Sans cela, il vous sera demander votre nom et votre mot de passe à chaque fois que vous voudrez accéder à votre site et l'internaute ne pourra évidemment pas le visiter). Une fois connecté, il vous suffit de faire glisser les pages de votre disque dur (écran de gauche) vers le serveur (écran de droite). L'interface fonctionne comme l'Explorateur de Windows. 2 répertoires sont en général déjà présent sur le serveur : le répertoire BIN et un autre répertoire. Il se peut que vous ne les voyez pas car ceux-ci sont cachés (il faut avoir décoché une option dans le client FTP pour les voir). N'essayez pas de les supprimer, c'est impossible et vous en avez besoin pour que votre site puisse fonctionner. Les clients FTP utilisent en général par défaut le mode de transfert ASCII, or dans ce mode, conçu pour les pages HTML, certains fichiers contenant des caractères spéciaux (les fichier ZIP par exemple, ou autre), sont mal transférés et même parfois irrécupérables. Pour résoudre le problème, le mieux est de configurer le mode de transfert en binaire pour ces fichiers Exposé MCSI 2003-2004 16 Webmaster - 17 - 2.1.2.3 Sélection de logiciels http://www.wsftp.com/ Rapide et simple d'emploi - très professionnel - celui que j'utilise personnellement FTP Expert3 http://www.visic.com/webexpert/ très complet : indicateur de vitesse de téléchargement, personnalisation poussée de l'interface; transferts de serveur à serveur; exécution de plusieurs transferts en parallèle de façon simultanée; contrôle sur les transferts à l'aide de la liste d'attente; survol des images d'un répertoire donné sous forme de miniatures (thumbnails) côtés local et serveur; fonction de recherche de fichiers sur le serveur ..... Attention : ne convient pas aux débutants car interface un peu trop fournie et donc peut paraître un peu "touffue" CuteFTP http://www.cuteftp.com/download/index.html Un autre utilitaire de transfert FTP assez simple à utiliser 2.1.3. Statistique 2.1.3.1. Les services Voici les principaux services de statistiques français. Notez la différence entre "statistiques", qui permet de visualiser les heures de visites, l'origine des visiteurs, leur configuration... de "compteurs", qui n'est qu’une image présentant le nombre total de visiteurs sur le site eStat eStat est certes un service très répandu, mais qui n'offre pas beaucoup d'intérêt par rapport à d'autres sites de statistiques (qui parfois ont des statistiques plus détaillés et avec moins de restrictions). Nombres de compteurs max : 20 Discrétion : logo eStat http://www.estat.com Weborama Exposé MCSI 2003-2004 17 Webmaster - 18 - Des statistiques détaillées de votre site, un espace de discussion (Chat) sur votre site ; des sondages en ligne sur votre site ; accès aux nouvelles de l'Internet francophone. Nombres de compteurs max : ? Discrétion : logo http://www.weborama.fr Xiti Un autre site de mesure d'audience. Il à l'air pas mal, mais je ne l'ais pas encore essayé. Nombres de compteurs max : ? Discrétion : logo Xiti http://www.xiti.com Statistiques : Nedstat : Espionnage de votre site (discret), avec un petit logo est des statistiques détaillées consultables en temps réel. Real Track Free : Statistiques détaillés de votre site (logo). Ce site est traduit en plusieurs dizaines de langues. Hit-Parade : Compte les visites de votre site et établie un classement de celui-ci ; mesure donc la popularité de votre site. Avantage : plus votre site est haut dans le classement, plus vous aurez de chances d'avoir encore plus de visites ! Attention : le logo Hit-Parade doit toujours bien se charger, car sinon vous risqueriez d'avoir des surprise dans vos statistiques - et dans votre classement - ! AllStats4u : Ce service semble pas mal, les statistiques sont très détaillées et vous permettront de savoir tout ce que vous avez toujours voulu savoir sur vos visiteurs ! o Statistiques quantitatives : nombre illimité de pages vues, nombre illimité de visiteurs, sur un nombre illimité de sites… o Statistiques qualitatives : mots clés, moteurs de recherche, résolution d'écran, domaine et origine géographique, système d'exploitation, navigateur et version utilisée…. Compteurs : Perl gratuit : 70 styles de compteurs. Compteur.com : Plus de 100 styles de compteurs pour votre site ! Exposé MCSI 2003-2004 18 Webmaster - 19 - 2.1.3.2. Interprétation 1) Les heures de visites : On remarque que les heures de pointe de visites sur les sites français se situent entre 17H et 22H. Les heures creuses entre 0H et 10H. Ces informations sont importantes dans le sens de l'administration du site : faite les mises à jour pendant les heures creuses ! Le mieux est de se lever tôt le matin... Ces chiffres dépendent également de la cible de votre site : un site professionnel, ou éducatif (par exemple ce site) aura les pointes de visites vers 17 - 18H, alors qu'un site plus de détente aura les pointes un peut plus tard. 2) Origines géographique : Exposé MCSI 2003-2004 19 Webmaster - 20 - Ce graphique montre les origines géographiques des visiteurs, pour un site francophone. A noter que celles-ci peuvent être très variable selon les moteurs de recherches dans lesquels sont référencé le site. Pour un site français, il est normal d'avoir beaucoup de visites des pays francophones. Dans le cas contraire, sachez que cela signifiera que le référencement de votre site à été mal effectué ! 3) Visites par domaines : Vous pouvez voir à travers ce graphique les principaux fournisseurs d'accès utilisés par vos visiteurs. 4) Navigateurs : Exposé MCSI 2003-2004 20 Webmaster - 21 - Ce graphiques est très parlant : on ne voit aucun navigateur antérieur à la version 4 (non pas qu'ils y en a pas, mais que leur quantité est trop faible : moins de 1%) ! Par contre, il se peut également que les vieux navigateurs ne soient pas pus atteindre la page contenant le compteur.. 5) Systèmes : Monopole ? Microsoft Windows (95, 98 et NT) est utilisé par plus de 95% des internautes (les 0% veulent dirent en fait moins de 1% 2.2.Promotion C'est bien beau d'avoir fait un chef d'oeuvre, encore faut-il que tout le monde puisse le voir ! 2.2.1. Référencement Comprendre et améliorer un référencement, c'est avant tout analyser le "comportement" des différents moteurs et annuaires de recherche, ceci afin de référencer correctement son site Web et d'accroître la fréquentation de celui-ci. 2.2.1.1. Moteurs de recherche 2.2.1.1.1. Principe de fonctionnement Dans cette partie on va explique comment fonctionne un moteur de recherche : l'Aspirateur, qui surfe sur le Web à la recherche de nouvelles pages - l'Indexeur, qui se charge de sauvegarder les résultats dans une base de données - le Guichetier, qui permet à l'internaute d'effectuer ses recherches. Exposé MCSI 2003-2004 21 Webmaster - 22 - La forme du Web Après une analyse des liens tissés entre 200 millions de pages, la répartition des pages des chercheurs ressemble à un noeud de papillon. Le Coeur est constitué de pages hyperconnectés, qui se citent mutuellement. Cet espace est facile à parcourir avec des robots. Les pages IN citent mais ne sont pas cités (la moitié d'entre elles, les dendrites, pointent vers le coeur), contrairement aux pages OUT, qui sont citées mais qui ne citent pas. Enfin, les pages déconnectées ne sont pas citées et ne citent pas. a. Aspirateur Un moteur de recherche, contrairement à un annuaire, fonctionne avec des robots, dont le but est de rechercher le plus de pages possibles, en suivant les liens d'un site à l'autre. Mais il est impensable de faire cette opération qui nécessiterait des semaines pour chaque requête d'un internaute. C'est pourquoi les résultats sont aux préalables stockés dans une immense base de donnée constamment mise à jour par des robots. Plus la vitesse de rafraîchissement de cette base est importante, plus vous obtiendrez une représentation fidèle du Web. Cette tache de recherche est confiée à des robots, aussi appelés crawlers (rampeurs) ou encore spider (araignées). Nous dirons plutôt, pour une meilleur compréhension qu'il s'agit d'aspirateurs. Un aspirateur donc est un programme qui cherche des pages en passant de site en site et le plus rapidement possible. Cette opération nécessite un logiciel et un ordinateur très performants ainsi qu'une connexion Internet ultra rapide. Les aspirateurs actuels visualisent dans les 100 pages par seconde pour les meilleurs. Il faudra donc disposer de plusieurs aspirateurs pour être performant (ou se contenter d'une remise à jour de l'index tous les trimestres, ce qui est beaucoup trop lent vu l'évolution du Web actuel). Mais les aspirateurs ne visualisent pas toute la page, comme nous la voyons. Seul des balises comme le titre, ou encore la description et les mots clefs sont prises en compte, si elles existent, ainsi que le début du texte de la page généralement. Il ne faut pas oublier à ça l'URL de la page, qui doit être enregistrée, ainsi que les liens se trouvant sur cette page, permettant d'arriver à d'autres pages et de les aspirer à leur tour. Bien sur, lorsqu'il passe par une page déjà visitée il y a peu de temps, celle-ci est ignorée. Dans le cas contraire, elle est placée dans la file d'attente des pages restant à visiter. Toutes ces informations ont étés prisent à la volé, et ne figurent pas encore dans la base de donnée du moteur de recherche. Il faut d'abord traiter ces pages (par exemple déterminer sa Exposé MCSI 2003-2004 22 Webmaster - 23 - langue, repérer les mots importants qui seront décisifs lors d'une recherche), l'aspirateur cède alors sa place à l'indexeur. b. Indexeur Le but premier de l'indexeur est d'analyser les pages envoyées continuellement par l'aspirateur. La première étape consiste à identifier la langue du document. Pour cela, l'indexeur, qui est un programme rappelons le, ne peut pas faire autrement que d'utiliser une méthode statistique, en recherchant les mots ou les lettres qui reviennent souvent dans une langue. Essayer de comprendre le sens de chaque mot nécessiterait beaucoup plus de temps et s'avèrerait très complexe. Dans le même contexte, l'indexeur peut choisir d'ignorer certaines pages inopportunes, à caractère pornographique ou raciste par exemple, en se basant sur une liste de mots interdits. Une fois cette lourde tache effectuée, il faut préparer les informations contenues dans les pages pour êtres stockées dans une base de donnée. La première chose à faire, dans un soucie de performance, est d'éliminer tout ce qui est inutile dans la page, comme les mots courts (les articles par exemple), ainsi que les signes de ponctuation (seul les points sont conservés). L’opération suivante est de classer les mots de la page par ordre d'importance. Ainsi un mot étant répété souvent ou précocement (dans le titre par exemple) dans la page sera considéré comme important. Un autre critère important pris en compte est la popularité des pages. Plus elles sont populaires (cités par d'autres pages), mieux elles seront classées. Ce système pose néanmoins un problème de taille : quelqu'un souhaitant voir sa page en première position dans un moteur de recherche pour le mot "mp3" n'hésitera pas à le répéter dans la page pour lui donner plus d'importance. Cette technique s'appelle le spam indexing. Une des méthodes employées par les Webmasters consiste à répéter dans mots dans la page en leur donnant la même couleur que l'arrière plan de celle-ci, et ainsi les camoufler aux yeux des internautes. A noter que cette vieille technique est déjà contrée par tous les robots. Cela pose évidemment un autre problème à l'indexeur, qui ne doit pas se faire duper par les Webmasters. Plusieurs techniques sont mises en oeuvre pour limiter cette tricherie. Une autre forme d'arnaque consiste à augmenter la popularité d'une page "artificiellement", en créant des pages bidons, optimisées chacune pour certains mots clefs, qui redirigent automatiquement l'internaute et le robot vers celle-ci. On parle alors de pages "Fantômes". Dans ce cas, l'indexeur n'hésitera pas à supprimer simplement la page citée abusivement par des pages fantômes. Enfin, les pages ainsi traités peuvent être enregistrées dans la base de données du moteur de recherche. Exposé MCSI 2003-2004 23 Webmaster - 24 - c. Guichetier Le guichetier est en quelque sorte un intermédiaire entre l’internaute et la base de donnée du moteur : c'est le lui qui se charge de rechercher dans l'index les pages correspondantes aux mieux aux critères de recherche et à les classer par ordre de pertinence. La principale difficulté est de sélectionner les bons sites. Pour cela, l'internaute peut utiliser des opérateurs logiques, comme ET, OU, SANS, PROCHE... Mais le principal problème est qu'un moteur classique est incapable de comprendre le langage naturel que nous parlons. Bien que certains moteurs permettent ce type d'approche, les résultats sont encore assez hasardeux. Le guichetier peut également classer les résultats en fonction du choix des internautes. Par exemple, si un site classé initialement en troisième position pour un certain mot clef est choisit le plus souvent en premier, il aura de forte chance de grimper à la deuxième, voir la première place. Cependant, un site ayant un titre et une description attrayante ne contiendra pas forcément l'information finalement recherchée, et pourra gagner des places sur d'autres sites contenant eux la bonne information. Il ne faut pas oublier non plus que certain moteur sont plus performants que d'autres dans certains domaines et d'autres dans d'autres. Pour faire une bonne recherche, il faut donc savoir utiliser et interpréter les résultats de plusieurs moteurs de recherches. 2.2.1.1.2. Fonctionnement des principaux moteurs Sur quels critères se basent les moteurs de recherche pour indexer votre page ? Analyse du fonctionnement de quelques moteurs. Voici un tableau comparatif des différents moteurs de recherches Quelques explications relatives aux tableaux : Intitulé de l'URL : chaque terme de l'URL peut servir de mot clé. Exemple : http://www.abondance.com/produits/epicerie/stylos.html peut fournir les mots clés abondance, produits, épicerie et stylos. Frames : Le fichier principal est celui qui contient la balise <FRAMESET>. Imagemaps : Il s'agit des Imagemaps contenant la description des zones dans la balise HTML (fonction USEMAP). Exposé MCSI 2003-2004 24 Webmaster - 25 - Délai de rafraîchissement de l'index : délai moyen entre deux renouvellements complets de l'index du moteur. Soumission Soumission Délai de prise en compte de la page lors d'une soumission manuelle 1 ou 2 jours 1 à 3 semaines Délai de rafraîchissement de l'index 6 semaines 6 semaines Scooter ArchiText Spider Nom du spider Champs pris en compte lors de l'indexation des pages Titre Oui (environ 100 caractères maximum) Balise META description Oui (1 024 caractères maximum) Balise META keywords Oui (50 caractères environ) Non (affichée dans les résultats, mais non prise en compte dans les calculs de pertinence). Oui (1 024 caractères maximum) Non Commentaires <!-- --> Non Non Attributs ALT des balises IMG Oui Non Intitulé de l'URL Oui Oui Le fichier principal est indexé, et parfois le contenu de chaque cadre. Seul le fichier principal est pris en compte. Oui Non Oui : tout le texte de la page est indexé jusqu'à 100 Ko. Au-delà, seuls les liens sont indexés. Oui : tout le texte de la page est indexé. Une page de petite taille est préférable à un long document. Titre *** Titre *** Corps du texte ** Corps du texte ** Balise META keywords * Balise META keywords : Non Pas pris en compte *** Frames Imagemaps Corps du texte Importance relative des différents critères Indice de popularité de la page Modalités d'exclusion des pages Fichier robots.txt Oui : pris en compte Oui : pris en compte Balise META robots Oui : prise en compte Non : pas de prise en compte Exposé MCSI 2003-2004 25 Webmaster - 26 - Soumission Soumission Délai de prise en compte de la page lors d'une soumission manuelle 2 à 4 semaines 1 ou 2 semaines Délai de rafraîchissement de l'index 2 à 3 semaines 2 à 4 semaines T-Rex Gulliver Nom du spider Champs pris en compte lors de l'indexation des pages Titre Oui Oui Balise META description Non Oui Balise META keywords Non Oui Commentaires <!-- --> Non Non Attributs ALT des balises IMG Oui Non Intitulé de l'URL Non Oui Frames Imagemaps Corps du texte Importance relative des différents critères Indice de popularité de la page Northern Light semble Seul le fichier principal est indexé. prendre en compte de façon efficace les frames. Non Oui Oui. Le début du texte est très important. Les pages courtes (mais contenant plus de 100 mots) sont mieux classées que les longs documents. Oui Tout le texte de la page est indexé. Les mots clés importants doivent se trouver dans la première partie de celui-ci. Titre *** Titre *** Corps du texte *** Corps du texte ** Balise META keywords : Non Balise META keywords * ** Pas pris en compte Modalités d'exclusion des pages Fichier robots.txt Oui : pris en compte Oui : pris en compte Balise META robots Oui : prise en compte Oui : prise en compte Exposé MCSI 2003-2004 26 Webmaster - 27 - 2.2.1.2. Pré-référencement Cette étape est importante avant de référencer le site : il s'agit de mettre en place des balises lues par les robots des moteurs de recherches, comportant les mots clefs et la description du site (sans oublier le titre). 2.2.1.2.1. Les balises Méta-tags a. Le titre La page principale (index ou default) doit avoir un titre attrayant et pas trop long (5 à10 mots) qui doit décrire en quelque mot un site et ses thèmes abordés.. Surtout ne le négligez pas, c'est ce que voie l'internaute en premier dans un moteur de recherche et il cliquera beaucoup plus facilement sur un bon titre, parfois même sans lire sa description ! Le titre est définit dans la balise <title>, dans "head". Celui-ci ne doit pas excéder une demi-ligne. Exemple : Guide Webmaster : toutes les techniques pour faire un site Quelques conseils pour le choix de titre : Essayez autant que possible de faire commencer le titre par l'une des premières lettres de l'alphabet. En effet, les annuaires classent les sites alphabétiquement. Si un titre commence par a ou un chiffre, ils bénéficiaient d'une meilleure visibilité (le site sera en haut de la liste). Adoptez un titre concis et clair. Évitez les titres du style : "Le meilleur site...", "Tout sur ce site..." Il ne vous démarqueront pas des autres sites et seront souvent ignorés par les annuaires. Évitez la répétition de mots. La plupart des moteurs et annuaires sanctionnent ce genre de pratiques. La balise : <html> <head> <title>le titre</title> </head> <body> Corps de la page </body> </html> b. La description La page principale doit aussi avoir une description. La description est définit dans la balise <meta name="description">, dans "head". La description ne doit pas excéder 200 caractères pour une bonne compréhension des moteurs de Exposé MCSI 2003-2004 27 Webmaster - 28 - recherche. Par contre, utilisons ses 200 caractères au maximum, sans toutefois y répéter entièrement le titre du site. Exemple : Le guide complet du Webmaster : tout pour réaliser les pages Web, les trucs à savoir, les outils, graphiques... La balise : <html> <head> <meta name="description" content="La description du site"> </head> <body> Corps de la page </body> </html> c. Les mots clefs Enfin, la page principale doit avoir des mots clefs, pour que le moteur de recherche puisse l’indexer correctement. Les mots clefs sont définis dans la balise <meta name="keywords">, dans "head". La balise ne doit pas excéder 1000 caractères. Exemple : webmaster,html,java,applet,référencement,hébergement,méta Voici comment se présente le plan de votre page d'accueil : <html> <head> <meta name="keywords" content="Les mots clefs séparés par une ,"> <meta name="description" content="La description"> <title>Le titre</title> </head> <body> Corps de la page </body> </html> La page Méta-tags permet de générer des balises META pour votre site. d. Contrôle des robots Il est également possible de définir des attributs s'adressant aux robots concernant l’indexation des pages : All : Le robot indexe tout (valeur par défaut). Index : La page est indexée. Noindex : La page n'est pas indexé. None : Aucune indexation. Exposé MCSI 2003-2004 28 Webmaster - 29 - On peut cumuler certaines valeurs avec celles-ci, comme dans l'exemple : Follow : Le robot suit et index les liens vers les pages suivantes. Nofollow : Le robot ne suit pas les liens et n'index donc pas les pages suivantes. D'autres valeurs spécifiques à certains moteurs (ces valeurs sont reconnues par Altavista notamment) sont possibles : NoImageIndex : Empêche l'indexation des images de la page mais garde intact l'indexation du texte. NoImageClick : Empêche la liaison aux images, le lien se faisant sur la page contenant les images. Exemple : <html> <head> <meta name="robots"content="index, follow"> </head> <body> Corps de la page </body> </html> Une autre technique pour contrôler le mouvement des robots dans le site est l'utilisation du fichier robots.txt. 2.2.1.2.2. Fichier robots.txt Les grands moteurs scrutent inlassablement nuit et jour le Web à la recherche de nouveaux sites afin de les indexer. Bien sûr, ils visiteront les innombrables nouveautés qu'on leur propose tous les jours mais ils rechercheront aussi ceux qui n'ont pas demandé leur inscription. Or, pour diverses raisons, il se peut que vous ne souhaitiez pas que votre site soit indexé et que son contenu soit dévoilé au public internaute. C'est là qu'intervient le fichier robots.txt qui contiendra les interdictions de visites entières ou partielles que nous y aurons indiquées. En effet, les moteurs de recherche utilisent un robot, dénommé spider (araignée) ou crawler, qui, lorsqu'il scrute un site nouveau ou un site proposé, va chercher en premier lieu ce fichier qui doit se trouver à la racine du site. Si le site s'appelle "http://www.site.com/", le spider examinera en premier lieu "http://www.site.com/robots.txt". S'il ne le trouve pas, il visitera et indexera éventuellement toutes les pages. S'il le trouve, le spider se conformera aux interdictions éventuelles. Examinons maintenant le fichier robots.txt. Dans ce fichier, vous déterminez les droits d'accès du site aux robots. Toutes les combinaisons sont possibles. On peut limiter l'accès à un moteur en particulier, ou à tous, ou tous les laisser examiner les fichiers. On peut aussi interdire l'accès d'un répertoire, d'une ou plusieurs pages pour chacun d'eux. La réalisation, l'écriture du fichier robots.txt, se fait à l'aide du plus simple éditeur de texte comme NotePad ; de cette façon, pas de rajout sauvage de codes invisibles. La syntaxe en est Exposé MCSI 2003-2004 29 Webmaster - 30 - simple. La première ligne doit spécifier quels sont les moteurs autorisés : User-agent: indique le nom du ou des moteurs autorisés à examiner le site. User-agent: * indique que tous les moteurs sont autorisés à examiner le site. User-agent: nom_du_robot indique le nom du robot du moteur. Disallow: interdit soit un robot, un dossier, un fichier. # indique une remarque non prise en compte par les robots. / / indique ce qui est interdit au robot entre ces signes. | | une ligne vide indique une nouvelle commande. Prenons un exemple simple : User-agent: * Disallow: /cgi-bin/ Disallow: /page.htm Permet à tous les robots de visiter le site Interdit à tous les robots de visiter le dossier cgi-bin Interdit à tous les robots d'indexer la page page.htm Interdit à tous les robots d'indexer la page page.htm qui se Disallow: /perso/page.htm trouve dans le dossier perso Autres exemples : Useragent: ArchitextSpider Disallow: / Précise le nom du robot. Ici, celui d'Exite. Interdit au robot d'Exite la visite du site Une ligne vide indique aux robots une nouvelle commande Tous les robots sauf ArchitextSpider peuvent visiter le site User-agent: * Interdit à tous les robots d'indexer la page page.htm Disallow: /page.htm Une ligne vide indique aux robots une nouvelle commande Présice le nom du robot. Ici, celui d'Altavista. User-agent: Scooter/1.0 Interdit au robot d'Altavista de visiter le dossier /private/ Disallow: /private/ Interdit au robot d'Altavista de visiter la page page.htm Disallow: /perso/page.htm contenue dans le dossier /perso/ Une ligne vide indique aux robots une nouvelle commande Ligne non prise en compte par les robots mais qui vous servant # remarque de pense-bête. User-agent: * Tous les robots sont concernés Disallow: / Tous le fichiers et dossiers sont interdits (à tous les robots) - Il n'y a pas d'équivalant à Disallow (non autorisé) qui serait en anglais Allow. Tout ce qui n'est pas marqué Disallow est considéré comme autorisé sauf dans le cas ci-dessous. Useragent: ArchitextSpider User-agent: Scooter/1.0 Allow: /perso/page.htm Disallow: /perso Exposé MCSI Précise le nom du robot. Ici, celui d'Exite. Précise le nom du robot. Ici, celui d'Altavista Permet aux 2 robots de visiter la page page.htmr dans le dossier /perso/ Interdit aux 2 robots le dossier /perso sauf la page contenue et spécifié au-dessus. 2003-2004 30 Webmaster - 31 - Remarque : - Respectez la casse (majuscule, minuscule) des ordres et de des fichiers Disallow et non disallow - Mon_dossier et non mon_dossier - maPage.htm et non mapage.htm Scooter/1.0 et non scooter/1.0. - L'écriture des ordres est Disallow: (sans espace entre Disallow et :), un espace entre Disallow: et la suite. - Attention, certains spiders ne respectent pas le protocole imposés par le fichier robots.txt. Si on ne souhaite pas que le site soit visité par certains spiders, on doit en protéger l'accés par le fichier .htaccess. Le complément indispensable du fichier robots.txt sont les balises meta de l'en tête <head> des pages HTML. Il faudra les renseigner obligatoirement. L'une d'entre-elles se présente sous la forme : <meta name="robots" content="X, Y"> Dans laquelle X sera au choix index - ou - noindex Dans laquelle Y sera au choix follow - ou - nofollow index : le robot indexe la page noindex : le robot n'indexe pas la page follow : le robot suit tous les liens qu'il trouvera sur la page. nofollow : le robot ne suit aucun lien présent dans la page. On peut donc combiner toutes les possibilités : <meta name="robots" content="index, follow"> <meta name="robots" content="index, nofollow"> <meta name="robots" content="noindex, follow"> <meta name="robots" content="noindex, nofollow"> On peut remplacer noindex, nofollow par none On peut remplacer index, follow par all Renseignent ensuite la balise <meta name="revisit-after" content="XX days"> ou XX indiquera au spider le nombre de jours avant qu'il ne revienne visiter le site. On Met 30 à moins que nous ne traitions d'actualité journalière, il n'est pas nécessaire d'écourter ce chiffre, les robots n'en tenant pas compte systématiquement. Enfin, il faudra renseigner la balise <meta name="expires" content="never"> dans laquelle never (jamais) indique la durée de vie de la page. Là aussi, on peut laisser cette balise telle quelle à moins qu’on ne préférée mettre une date. En ce cas on doit l'écrire avec la synthaxe anglo-saxonne : <meta name="expires" content="Sun, 07 Aug 2005 08:21:57 GMT"> : cette page ne sera plus disponible le dimanche 7 août 2005 à 8 heures 21, 57 secondes GMT 2.2.1.2.3. Générateur de Méta-tags Un générateur de balises méta unique, très complet. Il permet entre autre d'insérer une description et des mots clefs à un site, mais aussi d'ajouter des effets surprenants lors de l'ouverture d'une page sur Internet Explorer (IE). Exposé MCSI 2003-2004 31 Webmaster - 32 - Exemple le nom de votre site : <META NAME="Title" CONTENT="Le monde de la glisse"> les mots clés : <META NAME="Keywords" CONTENT="sports de glisse, ski alpin, surf des neiges, ski de fond, planche à voile, ski nautique"> la description de votre site : <META NAME="Description" CONTENT="Tous les sports de glisse: de la montagne à la mer"> le sujet de votre site : <META NAME="Subject" CONTENT="Les sports de glisse"> le nom de l’auteur : <META NAME="Author" CONTENT="Thierry Durand"> la langue de votre site : <META NAME="Language" CONTENT="français"> les mises à jour de votre site : <META NAME="Revisit-After" CONTENT="7 days"> ce que doit faire le robot : <META NAME="Robot" CONTENT="index, follow"> (ici vous indiquez au robot qu'il doit indexer la page et qu’il doit suivre les liens présents sur la page) Cela donnera au final: <head> <METANAME="Title" CONTENT="Le monde de la glisse"> <META NAME="Keywords" CONTENT="sports de glisse, ski alpin, surf des neiges, ski de fond, planche à voile, ski nautique"> <META NAME="Description" CONTENT="Tous les sports de glisse: de la montagne à la mer"> <META NAME="Subject" CONTENT="Les sports de glisse"> <META NAME="Author" CONTENT="Thierry Durand"> <META NAME="Language" CONTENT="français"> <META NAME="Revisit-After" CONTENT="7 days"> <META NAME="Robot" CONTENT="index, follow"> </head> 2.2.2. Référencement assisté 2.2.2.1. Services de référencement gratuits Quelques adresses de sites proposant un service de référencement. Webmasterplan : Un site intéressant proposant de nombreux services gratuits pour les concepteurs de sites, dont une offre de référencement gratuit. Net-Ads : Il permet de faire indexer son site sur des moteurs de recherches ; ce site s'occupe aussi de bannières de publicités. Submit Now Fr : Ce site vous permet de vous faire référencer sur une trentaine de moteurs de recherche francophone. Promo Web : Référencement francophone et anglophone. Brioude : Référencement dans 20 annuaires et moteurs de recherche français et 40 internationaux. Ineedhits : Référencement dans 23 moteurs. Site Owner : Référencement dans 7 moteurs + vérification de votre site (balises méta et position par exemple). Submit It : Référencement dans 20 moteurs. Référencement 2000 : Référencement dans 60 moteurs + autres services pour optimiser votre site. Exposé MCSI 2003-2004 32 Webmaster - 33 - 2.2.2.2. Programmes spécialisés Il existe de nombreux programmes permettant de référencer un site automatiquement dans plusieurs centaines, voir millier de moteurs, annuaires ou sites de liens. Certains programmes comme AddWeb annoncent même un référencement dans plus de 30 000 sites !!! Les chiffres pourraient laisser rêveur : les 30 000 sites ayant un lien vers le site (annuaire ou moteur où le site est indexé), même s'il sont très peut connu et visité, disons 10 visites par jours en moyenne, ça nous fait 300 000 visiteurs potentiels directement reliés à le site via au moins un lien. Il nous suffit de faire une division. Avec 0,1% des visiteurs qui trouveront effectivement le site après une recherche dans ces 30 000 sites, ça nous fait donc 300 visites quotidiennes. AddWeb : Prétend indexer votre site dans 30 000 autres... ça reste à voir, mais bon. Ce programme reste néanmoins un bon logiciel d'indexation, très complet. SubmitWolf : Indexation dans plus de 3000 sites. Il permet une bonne gestion de l'indexation en indiquant les réussites, les échecs, les sites en attentes... autre avantage : ce logiciel est en français et permet une sélection uniquement des sites francophones. The Spider : Indexation dans 1000 sites. Ce programme reste assez rudimentaire par rapport aux deux autres, mais permet néanmoins de sélectionner une catégorie pour chaque site, un part un ! 2.2.2.3. Les annuaires Le référencement de votre site dans un annuaire est différent que dans un moteur de recherche : un annuaire ne se base pas sur les balises Méta-tags pour le référencement. Il faut en fait inscrire manuellement son site, la plupart du temps en remplissant un formulaire ; et l'annuaire se chargera d'aller voir votre site et de l'indexer (contrairement aux moteurs de recherches, se sont des personnes humaines qui visitent votre site avant de l'indexer, donc méfiance). Il faut quand même dire que les annuaires sont en général beaucoup moins complets que les moteurs de recherche en ce qui concerne le nombre de sites indexés. Mais vous risquerez plus facilement d'y trouver votre bonheur. Il faut préciser qu'en se faisant indexer par Yahoo, vous risquerez d'avoir un revenu de visiteurs bien plus important que en faisant référencer votre site dans n'importe quel moteur de recherche... 2.2.3. Autres méthodes de promotion 2.2.3.1. Une newsletter pour le site Une newsletter, une "lettre d'information" est en fait un mail que vous publipostez dans le but d'informer les abonnés, les visiteurs, les membres. Chez les webmasters, c'est un moyen de communication répandu pour récapituler l'activité et l'évolution de son site. Exposé MCSI 2003-2004 33 Webmaster - 34 - a. Pour quoi faire ? Une newsletter a tout d'abord fonction d'informer l'internaute de l'évolution et de la vie de site lui-même, son actualité, de prévenir de ses nouveautés, bref lui donner envie de revenir ! Une lettre d'information va ramener des visiteurs vers le site... Par ailleurs, une newsletter est le moyen d'instruire les internautes sur le sujet dont traite un site... Il peut donc s'agir de l'actualité de ce thème ou d'un thème plus général. Le but est alors de montrer les compétences et d'échanger sur le sujet... b. Un outil publicitaire de promotion Lorsque une lettre d'information commence à cumuler un nombre intéressant d'abonnés, vendre de l'espace. Entre deux articles, on insérons un message publicitaire pour un sponsor et on peut mettre en place une partie "annonces" et vendre l'affichage de celles-ci au sein de newsletter. A ce niveau là, plus le nombre d'abonnés va être important, plus on peut vendre des annonces dans une lettre. Si il n’y a pas assez de membres, on peut malgré tout insérer des liens publicitaires les bannières (affiliation, régies)... Cela peut donc être très rémunérateur. c. La mise en page Il existe deux types de format : le format texte brut et le format HTML. Comme aujourd'hui les principaux logiciels (Aol, Outlook, Eudora...) de messageries reconnaissent le format HTML, on recommande donc d'envoyer les newsletter à ce format. La lettre d'information devient ainsi une vraie page Web attractive. Attention, si l'aspect graphique n'est donc pas à négliger, l'important est avant tout dans le contenu des informations diffusées. N'oubliez jamais qu'une newsletter est jugée sur son sérieux (le contenu), sa régularité, sa sobriété : la sanction en cas contraire est le désabonnement ! d. Conclusion Une newsletter n'est pas seulement un simple mail, c'est aussi un outil essentiel de promotion et un support d'information qui peut se révéler rémunérateur, un outil stratégique. 2.2.3.2. Les bannières a. Comment faire une bannière 1) Les dimensions Pour faire une bannière, vous devez avant tout respecter des dimensions, qui se standardisées au cours du temps. Voici une liste des dimensions possibles pour votre bannière : Dimensions Utilisation Exposé MCSI 580x60 La plus grande dimension 468x60 Bannière complète 400x60 Dimensions standards 234x60 Demi-bannière 2003-2004 34 Webmaster - 35 - La dimension la plus utilisée est sans doute 468x60, puis 400x60. 2) Le format Pour le format d'une bannière, on a le choix entre GIF et JPEG. A noter que le format prédominant est le GIF, d'autant plus que beaucoup de bannières sont animées, ce qui est possible uniquement avec le format GIF. Faire une belle bannière, c'est bien, mais qu'elle prennent pas beaucoup de place, c'est encore mieux ! Celle-ci ne doit pas dépasser les 10 à 12 Ko pour un affichage optimal. D'autant plus que certains services d'échange de bannières n'acceptent que les GIF de moins de 12 Ko. b. Modèles de bannières Ces bannières proviennent de Freegaia.com. Voici quelques modèles de bannières qu’on peut utiliser : 2.3. Optimisation 2.3.1. Optimisation des images Pourquoi optimiser ? Cette question n’est pas étonnante lorsqu’on veut diminuer la taille de fichiers conçus pour qu’ils soient diffusés sur une page Web. Pour cela, on utilise différents logiciels qui offre la possibilité d’optimiser des objets graphiques, en tenant compte bien sur de la qualité de ces derniers et de l’intérêt de leurs utilisations. 2.3.1.1. Types d’images Les images informatiques se repartissent en deux catégories : images bitmap et images vectorielles. Exposé MCSI 2003-2004 35 Webmaster - 36 - a. Images bitmap Les images bitmap dépendent de la résolution. Elles sont constituées d’un nombre fini de pixels. C’est pourquoi elles peuvent avoir un aspect dentelé quand on les agrandit ou quand elles sont imprimées à basse résolution. Les images Bitmap sont idéales pour représenter de subtils dégradés de teintes et de couleurs, par exemple, dans des photographies ou des images peintes. Ainsi, une roue de vélo représentée dans une image bitmap est composée d’une mosaïque de pixels arrangés en cercle. En manipulant une image bitmap, on édite des pixels plutôt que des formes ou des objets. b. Images vectorielles Les programmes de dessin, comme Adobe Illustrator, créent des graphiques vectoriels, composés de lignes et de courbes, définies par des objets mathématiques appelés vecteurs. Les vecteurs décrivent les objets par leurs caractéristiques géométriques. Pour reprendre l’exemple précédent, dans un espace vectoriel, une roue de vélo est composée d’un cercle d’un rayon donné, placé a un endroit spécifique et rempli d’une couleur particulière. Vous pouvez le déplacer, le réduire, le re-dimensionner ou modifier sa couleur sans perdre en qualité. Les images vectorielles ne sont pas définies par un nombre fixe de pixels et, de ce fait, sont automatiquement mises à l’échelle, de façon à apparaître très nettes sur n’importe quel périphérique de sortie, quelle que soit sa résolution. Elles sont donc parfaitement adaptées à la création de textes, de titres ou de logos qui doivent rester très nets à toutes les échelles. Toutefois, les écrans informatiques étant constitués d’une grille de pixels, les images vectorielles comme les images bitmap s’affichent sous forme de pixels. 2.3.1.2. Les outils d’optimisation Il existe plusieurs logiciels qui ont la possibilité d’optimiser les images, prenant comme exemple « Fireworks » qu’il a deux manières d’optimiser a. Aperçu direct Il permet d’optimiser la taille et la qualité de l’image grâce aux onglets d’aperçu du document Fireworks. Ainsi, on disposera d’un affichage en grandeur réelle de l’original. Les paramètres de compression GIF sont pris par défaut de Fireworks qui permet de faire une comparaison de format de d’apparition, le nombre de couleurs…etc. Exposé MCSI 2003-2004 36 Webmaster - 37 - b. Aperçu avant exportation Il permet de définir certains paramètres d’optimisation et laisse le choix à l’utilisateur, afin qu’il décide de la bonne qualité de l’image avant l’exportation. Il lui permet de l’affiner ou de lui attribuer les meilleurs paramètres. 2.3.2. Optimisation de code HTML Même si on optimise avant tout ses images (gif et jpeg) et ses animations (gifs animés ou Flash), la plupart du temps, par le biais de réduction des couleurs, on oublie de nettoyer et optimiser son code HTML... Et pourtant on peut réaliser jusqu'à 20% de gain en terme d'optimisation, ce qui se traduit par une lecture plus facile de vos pages, un code compact et "propre" et surtout un site plus rapide à charger... Exposé MCSI 2003-2004 37 Webmaster - 38 - 2.3.2.1. Optimisation automatique Ci-dessous un code HTML non optimisé (premier cas) et celui optimisé et compacté par HTML Shrinker (deuxième cas) Fiche Téléchargement : HTML Shrinker De nombreux logiciels optimisent et nettoient le code HTML, en réalisant automatiquement les étapes ci-dessus. HTML Shrinker, qui excelle dans ce domaine et allège considérablement les pages HTML (jusqu'à 30 % !!). Exposé MCSI 2003-2004 38 Webmaster - 39 - Note : Dreamweaver, Golive, WebExpert, ou encore 1-4 ALL possède également une option de compactage / nettoyage des pages (attention tout de même à garder une copie des pages avant compression !). 2.3.2.2. Optimisation manuelle Tout dépend avec quel éditeur vous avez édité vos pages. Pour ne prendre aucun risque, ouvrez vos fichiers avec le bloc note (ou tout éditeur de texte) et vérifier (puis corriger) cidessous les différents cas. a) Balise vide Tous les éditeurs WYSIWYG (What You See Is What You Get : tel écran, tel écrit) ont une fâcheuse tendance à insérer des balises sans contenu... <center></center> b) Balise en double : Le cas de la balise <font> est le plus fréquenté. Nombreux éditeurs (FrontPage Express est le spécialiste !) "doublent" cette balise sans aucune raison. <font color="#ff0000">< font color ="#ff0000">Texte</font></font> c) Balise inutile Certains éditeurs insèrent des commentaires que l'on peut supprimer sans aucune conséquence. <!-- Generated by Microsoft FrontPageExpress --> d ) Espace et tabulation Supprimez les espaces et tabulations (plus difficile à cerner) qui alourdissent vos pages Web. 2.3.3. Personnaliser la page d’erreur 404 La page d'erreur 404 apparaît lorsqu'une page n'est pas accessible, le plus souvent parce qu'elle n'existe plus. Cette erreur, très fréquente, est l'ennemie jurée des Webmasters. Il existe cependant une manière de personnaliser celle-ci, pour une meilleure présentation se fondant avec le reste de votre site, mais aussi, plus subtil, c'est elle qui va vous avertir qu'un lien est mort sur votre site et sur quelle page ! A noter que votre hébergeur doit supporter cette technique. Deux pages composent l'erreur, ".htaccess" qui appelle "erreur404.html", toutes les deux placées à la racine du site. erreur404.html Vous pouvez personnaliser cette page comme n'importe quelle autre, à condition de respecter une seule règle : tous les liens qui composeront votre pages doivent être absolus, c'est à dire avec un http://www.serveur.com/votresite/. Exposé MCSI 2003-2004 39 Webmaster - 40 - Je vais vous proposer ici un petit script vous permettant de connaître la page sur laquelle se trouve le lien défectueux, vous permettant ainsi de trouver l'erreur en un rien de temps... Pour cela, vous devez avant tout vous inscrire sur DevParadise pour bénéficier d'un formulaire CGI. Une fois sur le site allez dans "Outils gratuits" puis "Mailto". Là, il vous suffit de vous inscrire. <meta http-equiv="refresh" content="5; URL=http://www.serveur.com/votre_identifiant"> <form name="msg" method="POST" action="http://www.devparadise.com/cgibin/mailto.pl"> <input type="hidden" name="ID" value="10238"> <input type="hidden" name="sujet" value="Lien mort"> <input type="hidden" name="message" value=" "> <input type="hidden" name="url" value="http://www.serveur.com/votre_identifiant"> <input type="hidden" name="mailfrom" size="40" value="[email protected]"> </form> <script language="JavaScript"><!-var mess = document.referrer msg.message.value = mess; document.msg.submit(); //--></script> Explications : 10238 : C'est votre numéro ID de votre compte DevParadise. http://www.serveur.com/votre_identifiant : C'est l'URL de la page de redirection, après l'envoie du formulaire. [email protected] : C'est l'adresse mail à partir de laquelle vous envoyez les données. Celle-ci n'a pas besoin d'exister, mais le formulaire ne peut être envoyé sans adresse mail. Sous Netscape, le formulaire ne sera pas envoyé automatiquement, c'est pourquoi la balise META Refresh permet quand même la redirection vers une autre page. .htaccess Cette page doit se nommer strictement .htaccess, le point étant le premier caractère du fichier. Ne prenez pas .htaccess comme une extension. Ce fichier doit contenir uniquement la ligne qui suit et rien d'autre (oubliez <html><head><body>...) ErrorDocument 404 /votre_identifiant/erreur404.html Exposé MCSI 2003-2004 40 Webmaster - 41 - Remplacez votre_identifiant par le nom du site (le pseudo en général). N'oubliez pas de placer ces deux fichiers à la racine du site, et de les mettre en ligne ! Cette ligne dans le fichier .htaccess peut changer selon les hébergeurs. Sous Free par exemple, la syntaxe sera : ErrorDocument 404 /erreur404.html ou ErrorDocument 404 http://votre_identifiant.free.fr 2.4. Surveillez le succès de site Web 2.4.1. Créer un sondage Vous avez sûrement déjà envisagé la possibilité de faire un sondage sur votre site non ? Si vous ne voyez pas trop en quoi cela consiste, vous pouvez vous rendre sur la page "Sondage" de ce site pour participer à notre sondage. Sur Internet, il existe plusieurs services proposant des sondages à placer sur votre site... en voici quelques uns : Pour Ou Contre Voici sans doute un des meilleurs services de sondage, proposant de multiples avantages : Sondages entièrement personnalisables : choix des couleurs, intégration de votre logo et votre fond d'écran. Un seul vote par visite. Multiquestions : boutons radio, cases à cocher, listes déroutantes, jusqu'à 10 réponses par question ... Référencement de votre site dans l'annuaire des sondages. Jusqu'à 4 sondages simultanés par inscription. En bref, ce service est excellent, le design est également au rendez-vous et un annuaire global rassemble tous les sondages... Interface personnalisable, design, sérieux (aspect professionnel) Pas grande chose à signaler... Yoorz Ce service permet de créer facilement et rapidement un sondage, pratique et simple. Exposé MCSI 2003-2004 41 Webmaster - 42 5 questions possibles par E-mail. 5 réponses possibles par question. La couleur du sondage, la taille et la police des caractères est personnalisables. Un seul vote par visiteurs. Possibilité d'afficher un message après chaque réponse Statistiques instantanées avec nombre de réponses à la question Affichage des sondages par fenêtre Pop-up. Interface personnalisable, poser ses question par E-mail. Le design du site laisse à désirer... 2.4.2. Les autres techniques a. positionnement Assurez que les pages arrivent aux premières places des moteurs de recherche. b. Analyse de popularité Combien de sites ont créé un hyperlien vers le site Web. c. Analyse des liens Contrôle la validité des hyperliens des pages. 2.5. Sécurité de site Web 2.5.1. Problèmes liés à la sécurité 2.5.1.1. La publicité piratée Beaucoup d'organisations (au sens large) ouvrent un site Web pour avoir une sorte de vitrine sur l'Internet où elles peuvent exposer leurs produits, activités, etc ... Une nouvelle sorte de piratage consiste à entrer illégalement sur le serveur Web et à modifier les pages existantes. C'est un peu comme entrer dans un magasin et changer les choses exposées. Dans tous les cas, quand un site est piraté, la nouvelle page remplacée n'est pas pour promouvoir l'activité du propriétaire. Plusieurs exemples suivent pour illustrer ce nouveau problème. a. Les administrations américaines - Le 29 décembre 1996, un hacker a attaqué un site Web de l'US Air Force et a remplacé la page principale par des images à caractère pornographique. Le résultat a été que le "DefenseLINK" du pentagone, qui inclue environ 80 homepages, a été débranché pendant plus de 24 heures pour que les officiels s'assurent qu'il n'y avait pas d'autres brèches de sécurité sur le système. Cette attaque a abîmé l'image de l'US Air Force en montrant que ses systèmes informatiques n'étaient pas vraiment sûrs. De plus, cette administration a dépensé une somme d'argent non négligeable pour vérifier l'intégrité de ses fichiers. Exposé MCSI 2003-2004 42 Webmaster - 43 - - Une autre attaque de site Web assez récente s'est produite le 5 mars 1997 où la page principale de la NASA (National Aeronautics and Space Administration) a été piratée et le contenu changé. Les hackers l'ont remplacée par une nouvelle page exprimant des critiques sur les institutions américaines. (Site Web de la NASA: http://www.hq.nasa.gov) - Pendant l'été 1996, des hackers se sont introduits sur le serveur Web de l'US Justice Department en plaçant des croix gammées et des images d'Adolf Hitler qu'ils considérait au même titre que le département de la justice américaine. Ils voulaient protester contre la position du gouvernement américain à contrôler l'Internet. Les principales attaques sont dirigées vers les institutions américaines dans lesquelles les pirates voient une proie intéressante pour discréditer le gouvernement américain. Toutefois, il est important de signaler que les médias qui relaient ce type d'information ne font pas suivre le message des pirates mais au contraire les font passer pour des délinquants. La valeur de leur message en est donc occultée contrairement aux exemples que nous allons voir ci-dessous. b. Les autres organisations: - Le 10 février 1997 et encore le 14 février 1997, des hackers portugais ont lancé une attaque politique sur la page Web du gouvernement indonésien en insistant que ce pays continuait une oppression sur le Timor Est. Ils voulaient attirer l'attention sur la nécessité de l'indépendance du peuple du Timor oppressé depuis des décades par le gouvernement d'Indonésie. - Le site des fourrures Kriegsman fut attaqué en novembre 1996 par un activiste anti-fourrure. La nouvelle page bien évidemment ne promouvait pas cette entreprise. Nous avons ici deux exemples de sites Web piratés par des hackers pour défendre une cause. Le geste est le même que pour les exemples de la partie précédente mais la porté médiatique en est multipliée. Ce qui montre que la sécurité d'un site Web n'est pas à prendre à la légère notamment pour les entreprises. 2.5.1.2. L'espionnage industriel et militaire De nos jours, une grande majorité des serveurs Internet appartiennent aux entreprises. Beaucoup de compagnies en profite pour utiliser l'Internet comme réseau de transmission de données intra entreprise. Il y a un grand nombre d'exemples de serveurs Internet d'entreprise hackés. Un bon exemple est le serveur de Boeing où il y a quelques années, deux collégiens étaient rentrés en effraction dans un des ordinateurs de la compagnie afin de rechercher des fichiers de mots de passe. De plus, Boeing a trouvé l'évidence que les hackers ont obtenu l'accès "root" à la maison fédérale de Seattle. Le département de justice américaine avait dit que cela Exposé MCSI 2003-2004 43 Webmaster - 44 - était une situation classique dans laquelle les pirates peuvent influer sur les coûts de production. En effet, les pirates ont très bien pu voler certains fichiers secrets et les distribuer sur l’Internet ou à des compagnies rivales. Après que le cas fut fini, il couta à Boeing 57.000 Dollars simplement pour vérifier l'intégrité de ses données d'avioniques. En réalité, le principal risque est le vol de données confidentielles, mais il y a aussi un autre risque, c'est le risque de données modifiées. En effet, le pirate peut très bien changer les données actuelles par de fausses. Alors, l'entreprise travaillerait avec des informations altérées et pourrait produire des résultats erronés sans s'en rendre compte. C'est pourquoi Boeing dépensa tant d'argent pour vérifier toute l'intégrité de ses données. Un autre exemple en 1987, une petite erreur comptable de 75 cents révella qu'un intrus s'était ouvert lui-même un compte dans le système informatique du laboratoire "Lawrence Berkeley". Les traces du compte provenaient d'un programmeur d'Allemagne de l'est qui avait copié des documents des ordinateurs militaires attachés à MILNET (Le segment Internet réservé pour les utilisations militaires). Les documents furent vendus au KGB. Le groupe Gartner William Malik (Célèbre groupe d'avocats américains) affirme que un de ses clients, une très grande compagnie de produits manufacturés, a perdu 900 millions de dollars parce que un de ses concurrents avait pirater plusieurs ordinateurs de l'entreprise et avait tout appris sur ses projets. Les exemples de cette sorte sont abondants dans le monde de l'Internet. Toutefois, un grand nombre d'attaques ne sont pas rapportées au public parce qu'elles pourraient porter atteinte à la compagnie ou bien parce qu'elles ne sont pas détectées par l'administrateur réseau de l'entreprise. 2.5.1.3. L'intégrité du commerce La sécurité des cartes de crédit est un des principaux enjeux de la sécurité sur Internet à cause de l'énorme potentiel de ce nouveau commerce mondial qui se développe à une vitesse impressionnante. Tout cela laisse évidemment une grande place à la fraude des cartes de crédit. Il y a un grand nombre de magasins virtuels sur l'Internet qui vendent des livres, des composants d'ordinateurs, des vêtements, etc ... Tous ces magasins virtuels utilisent la méthode de paiement par carte de crédit. Ce qui signifie que le consommateur envoie son numéro de carte de crédit au magasin virtuel qui alors débite le montant du compte bancaire propriétaire de la carte de crédit. Mais il y a deux problèmes. Premièrement, la transmission du numéro de carte de crédit peut être interceptée par une tierce personne sans l'accord, bien évidemment, ni du marchant et ni du consommateur. Deuxièmement, une majorité de ces sites commerciaux ne sont pas sécurisés. Même si la transmission du numéro de carte de crédit à travers l'Internet est sûr, les moyens de le stocker sur le serveur ne le sont pas forcément. Les fichiers de numéros de cartes de crédit dans la base de données d'une entreprise peuvent être piratés. Plusieurs compagnies spécialisées dans le commerce sur Internet ont déjà été hackées à la recherche des fichiers clients de numéros de carte de crédit. Exposé MCSI 2003-2004 44 Webmaster - 45 - Par exemple, le fournisseur d'accès Internet Netcom de San Jose (Californie, USA) en a déjà subit les conséquences. Et le célèbre hacker Kevin Mitnick avait volé environ 17.000 numéros de cartes de crédit avant de se faire capturer par des détectives hi-tech. Pendant que le commerce sur l'Internet devient un marché de plusieurs centaines de millions de francs, cela devient aussi une grande problématique en terme de sécurité pour les échanges commerciaux entre les clients et les marchants. 2.5.1.4. La mise hors service des serveurs Les serveurs fournissant des services basés sur le protocole TCP (WWW, email, newsgroup, gopher, telnet, etc ...) à la communauté Internet peuvent devenir incapable de fournir ses services lorsqu'ils sont sous le coup d'une attaque et même pendant un certain temps après cette dernière. Le service en lui même n'est pas endommagé par l'attaque; généralement seulement la capacité à fournir ce service est mis hors service. Dans certains cas, le système va jusqu'à épuiser toutes ses ressources mémoire, crasher ou sinon devenir inopérant. Ces attaques bloquent le système temporairement, donc durant ce temps inutilisé, la compagnie propriétaire du système peut perdre de l'argent notamment si le service proposé est un service de vente par Internet. Une description de ces types d'attaques se trouve dans le chapitre suivant. Premièrement, il est intéressant de se pencher sur le système de fichiers réseau, tout particulièrement parce que c’est par ce système de fichiers que sont gérés les accès aux fichiers personnels ou communs et que c’est par lui que se joue la sécurité d’un réseau. 2.5.2. Les types d'attaques 2.5.2.1. Le système de fichiers en réseau A chaque fois qu’un utilisateur fait une requête pour accéder à un fichier, le système d’exploitation décide si oui ou non l’utilisateur au droit d’accéder au fichier en question. Le système d’exploitation prend une décision basée sur qui est le propriétaire du fichier, qui demande à accéder au fichier et quelles permissions d’accès le propriétaire a mis. Les permissions d’accès déterminent qui aura accès au fichier. Il y a deux principales raisons pour que l’on protège ses fichiers des autres utilisateurs. La première raison est que l’on peut souhaiter protéger le contenu de ses fichiers des autres utilisateurs. On peut considérer le contenu du fichier comme privé et on ne veut pas que les autres utilisateurs soient capables de lire ou de modifier le contenu du fichier. La seconde raison est que si des tierces personnes peuvent modifier des fichiers, elles peuvent aussi obtenir l’accès au compte. Par exemple, si un utilisateur malintentionné a l’accès “écriture” dans le répertoire racine, il peut alors créer ou modifier le fichier “.rhost“ (sous UNIX) qui donne un accès illimité à n’importe qui au compte. Il va sans dire, comme l’utilisateur est responsable de son compte, que tous les “dégâts“ engendrés sont sous sa responsabilité directe. Exposé MCSI 2003-2004 45 Webmaster - 46 - Le principal but pour une personne qui cherche à s’introduire dans un système est d’obtenir l’accès administrateur (root). Cet accès permet à la personne de faire tout ce qu’elle désire sur un système, elle peut effacer, modifier ou ajouter de nouveaux fichiers. La plus part des intrusions où le hacker obtient l’accès administrateur commencent quand l’intrus pénètre dans un compte utilisateur normal. Une fois sur la machine en tant qu’utilisateur sans privilège particulier, le hacker peut alors lancer une attaque pour obtenir l'accès "super utilisateur" sur la machine en utilisant un trou de sécurité dans le système d’exploitation. 2.5.2.2. Le social engineering C’est un terme utilisé permis les hackers pour une technique d’intrusion sur un système qui repose sur les points faibles des personnes qui sont en relation avec un système informatique plutôt que sur le logiciel. Le but est de piéger les gens en leur faisant révéler leur mot de passe ou toute autre information qui pourrait compromettre la sécurité du système informatique. Le piège classique est de faire croire aux utilisateurs du système que leur mot de passe est demandé d’urgence par le ou les techniciens. Le hacker mentionnera qu’il a besoin du mot de passe pour d’importants travaux d’administration du système et il demandera à se qu’on lui envoie le mot de passe par mail. Il faut savoir, comme nous le verrons plus loin, qu’il est possible pour le hacker de créer un e-mail faisant croire qu’il provient de quelqu’un que l’on croit être le légitime administrateur réseau. Souvent, le hacker enverra le message à tous les utilisateurs du système en espérant que plusieurs utilisateurs tomberont dans le piège. Bien évidemment si la ruse se déroule par téléphone, le hacker imitera la voix du technicien. Une autre forme de social engineering va jusqu’à deviner le mot de passe d’un utilisateur. Les gens qui peuvent trouver des informations sur un utilisateur, peuvent utiliser ces informations pour deviner le mot de passe de ce dernier. Par exemple, le prénom de ses enfants, leur date de naissance ou bien encore la plaque d’immatriculation de sa voiture est tout à fait candidat à être des mots de passe. Les hackers peuvent aller très loin pour deviner les mots de passe. 2.5.2.3. Le « crackage » de mot de passe Les mots de passe sont très important parce qu’ils sont la première ligne de défense contre les attaques sur un système. Ceci peut être établit simplement : si un hacker ne peut pas interagir sur un système distant et qu’il ne peut pas ni lire ni écrire dans le fichier des mots de passe alors il n’a quasiment aucune chance de développer une attaque couronnée de succès sur ce système. C’est également pourquoi, si un hacker peut au moins lire le fichier des mots de passe sur un ordinateur distant, il aura aussi la possibilité de cracker un des mots de passe contenu dans ce fichier. Si il en parvient, alors on peut penser qu’il pourra se connecter sur ce système et qu’il pourra s’introduire en tant qu’administrateur en passant par un trou de sécurité dans le système d’exploitation. La manière la plus classique qu’un hacker va essayer d’obtenir un mot de passe est par l’intermédiaire d’une attaque avec un dictionnaire. Dans ce genre d’attaque, le hacker utilise un dictionnaire de mots et de noms propres, et il les essaie un à un pour vérifier si le mot de passe est valide. Bien évidemment, ces attaques ne se font pas « à la main », mais avec des Exposé MCSI 2003-2004 46 Webmaster - 47 - programmes qui peuvent deviner des centaines voire des milliers de mots de passe à la seconde. Ce procédé est d’autant plus facile, qu’il lui permet de tester des variations sur ces mots : mots écrits à l’envers, majuscules et minuscules dans le mot, ajout de chiffres à la fin du mot, etc ... De plus la communauté des hackers a construit de gros dictionnaires spécialement conçus pour cracker les mots de passe. En utilisant des mots de langues étrangères, ou des noms de choses, de personnes ou encore de villes, n’est d’aucun effet contre ces dictionnaires. Le plus connu des programmes utilisés pour cracker les mots de passe est « Crack4.1 » avec son dictionnaire de 50 000 mots. 2.5.2.4. Le « sniffing » des mots de passe et des paquets Si un hacker ne peut pas deviner un mot de passe, alors il a d’autres outils pour l’obtenir. Une façon qui est devenue assez populaire est le « sniffing » de mots de passe. La plus part des réseaux utilisent la technologie de « broadcasting » ce qui signifie que chaque message (ou paquet) qu’un ordinateur transmet sur un réseau peut être lu par n’importe quel ordinateur situé sur le réseau. En pratique, tous les ordinateurs sauf le destinataire du message vont s’apercevoir que le message n’est pas destiné pour eux et vont donc l’ignorer. Mais par contre, beaucoup d’ordinateurs peuvent être programmés pour regarder chaque message qui traverse le réseau. Si une personne mal intentionnée fait ceci, alors elle pourra regarder les messages qui ne lui sont pas destinés. Les hackers ont des programmes qui utilisent ce procédé et qui scannent tous les messages qui circulent sur le réseau en repérant les mots de passe. Si quelqu’un se connecte sur un ordinateur à travers un réseau et que des ordinateurs ont été compromis par le procédé de sniffing, alors cette personne risque contre son gré de donner son mot de passe. C’est pourquoi il existe une menace sérieuse pour les personnes qui se connectent sur des ordinateurs distants (par exemple en utilisant Telnet). Toutefois, si quelqu’un se connecte sur la console d’un système (et non pas sur un terminal), son mot de passe ne circulera pas sur le réseau ou il pourrait faire l’objet d’un sniffing. Mais si une personne se connecte sur un autre réseau ou à partir d’un prestataire de service Internet, alors dans ce cas elle sera dépendante de la sécurité de ces réseaux. Les programmes de sniffing les plus connus sont : - Esniff.c (programme source pour un sniffer ethernet) - TCPDump 2.5.2.5. L’IP spoofing L’adresse IP d’un ordinateur est l’adresse qui est utilisée pour reconnaître un ordinateur sur Internet. Elle est présumée valide lorsqu’elle est certifiée par les services TCP et UDP. Un des principaux problèmes est que en utilisant le routage source d’IP, l’ordinateur du hacker peut se faire croire comme étant un ordinateur connu. Brièvement, le routage source d’IP est une option qui peut être utilisée pour spécifier une route directe à une destination et renvoyer le chemin de retour à l’expéditeur. La route peut inclure l’utilisation d’autres routeurs ou de serveur qui n’aurait normalement pas été utilisés pour faire suivre les paquets à la destination finale. Voici un exemple qui montre comment ceci peut être utilisé de telle façon que l’ordinateur de l’intrus apparaisse comme étant l’ordinateur certifié par le serveur : - L’agresseur change l’adresse IP de son ordinateur pour faire croire qu’il est un client certifié par le serveur - Il va ensuite construire une route source jusqu’au serveur qui spécifiera le chemin de retour direct que les paquets IP devront prendre pour aller au serveur et qu’ils devront prendre pour Exposé MCSI 2003-2004 47 Webmaster - 48 - retourner à l’ordinateur de l’agresseur en utilisant le client certifié comme dernière étape dans la route vers le serveur. - L’agresseur envoie une requête client au serveur en utilisant la route source. - Le serveur accepte la requête du client comme si elle provenait directement du client certifié et retourne une réponse au client. - Le client, utilisant la route source, fait suivre le paquet à l’ordinateur de l’agresseur. Beaucoup de machine de type UNIX accepte les paquets de route source et les redirigent comme la route source l’indique. Beaucoup de routeurs acceptent également les paquets de route source bien que certains d’entre eux peuvent être configuré pour bloquer ces paquets. Une autre manière encore plus simple pour « spoofer » un client est d’attendre que le système client ait éteint sa machine et de se faire passer ensuite passer pour ce dernier. Dans beaucoup d’entreprises, les employés utilisent des PC’s et des réseaux TCP/IP pour se connecter sur des serveurs locaux UNIX. Les PC’s utilisent souvent NFS pour obtenir un accès aux répertoires et aux fichiers du serveur (NFS utilise les adresses IP uniquement pour authentifier les clients). Un intrus pourrait configurer un PC avec le même nom et la même adresse IP qu’un autre ordinateur, et alors essayer de lancer des connexions au serveur UNIX comme si il était le « vrai » client. Ceci est très simple à réaliser et ressemblerait à une attaque de l’intérieur. Les courriers électroniques sur Internet sont particulièrement sujets au spoofing car très facile à réaliser. Les courriers électroniques sans l’ajout d’une signature digitale ne peuvent pas être d’origine fiable. Par exemple, considérons que l’échange prenne place quand des serveurs Internet échange un courrier électronique. Cet échange a lieu en utilisant un simple protocol consistant en une série de commandes en caractères ASCII. Une personne maligne pourrait facilement entrer ces commandes à la main en utilisant Telnet pour se connecter directement au port SMTP (Simple Mail Transfert Protocol) du système (port 25 sur les systèmes UNIX). Le serveur recevant ces commandes fait confiance à cette personne en disant qui elle est. D’où le fait que le courrier électronique peut lui aussi être spoofé facilement en entrant une adresse d’expéditeur différente de l’adresse réelle. Comme quoi, sans aucun privilège, on peut sans problème falsifier ou spoofer le courrier électronique. D’autres services comme le « Domain Name Service » peuvent aussi être spoofés mais avec toutefois plus de difficultés que le courrier électronique. Ces services représentent une crainte qui mérite d’être considérée quand on les utilise. 2.5.2.6. Les chevaux de Troie Un cheval de Troie est un programme qui se cache lui même dans un autre programme apparemment au dessus de tout soupcon. Quand la victime (l’utilisateur normal) lance ce programme, elle lance par la même le cheval de Troie caché. Il y a des exemples de chevaux de Troie UNIX sur l’Internet. Par exemple, en 1995, un serveur FTP bien connu a été pénétré et les agresseurs ont modifié un programme très populaire disponible sur ce site. Le cheval de Troie installé à l’intérieur du programme permettait quand il était exécuté d’ouvrir l’accès au système UNIX à n’importe qui. Exposé MCSI 2003-2004 48 Webmaster - 49 - 2.5.2.7. Les vers Un ver est un agent autonome capable de se propager sans l’utilisation d’un programme quelconque ni d’une action par une personne. La plus célèbre attaque de vers s’est produite en novembre 1988 quand un étudiant lança un programme sur l’Internet qui était capable de se développer par lui-même à travers le réseau de serveurs. Dans les 8 heures après le lancement de ce programme, entre 2000 et 3000 ordinateurs étaient déjà infestés. Les ordinateurs commencèrent à tomber en panne parce que le programme du ver réapparaissait plus rapidement que les connexions réseaux pouvaient l’effacer. Que s’est-il exactement passé ? Le ver infestait seulement les ordinateurs fonctionnant sur un système UNIX particulier. Chaque ver créait une liste de machines distantes cibles qui se trouvait sur l’ordinateur où le ver agissait. En parallèle, le ver : - essayait de trouver les mots de passe des comptes utilisateurs en essayant des permutations à partir des noms de comptes et en vérifiant une liste de 432 mots de passe courants. - essayait d’entrer dans chaque machine cible en se faisant passer pour un utilisateur de la machine « attaquante » (après avoir cracké le mot de passe utilisateur) et en utilisant un « bug » dans le protocole « finger ». Quand une attaque fonctionnait, le ver créait un petit programme et les commandes pour compiler et exécuter sur la machine distante. Ce ver avait aussi des mécanismes qui lui permettaient de camoufler sa présence sur une machine. Les attaques de vers sont toutefois rare parce que les serveurs sur Internet sont de plus en plus différents (bien que cela tend à changer : Windows NT serveur), mais c’est toujours une méthode utilisée par les hackers quand un nouveau « bug » est découvert dans un système d’exploitation. Cela a « l’avantage » pour l’agresseur de pouvoir attaquer un maximum de sites en peu de temps. 2.5.2.8. Les trappes Une trappe est un point d’entrée dans un système informatique qui passe au-dessus des mesures de sécurité normales. C’est généralement un programme caché ou un composant électronique qui permet au système de protection d’être inefficace. De plus, la trappe est souvent activée par un évènement ou une action « normale ». Une trappe peut aussi être un trou de sécurité dans un système qui a été délibérément mis en place par les créateurs ou les personnes chargées de la maintenance. Le principal intérêt de ces trappes n’est pas toujours néfaste : certains systèmes d’exploitations, par exemple, ont des comptes utilisateurs avec de hauts privilèges destinés pour faciliter le travail des techniciens de maintenance. En 1983, Ken Thompson (un des auteurs de UNIX) révéla l’existence d’une trappe dans les premières versions de UNIX qui pourrait être identifié comme l’un des plus malins pièges informatiques de tout les temps. Le compilateur C contenait du code qui reconnaissait quand la commande « login » était recompilée et insérait du code qui reconnaissait un certain mot de Exposé MCSI 2003-2004 49 Webmaster - 50 - passe que Thompson avait choisi. Ce mot de passe lui ouvrait l’entrée du système qu’un compte utilisateur ou non ait été créé pour lui. Normalement ce genre de trappes peut être éliminé en la supprimant du code source du compilateur et en le recompilant. Mais pour recompiler le compilateur, il faut utiliser le compilateur. Donc, Thompson s’était aussi arrangé pour que le compilateur reconnaisse quand il compilait une version de lui-même et insérait dans le compilateur recompilé le code qui reconnaissait la procédure de compilation de la commande « login » ! De cette façon, le piège pouvait se perpétuer indéfiniment et laisser une trappe en place sans aucune trace dans les programmes sources. Presque à chaque fois qu’un hacker quitte un système, il laisse derrière lui une ou plusieurs trappes pour être capable de revenir quand il veut. C’est pourquoi, quand un système a été attaqué, il est plus prudent de vérifier tout le système de fichiers ou bien de réinstaller le système d’exploitation. 2.5.2.9. Le TCP-SYN flooding Quand un système client essaie d’établir une connexion TCP à un système fournissant un service (le serveur), le client et le serveur échange une séquence de messages. Cette connexion technique s’applique à toutes les connexions TCP-IP (Telnet, Web, email, etc ...) Le système client commence par envoyer un message SYN (pour synchronisation) au serveur. Le serveur renvoie alors un accusé de réception du SYN: SYN-ACK (pour synchronisationaknowledgment) au client. Le client finit alors par établir la connexion en répondant par un ACK. La connexion entre le client et le serveur est donc ouverte et le service d’échange de données peut s’exécuter entre les deux partenaires de la connexion. Voici un petit récapitulatif de ce qui se produit pour l’établissement d’une connexion : Client Serveur ------- --------SYN --------------> <--------------- SYN-ACK ACK --------------> Le serveur et le client peuvent donc commencer à s’échanger des données. Les abus viennent au moment où le serveur a renvoyé un accusé de réception du SYN (ACKSYN) au client mais n’a pas reçu le « ACK » du client. C’est alors une connexion à demiouverte. Le serveur construit dans sa mémoire système une structure de données décrivant toutes les connexions courantes. Cette structure de données est de taille finie, ce qui veut dire qu’il peut se créer un dépassement de capacité (overflow) en créant intentionnellement trop de connexions partiellement ouvertes. Le fait de créer ces demi-connexions sans se faire repérer est facilement réalisable avec l’IP spoofing. L’ordinateur de l’agresseur envoie des messages SYN à la machine victime ; ceuxci paraissent provenir d’un ordinateur bien défini mais qui en fait, fait référence à un système client qui n’est pas capable de répondre au message SYN-ACK. Ce qui veut dire que le message ACK final ne sera jamais renvoyé au serveur victime. Exposé MCSI 2003-2004 50 Webmaster - 51 - Ces demi-connexions dans la structure de données du serveur victime vont éventuellement créer un débordement dans cette structure et le serveur sera incapable d’accepter d’autres connexions tant que la table ne sera pas vidée. Normalement, il y a un système de « time-out » associé à chaque connexion ouverte, donc les demi-connexions devraient expirer et le serveur victime récupérer de la place libre dans sa mémoire pour d’autres connexions. Toutefois, le système agresseur peut simplement continuer à envoyer des paquets dont l’IP est spoofée plus vite que le serveur victime puisse expirer les demi-connexions. Dans la plus part des cas, la victime d’une telle attaque aura des difficultés à accepter toute nouvelle connexion. Dans ces cas, l’attaque n’affectera pas les connexions déjà existantes ou la capacité à créer des connexions de l’intérieur vers l’extérieur. Par contre, dans certains cas, le serveur peut épuiser toutes ses ressources mémoires, tomber en panne ou être rendu inopérant. La localisation de l’attaque est très souvent obscure parce que les adresses des paquets SYN envoyés ne sont très souvent pas plausibles. Quand le paquet arrive au serveur victime, il n’y a pas de moyens de déterminer sa véritable source. Comme Internet fait suivre les paquets basés sur une adresse de destination, le seul moyen de valider la source d’un paquet est d’utiliser le filtrage. 2.5.2.10. Conclusion Il y a encore une grande variété d’autres méthodes d’attaques mais elles sont d’un niveau relativement élevé pour un utilisateur normal d’UNIX. Voici une courte liste de quelques une d’entre elles : - attaque Sendmail par le port système du mail (port 25) - attaque NIS et NFS - attaque FTP par le port 21 - attaque Telnet par le port 23 - attaque rlogin et remote shell - attaque par interception de processus administrateurs Ce n’est absolument pas une liste exhaustive car il existe probablement beaucoup de type d’attaques qui restent secrètes. Exposé MCSI 2003-2004 51 Webmaster - 52 - 2.5.3. Les solutions Dans cette partie nous allons découvrir les méthodes utilisées pour améliorer la sécurité sur Internet. Les deux principaux espoirs de la sécurité sur Internet résident dans la cryptographie et les firewalls. 2.5.3.1. Les firewalls Les firewalls sont souvent appelés les préservatifs pour les réseaux des entreprises. Ils fournissent une protection digitale associée à la rapide croissance des réseaux et de la commercialisation de l’Internet. Comme les préservatifs, beaucoup de gens ont entendu parler des firewalls mais peu de personnes les utilisent. De plus, le nombre d’incidents de sécurité grandissant sur Internet laisse suggérer très fortement que trop peu de personnes les utilisent correctement. 2.5.3.1.1. Qu’est ce qu’un firewall ? Un firewall est une sorte de technologie de contrôle d’accès qui empêche les accès non autorisés aux ressources d’information en plaçant une barrière entre le réseau de l’entreprise et le réseau non sécurisé (Internet, par exemple). Un firewall est aussi utilisé pour empêcher les transferts d’information propriétaire du réseau de l’entreprise. En d’autres mots, un firewall fonctionne comme une passerelle contrôlant le trafic dans les deux directions. Le firewall typique est un ordinateur bon marché fonctionnant avec UNIX éloigné de toute donnée confidentielle qui est placé entre Internet et le réseau de l’entreprise. Certains firewalls ne permettent que le passage de l’email protégeant ainsi tout le réseau contre toutes les attaques possibles autres que contre le service email. D’autres firewalls fournissent moins de restrictions et bloquent les services qui sont connus pour être une source de problèmes. Généralement, les firewalls sont configurés pour protéger contre les connexions interactives (Telnet par exemple) provenant du « monde extérieur ». Ceci, plus que toute chose, aide à empêcher les agresseurs de se connecter sur les machines du réseau intérieur. Les firewalls les plus élaborés bloquent le trafic de l’extérieur vers l’intérieur mais permettent aux utilisateurs de l’intérieur de communiquer librement avec l’extérieur. Les firewalls sont d’autant plus importants qu’ils fournissent un point de rencontre où la sécurité et la vérification peuvent être imposés. Dans une situation où un ordinateur est attaqué par quelqu’un, le firewall peut agir comme une cassette enregistrable et un outil de traçage. Exposé MCSI 2003-2004 52 Webmaster - 53 - 2.5.3.1.2. Qu’est-ce qu’un firewall ne peut pas faire ? Les firewalls ne peuvent pas protéger contre les attaques qui ne passent pas par le firewall. Beaucoup d’entreprises qui se connectent à l’Internet sont très concernées par les fuites de données propriétaires qui passe par ce chemin. Malheureusement pour ces concernées une disquette magnétique peut être utilisée tout aussi efficacement pour transférer des données. La politique du firewall doit être réaliste et refléter le niveau de sécurité du réseau de l’entreprise. Par exemple, un site avec des données top secrètes ne doit pas avoir de firewall du tout : il ne doit tout simplement pas avoir sa place sur l’Internet. Les systèmes avec des données confidentielles et secrètes doivent être isolés du reste du réseau dans l’entreprise. Les firewalls ne peuvent pas vraiment protéger contre les choses comme les virus. Il y a trop de sorte d’encoder des fichiers exécutables pour les transférer à travers les réseaux. Il y a également trop d’architectures différentes et de virus pour essayer de les chercher. En d’autres mots, un firewall ne remplace pas la sécurité et la conscience de la part des utilisateurs. En général, un firewall ne protège pas contre les attaques orientées données (attaques dans lesquelles quelque chose est mailé ou copié vers un ordinateur interne où il sera ensuite exécuté). Cette forme d’attaque s’est produite dans les anciennes et nombreuses versions de « Sendmail ». 2.5.3.1.3. Conclusion Il y a beaucoup de sortes de firewalls. Toutefois, la principale part des firewalls sont des programmes installés sur le routeur de l’entreprise ou sur un autre ordinateur. Il existe quand même des firewalls « hardware » qui sont plus rares. Ce sont des cartes électroniques qui sont branchées dans l’ordinateur. Exposé MCSI 2003-2004 53 Webmaster - 54 - Il peut y avoir plusieurs rôles pour un firewall : certains sont filtreurs de paquets, routeurs, passerelles, ordinateur bastion, etc ... Il y a aussi une large variété de firewalls pour chaque système d’exploitation : UNIX, Novell Netware, Windows NT, LINUX, etc... De nos jours, les firewalls sont des remparts efficaces contre les agresseurs de toutes sortes. Toutefois, si un firewall n’est pas proprement installé, il peut se révéler pire que de ne pas en avoir à cause du faux sentiment de sécurité qu’il procure. 2.5.3.2. La protection des mots de passe et la création de mots de passe sûrs La protection des mots de passe est un des principaux problèmes de la sécurité sur Internet bien qu’il existe des solutions pour lutter efficacement contre ce dernier : - les mots de passe « shadow » - la génération de mots de passe sûrs. 2.5.3.2.1. Les mots de passe « shadow » Les mots de passe « shadow » sont un système où le fichier de mots de passe cryptés est caché de tous les utilisateurs excepté l’administrateur, en espérant empêcher les tentatives de crackage de mots de passe à la source. 2.5.3.2.2. La création de mots de passe sûrs Premièrement, il serait intéressant de voir combien de mots de passe possibles il existe. La plus part des gens sont inquiets que des programmes comme « crack » vont éventuellement gagner en puissance jusqu’à ce qu’ils soient capables d’effectuer un recherche exhaustive de tous les mots de passe possibles pour rentrer dans un compte utilisateur spécifique (généralement administrateur). Les mots de passe valides sont créés à partir de 62 caractères [A-Za-z0-9] et ils peuvent inclure encore plus de caractères comme : « \}][{$££@ !%&(#/)=-:_.;,?">< ». Ils doivent également être de longueur comprise entre 5 et 8 caractères. En utilisant seulement les 62 caractères communs, la taille de la série de mots de passe valides est : 625+626+627+628 = 2,2 E+14 Un nombre qui est bien trop grand pour entreprendre une recherche exhaustive avec les technologies actuelles. De plus, si l’on peut utiliser les 95 caractères, qui ne sont pas des caractères de contrôle, dans les mots de passe, cela réduit d’autant plus les chances du cracker de mots de passe. Par contre, n’importe quel mot de passe qui est dérivé d’un dictionnaire (ou d’information personnelle), même modifié constitue un mot de passe potentiellement crackable. Par exemple les mots de passe basés sur les : - noms de login : monlogin - noms famille : dupond, durand - prénoms : Raoul, Adrienne - mots écris à l’envers : enneirda, dnopud - mots d’un dictionnaire : ordinateur, livres Exposé MCSI 2003-2004 54 Webmaster - 55 - - mots en capitales : Ordinateur, OrDiNateuR - mots des dictionnaires de cracking : porsche911, 123456789, azerty, abcxyz, mr.spoke - mots de langues étrangères : hello!, gutentag Un bon mot de passe doit toutefois être facile à se souvenir mais difficile à cracker. Le meilleur moyen de créer un mot de passe incrackable est de le faire apparaître comme défini au hasard. Il ne faut pas oublier d’insérer des chiffres et des signes de ponctuations dans le mot de passe. La méthode favorite pour trouver un mot de passe incrackable mais facile à se souvenir est de : 1. Prendre une phrase ou une ligne d’un poême ou d’une chanson qui doit être d’au moins long de 8 mots 2. Prendre la première lettre de chaque mot et l’utiliser dans le mot de passe. 3. Utiliser les signes de ponctuations Par exemple, la phrase : « Un pour tous, et tous pour un » donne un mot de passe relativement incrackable : « Upt,&tp1 » Un bon moyen pour un administrateur réseau de savoir si les utilisateurs ont des mots de passe sûrs est d’utiliser les programmes de crackage de mots de passe sur son propre système comme le ferait un cracker. « Crack » est un bon outil pour s’assurer que les utilisateurs de système UNIX n’ont pas choisis des mots de passe facilement crackable qui apparaissent dans les dictionnaires standards. 2.5.3.3. La cryptographie La cryptographie est la technologie qui permet d’envoyer des messages qui ne peuvent être compris (décryptés) que par le destinataire en améliorant les contrôles sur les messages routés par l’Internet, et en améliorant la qualité du système d’exploitation à abaisser les défauts des programmes et d’autres vulnérabilités de sécurité. Il y a deux principaux types de cryptage : le cryptage asymétrique (appelé aussi cryptage à clé publique) et le cryptage symétrique. 2.5.3.3.1. Le cryptage asymétrique ou à clé publique C’est un système cryptographique qui utilise deux clés : une clé publique connue de n’importe qui et une clé secrète connue uniquement du destinataire du message. Par exemple : Quand Jean veut envoyer un message sûr à Paul, il utilise la clé publique de Paul pour crypter son message. Ensuite Paul utilise sa clé privée pour le décrypter. Un élément important au système de clé publique est que les clés publique et privée sont en relation de telle façon que seulement la clé publique peut être utilisée pour crypter le message et seulement la clé privée correspondante peut être utilisée pour le décrypter. De plus, il est Exposé MCSI 2003-2004 55 Webmaster - 56 - virtuellement impossible de déduire la clé privée si on ne connaît pas la clé publique. 2.5.3.3.2 Le cryptage symétrique C’est un type de cryptage où la clé utilisée pour crypter et décrypter le message est la même. Le cryptage de type DES (Data Encryption Standard) est une des plus célèbre forme de cryptage symétrique. Il est d’ailleurs toujours utilisé par les administrations aux Etats-Unis pour envoyer des données à travers un réseau. Toutefois, elles utilisent le système de cryptage à clé publique pour envoyer la clé DES au destinataire du fichier crypté ! 2.5.3.4. IP spoofing et SYN flooding Avec la technologie actuelle du protocole IP, il est impossible d’éliminer les paquets spoofés. Mais il existe quelques solutions pour réduire le nombre de paquets spoofés entrant et sortant du réseau. La meilleure méthode est d’installer un routeur-filtreur qui limite les entrées à l’interface externe (connue sous le nom de filtreur d’entrée) en n’accordant pas le droit d’entrée à un paquet qui a une adresse source du réseau interne. Il peut aussi être bon de filtrer les paquets sortants qui ont une adresse source différente du réseau interne afin de prévenir une attaque d’IP spoofing provenant du réseau interne. La combinaison de ces deux routeurs-filtreurs doit empêcher les agresseurs extérieurs d’envoyer des paquets prétendants venir du réseau interne. Cela doit également empêcher les paquets provenant du réseau interne de se prétendre venir de l’extérieur du réseau. Ces filtreurs ne vont pas stopper toutes les attaques de type TCP-SYN du moment que les agresseurs extérieurs peuvent spoofer leurs paquets de facon qu’ils proviennent d’autres sites extérieurs, et les agresseurs internes peuvent toujours envoyer des attaques spoofing avec des adresses internes. L’IP spoofing et le SYN-flooding sont actuellement les deux pricipaux problèmes unsoluble de la sécurité sur l’Internet. 2.5.3.5. Les outils de vérification de la sécurité Il existe de nombreux outils disponibles sur l’Internet pour tester la sécurité d’un système. Certains outils scannent les systèmes pour connaître leurs vulnérabilités : « SATAN » est le plus célèbre programme pour UNIX, d’autres vérifient l’intégrité des fichiers comme « Tripwire ». L’administrateur réseau est fortement conseillé d’utiliser ces outils avant les agresseurs si il veut éviter les problèmes les plus courants. Voici une petite liste des outils de vérification les plus courants : ISS, C2 security, COPS, Tiger (qui fait parti de TAMU security), MD5. Exposé MCSI 2003-2004 56 Webmaster - 57 - 2.5.3.6. La sécurité à travers l’obscurité C’est une manière de considérer qu’un système ne peut être sûr que aussi longtemps que personne, en dehors des personnes qui l’ont créé, n’ait compris son fonctionnement interne. La technique est de cacher les comptes utilisateurs, les mots de passe dans des fichiers exécutables ou des programmes avec l’espoir que personne ne les trouvera. C’est une philosophie qui a la faveur des bureaucrates américains. La principale critique de cette technique est que ce n’est que de la pseudo sécurité car elle ne résout pas les vrais problèmes de sécurité mais à la place, les caches. De plus, le responsable du petit groupe qui a créé ce système doit faire confiance aux employés pendant toute leur vie. Et si les employés ont une meilleure offre de salaire ailleurs, les connaissances s’en vont avec eux que les connaissances soient remplaçables ou non. Toutefois, cette technique peut rentrer en complément d’autres mesures de sécurité. 2.5.3.7. La restriction d’IP La restriction d’IP sert à limiter les utilisateurs à se connecter à certaines parties du serveur. En accordant seulement quelques adresses IP à se connecter au serveur, l’agresseur n’aura pas l’accès aux domaines où il peut causer des dommages. 2.5.3.8. L’éducation et la prise de conscience Une des craintes majeures pour la sécurité d’un système n’est pas les trous techniques de sécurité d’un système mais le manque de conscience des utilisateurs ou de l’administrateur. Par « manque de conscience », je veux dire que les utilisateurs d’Internet ont souvent l’impression que le seul moyen par lequel un hacker peut rentrer dans leur compte ou sur un système est en utilisant trappe laissée ouverte par un administrateur non-conscencieux. Une autre croyance est qu’il n’y a aucune valeur dans un simple compte utilisateur et que personne ne va s’ennuyer à essayer de le pénétrer. Aussi bizarrement qu’il puisse paraître, ce qu’un agresseur trouve d’intéressant dans un compte utilisateur est tout simplement l’accès au système. Un simple accès permet à l’intrus de devenir super utilisateur après avoir exploité une faille dans le système d’exploitation du système ou bien le compte peut être utilisé comme passerelle pour attaquer d’autre sites. Bien évidemment, l’utilisateur victime est responsable de se qui se produit sur son compte, d’où l’intérêt de le protéger correctement. Un bon moyen pour faire prendre conscience aux utilisateurs de l’importance de leur compte (et donc de leur mot de passe) est de prendre des mesures strictes en les encourageant : - à changer leur mot de passe après la première connexion, - à ne pas partager leur compte avec qui que ce soit, - à protéger leur mot de passe : être prudent des regards indiscret au moment de taper le mot de passe, Exposé MCSI 2003-2004 57 Webmaster - 58 - - à changer leur mot de passe régulièrement et tout spécialement après s’être connecté sur une machine éloignée, - à choisir des mots de passe sûrs Un autre moyen d’impliquer les utilisateurs à respecter les mesures de sécurité sur un système est de leur faire signer une charte de responsabilité et de bonne conduite sur l’Internet. La sécurité est l’affaire de tous sur un système : l’administrateur aussi bien que les utilisateurs. Et le rôle de l’administrateur est d’éduquer ses utilisateurs à la sécurité. 2.5.4. Conclusion La meilleure solution pour l’Internet réside sans doute dans le cryptage des données. Mais beaucoup de gouvernements n’approuvent pas cette technique parce qu’elle représente un danger pour la sécurité de l’état car l’information ne peut plus être contrôlée. C’est pourquoi aux Etats-Unis le cryptage à clé publique est seulement permis avec des clés de 48 bits. Dans certains pays, le cryptage des données est même totalement interdit : Singapour, Chine, etc ... En France, par contre la cryptologie n’est pas interdite, mais l’utilisateur qui veut crypter des données doit remettre les clés de cryptage à un organisme. De nos jours, les entreprises veulent choisir des options de haute sécurité dont elles ont besoin pour communiquer dans le commerce électronique, et la cryptographie semble être la meilleure solution pour ces dernières. Comme il n’y a pas et il n’y aura sans doute jamais de réseaux sûrs à 100%, nous pouvons quand même nous protéger d’une majorité de problèmes associés à l’Internet en étant vigilant. Toutefois, l’Internet continue de grandir en popularité et les statistiques de fraudes et d’attaques risquent de continuer à augmenter si les utilisateurs ne prennent pas conscience que la sécurité est un enjeu capital pour l’Internet. « Le seul système informatique qui est vraiment sûr est un système éteint et débranché, enfermé dans un blockhaus sous terre, entouré par des gaz mortels et des gardiens hautement payés et armés. Même dans ces conditions, je ne parierais pas ma vie dessus. » Gene Spafford . Exposé MCSI 2003-2004 58 Webmaster - 59 - 3. outils du développement 3.1. JavaScript Présentation Créé par Netscape (1er nom : LiveScript 1.0) Script = ensemble d'instructions permettant de réaliser une action. Embarqué dans la page HTML -> lisible pour le client. Langage de programmation à la syntaxe proche du C++. Gestion des événements provoqués par le client. Exécution par le browser sans recours au serveur -> indépendant de la plate forme. Aucune analyse du code -> erreurs de syntaxe non signalées. Pas d'héritage entre les classes. Netscape a rendu public JavaScript en 1997 -> ECMAScript (ECMA-262) standard de l'Européen Computer Manufacturiers Association. Versions : 2.0 Navigateur Internet Explorer JavaScript 1.0 3.0 JScript 1.0 3.0 JavaScript 1.1 3.02 JScript 2.0 4.0-4.05 JavaScript 1.2 4.0 JScript 3.0 4.06-4.7x JavaScript 1.3 > 4.5 compatible ECMA-262 > 4 compatible ECMA-262 6.0 (Mozilla) JavaScript 1.5 5.0 JScript 5.0 7.0 (Mozilla) JavaScript 1.5 6.0 JScript 5.6 JavaScript peut être utilisé côté serveur pour générer dynamiquement des pages (i.e. scripts CGI écrits en JavaScript), à condition d'avoir un serveur qui l'interprète : o Entreprise Server de Netscape o Internet Information Server (IIS) de Microsoft o Intra Builder de Inprise (ex Borland) 3.2. FrontPage Présentation Front Page a été développé par la société Vermeer Technologies, ensuite racheté en 1995 par Microsoft. Depuis cette année, il a évolué pour devenir un des logiciels les plus marquants de l’histoire du Web. Ce fut le premier produit à permettre aux utilisateurs, non seulement de créer des pages Web, mais aussi de créer, publier et gérer des sites entiers. Exposé MCSI 2003-2004 59 Webmaster - 60 - Front Page a été conçu pour rendre ces taches plus simples et plus complètes. Il permet de planifier, concevoir, implanter, développer, administrer et mettre a jour des sites Web complets, ainsi que des ensembles de pages liées entre elles. 3.3. Macromedia Flash MX 1. Introduction Macromedia Flash MX est un logiciel de conception et de production pour les images et graphisme web. Les concepteurs de graphisme peuvent créer des images étonnantes et des options d’interactivité complexes pouvant être intégrées facilement dans des pages Web dynamiques .il s’agit donc d’un environnement de production permettant de : - Concevoir rapidement des images modifiables, des animations et des compositions graphiques du Web. - Automatiser le processus de création des graphismes Web pour répondre aux exigences constantes de modifications, de mises à jour, de changements et de la nature dynamique du Web. Macromedia Flash MX est un outil de conception Web professionnel. Il combine les outils d’édition d’images dans un environnement orienté objet. Les concepteurs peuvent ajouter des styles d’objet, créer des boutons étape par étape à partir d’une fenêtre, enregistrer des graphismes et des boutons dans une bibliothèque afin de les conserver et ajouter des effets applicables en direct à n’ importe quel graphisme. 2. présentation du logiciel L’application Flash MX comporte de nombreuses boites de dialogue et info bulles pour rendre l’utilisation du programme encore plus facile. Des messages sont affichés lorsque on utilise certains outils de façon incorrecte. Flash propose différents outils permettant de dessiner des formes libres ou des lignes, des formes et des tracés précis, et de peindre des objets remplis. Exposé MCSI 2003-2004 60 Webmaster - 61 - 3. espace de travail Les animations Macromedia Flash MX sont constituées de graphiques, de textes, d'effets animés et d'applications destinés aux sites web. Elles sont principalement composées de graphiques vectoriels, mais peuvent également contenir des graphiques bitmap, de la vidéo et des sons importés. Les animations Flash peuvent être interactives et ainsi permettre l'entrée d'informations par l'utilisateur et la création d'animations non linéaires capables de dialoguer avec d'autres applications Web 3.1. Outils de dessin Dans la boite à outils se rassemblement tous les éléments de dessins comme : attributs de sélection d’objet, plume, pinceau, crayon, lasso…etc. Le pointeur : Le pointeur sert à sélectionner l’objet concerné pour lui affecter des modifications quelconques. Ce pointeur se présente sous différents modes de sélection et permet de déplacer même une sélection donnée. Exposé MCSI 2003-2004 61 Webmaster - 62 - Le lasso : Le lasso comprend trois outils de sélection d’objet ou d’image qui sont la baguette magique, le lasso polygonal et celui de la forme libre. Le Rectangle : C’est pour le tracé des différentes formes d’objets : cercle, carré, rectangle ou polygone. le pinceau : C’est comme le crayon mais plus épais que le crayon de dessin. Transformation libre : C’est un nouveau outil de dessin. Il sert à appliquer des transformation et des modifications sur l’objet concerné tel que : rotation, extension, rétrécissement,…etc. 3.2. Panneaux Les panneaux de Flash vous permettent d'afficher, d'organiser et de modifier les éléments d'un document. La plupart des panneaux contiennent un menu déroulant comprenant des options supplémentaires. Le menu Options est indiqué par une commande placée dans la barre de titre du panneau. Si aucune commande d'option n'apparaît, ce panneau n'offre aucune option spécifique. a. panneau Bibliothèque Le panneau Bibliothèque est l'endroit où vous stockez et organisez les symboles créés dans Flash, ainsi que les fichiers importés tels que les graphiques bitmap, les fichiers son et les clips vidéo. Le panneau Bibliothèque vous permet d'organiser les éléments de la bibliothèque dans des dossiers, de savoir combien de fois un objet est utilisé dans un document et de trier les éléments par type. Exposé MCSI 2003-2004 62 Webmaster - 63 - b. panneau Actions Le panneau Actions vous permet de créer et de modifier des actions pour un objet ou une image. La sélection d'une occurrence de bouton, de clip ou d'image rend le panneau Actions actif. Le titre du panneau Actions devient Actions - Boutons, Actions - Clips ou Actions Images en fonction de votre sélection. Exposé MCSI 2003-2004 63 Webmaster - 64 - c. l'inspecteur des propriétés L'inspecteur des propriétés simplifie la création des documents en facilitant l'accès aux attributs le plus fréquemment utilisés de la sélection actuelle, que ce soit sur la scène ou dans le scénario. Il vous permet de modifier les attributs d'un document ou objet sans avoir à accéder aux menus ou panneaux qui contiennent ces fonctionnalités. Selon ce qui est sélectionné, l'inspecteur des propriétés affiche les informations et les paramètres du document, texte, symbole, forme, bitmap, vidéo, groupe, image ou outil actuel. Lorsque plusieurs types d'objets sont sélectionnés, il affiche le nombre total d'objets sélectionnés. 4. Espace de travail 4.1. Scène Tout comme les films, les animations Flash divisent les périodes de temps en images. La scène est l'endroit auquel vous composez le contenu des images de l'animation, soit en y dessinant directement les illustrations, soit en organisant des illustrations importées. 4.2. Scénario Le scénario organise et contrôle le contenu d'une animation au fil du temps dans des calques et des images. Tout comme les films, les animations Flash divisent les périodes de temps en images. Les calques sont semblables à des bandes de film empilées les unes sur les autres, chacune contenant une image différente qui apparaît sur la scène. Les principaux composants du scénario sont les calques, les images et la tête de lecture. Exposé MCSI 2003-2004 64 Webmaster - 65 - Les calques d'un document sont répertoriés dans une colonne affichée sur la gauche du scénario. Les images contenues dans chaque calque sont affichées sur une ligne à droite du nom du calque. L'en-tête du scénario, situé en haut du scénario, indique le numéro des images. La tête de lecture indique l'image actuellement affichée sur la scène. La barre d'état du scénario, affichée en bas de ce dernier, indique le numéro de l'image sélectionnée, la cadence d'image actuelle et le temps écoulé jusqu'à l'image actuelle. 5. Création d’animation Vous pouvez créer de l'animation dans un document Macromedia Flash MX en modifiant le contenu d'images successives. Vous pouvez déplacer un objet sur la scène, augmenter ou diminuer sa taille, le faire pivoter, modifier sa couleur, effectuer des fondus en entrée ou en sortie, ou modifier sa forme. Les modifications peuvent se faire indépendamment ou avec d'autres modifications. Par exemple, vous pouvez faire pivoter un objet et effectuer un fondu en entrée lorsqu'il se déplace sur la scène. Il existe deux méthodes de création d'une séquence animée dans Flash : animation par interpolation et animation image par image. Dans l'animation interpolée, vous créez l'image de début et de fin et laissez Flash créer les images intermédiaires. Flash change la taille, la rotation, la couleur ou d'autres attributs de l'objet de façon égale entre la première et la dernière image pour créer l'apparence de mouvement. Dans l'animation image par image, c'est à vous de créer le contenu de chaque image. 5.1. Animation par interpolation Flash peut créer deux types d'animation interpolée, l'interpolation de mouvement et l'interpolation de forme. Exposé MCSI 2003-2004 65 Webmaster - 66 - Avec l'interpolation de mouvement, vous définissez des propriétés telles que la position, la taille et la rotation d'une occurrence, d'un groupe ou d'un bloc de texte à un point dans le temps, puis modifiez ces propriétés à un autre point dans le temps. Vous pouvez également appliquer une interpolation de mouvement le long d'un trajet. Avec l'interpolation de forme, vous dessinez une forme à un point dans le temps, puis modifiez cette forme ou dessinez une autre forme à un autre point dans le temps. Flash interpole les valeurs ou formes pour les images intermédiaires, créant ainsi l'animation. 5.2. Animation image par image L'animation image par image change le contenu de la scène dans chaque image et est plus adaptée aux animations complexes dans lesquelles le contenu change d'une image à l'autre au lieu d'être simplement déplacé sur la scène. L'animation image par image accroît la taille du fichier plus rapidement qu'une animation interpolée. Dans l'animation image par image, Flash stocke les valeurs de chaque image complète. Pour plus d'informations sur l'animation image par image. 6. Exportation La commande Exporter l'animation de Macromedia Flash MX nous permet de créer du contenu pouvant être modifié dans d'autres applications et d'exporter une animation directement dans un format unique. Par exemple, on peut exporter une animation tout entière sous la forme d'un fichier Flash, d'une série d'images bitmap, d'une seule image et sous la forme d'images animées ou statiques dans divers formats tels que GIF, JPEG, PNG, BMP, PICT, QuickTime ou AVI. 7. optimisation des animations La vitesse de téléchargement et de lecture du fichier d’une animation est proportionnelle à sa taille. On peut prendre un certain nombre de mesures pour préparer une animation à la meilleure lecture possible. Au cours du processus de publication, Flash effectue automatiquement quelques opération d'optimisation sur les animations : par exemple, il détecte les formes exportées en double et en ne les insère qu'en un seul exemplaire dans le fichier, et convertit les groupes imbriqués en groupes uniques. Avant d'exporter une animation, on peut l'optimiser un peu plus en utilisant diverses stratégies pour réduire sa taille. On peut également compresser un fichier SWF lorsque on le publie. 7.1. Animations en général Utilisez des symboles, animés ou non, pour tout élément apparaissant plus d'une fois. Chaque fois que cela est possible, utilisez des animations interpolées, qui prennent moins d'espace qu'une série d'images-clés. Pour les séquences animées, utilisez des clips plutôt que des symboles graphiques. Exposé MCSI 2003-2004 66 Webmaster - 67 - Limitez la zone de modification de chaque image-clé ; faites en sorte que l'action prenne place dans une zone aussi réduite que possible. Evitez d'animer les éléments bitmap ; utilisez les bitmaps comme éléments statiques ou d'arrière-plan. Pour le son, utilisez le format MP3, le format audio le plus compact, à chaque fois que cela est possible. 7.2. Optimiser les éléments et les lignes Groupez les éléments autant que possible. Utilisez des calques pour séparer les éléments qui évoluent au cours de l'animation de ceux qui ne subissent aucune modification. Utilisez Modification > Optimiser pour réduire le nombre de lignes distinctes utilisées pour décrire les formes. Limitez le nombre de types particuliers de lignes (par exemple, lignes en tirets ou pointillées). Les lignes pleines utilisent moins de mémoire. Les lignes créées avec l'outil Crayon nécessitent moins de mémoire que les coups de pinceau. 7.3. Optimiser le texte et les polices Limitez le nombre de polices et de styles de police. Utilisez les polices intégrées avec parcimonie car elles augmentent la taille du fichier. Pour les options d'intégration des polices, sélectionnez seulement les caractères nécessaires au lieu d'inclure la police entière. 7.4. Optimiser les couleurs Utilisez le menu Couleur de l'inspecteur des propriétés du symbole pour créer de nombreuses occurrences d'un même symbole dans des couleurs différentes. Utilisez le mélangeur de couleurs (Fenêtre > Mélangeur de couleurs) pour faire correspondre la palette de couleurs de l'animation et celle spécifique aux navigateurs. Utilisez les dégradés avec parcimonie. Le remplissage d'une zone à l'aide de dégradés nécessite 50 octets de plus que le remplissage à l'aide d'une couleur unie. Utilisez la transparence alpha avec parcimonie car elle peut ralentir la lecture. 7.5. Optimiser ActionScript Activez l'option Omettre les actions Trace de l'onglet Flash des paramètres de publication pour ne pas inclure les actions trace dans les animations publiées. Définissez des fonctions pour le code fréquemment répété.Utilisez des variables locales lorsque possible. Exposé MCSI 2003-2004 67 Webmaster - 68 - VIl. Etude de cas : Webmaster de l’INI Dans cette partie on va étudie, qu’est ce quel fait le Webmaster de l’INI ? Il y a plusieurs taches son fait par le Webmaster : Mise a jour de site Web de l’INI Ajouts des nouvelles informations. Actualiser le site Web. Optimisation de site Vérification des liens. Surveiller les erreurs de connections (erreur 404). Sécurité de site Assurer le bon fonctionnement de site. Surveille les accès au site. Surveille les pirates Exposé MCSI 2003-2004 68 Webmaster - 69 - VI. CONCLUSION les technologies de l’information et de la communication , NTIC , sont considérées aujourd’hui comme des facteurs indispensables pour accélérer les réformes organisationnelles et propulser la compétitivité des entreprises, d’ou l’apparition de nouveaux métiers tel que le webmaster , et nous avons procéder dans ce rapport à la définition des fonctions du webmaster et son rôle essentiel dans l’entreprise. Il y a beaucoup de définitions de seulement ce qu'un administrateur de site Internet est, ce qu'ils font, qui ils travaillent pour, et combien ils devraient être payés. Nous voyons que la place d'Administrateur de site Internet est vue comme une place de niveau supérieur, avec la personne qui est responsable pour diriger l'évolution et bien-être du site Internet de l’entreprise. Exposé MCSI 2003-2004 69