1. Notions théoriques
1.1. Historique d'Internet
1.1.1. Naissance d'Internet: 1969
1.1.2. Recherche et développement: 1970-1983
1.1.3. Le réseau des chercheurs: 1983-1985
1.1.4. La révolution du «personal computer»: 1985-1990
1.1.5. L'épuisement des adresses et l'avènement du WWW: les années 90
1.2. Principes de fonctionnement
1.2.1. Décentralisation
1.2.2. Transfert de données et routage
1.2.3. Principe client-serveur
1.3. Les adresses Internet
1.3.1. Adresses IP et adresses nominales
1.3.2. Les URLs (Uniform Resource Locator)
1.3.3. URLs Web: <http://host.domain.org/repertoire/index.html>
1.3.4. URLs e-mail: <mailto:michel.martin@etatfr.ch>
1.3.5. URLs FTP: <ftp://ftphost.domain.org>
1.3.6. URLs News: <news:comp.sys.mac.programmer.tools>
1.3.7. URLs locaux: <file:///dossier/repertoire/fichier.txt>
2. Le World Wide Web
3. Autres services d'Internet
4. Publication d'un site Web
La genèse d'Internet est souvent mal connue. Voici quelques informations sur sa naissance et son développement, ainsi que sur certains sujets importants de l'histoire d'Internet. (Voir à ce sujet l'Internet Timeline, par Robert Hobbes Zakon.)
L'origine d'Internet tel que nous le connaissons aujourd'hui remonte à 1969. Internet est né sous la forme d'un projet du Département de la Défense des États-Unis. Le but de ce projet était d'assurer la transmission d'informations numériques, même en temps de guerre, notamment après une attaque nucléaire. À cette époque, le téléphone était le seul moyen de communication envisageable pour un vaste théâtre d'opérations. Le problème est que dans un réseau comme celui des téléphones, les noeuds de transit (centraux téléphoniques) sont des points essentiels pour le fonctionnement de tout le système, et donc des cibles faciles pour empêcher toute communication.
C'est pourquoi il fallait concevoir un réseau de communication capable d'emprunter des routes différentes si l'un des noeuds de transit n'était plus en service, c'est-à-dire un réseau complètement décentralisé. Les chercheurs spécialistes de la communication connaissaient une solution théorique, construire une toile (en anglais «web») de réseaux de datagrammes, et utiliser des protocoles permettant d'ajuster dynamiquement le trafic sur cette interconnexion de réseaux.
Le DARPA (Defense Advanced Research Projects Agency) lança alors le programme qui a abouti à Internet, sous le nom de Arpanet. Arpanet fut installé en septembre 1969 à l'université de Californie (UCLA). En décembre 1969, quatre universités y étaient connectées.
Pendant 10 ans, Arpanet reste le jouet des militaires et des chercheurs. Plusieurs équipes de chercheurs font évoluer les protocoles de transmission. En 1971, 15 universités, comprenant en tout 23 hôtes, sont sur Arpanet. En 1972, 40 universités sont connectées et le premier e-mail est envoyé. Le premier programme de courrier électronique avait été développé l'année précédente.
L'année 1973 voit l'internationalisation du projet, avec la connexion d'une université de Londres et d'une autre en Norvège. En 1975, le DARPA déclare que l'expérience Arpanet est un succès. En 1979 est créé le premier forum de discussion (newsgroup). Le nombre des hôtes se monte à 213 en 1981 et à 235 en 1982. Le terme «Internet» est utilisé pour la première fois en 1982.
En 1983, les protocoles principaux (y compris IP et TCP) sont adoptés définitivement dans Arpanet. Les sites militaires quittent Arpanet pour fonder leur propre réseau. Il y a maintenant 500 noeuds sur ce que l'on n'appelle pas encore Internet.
En août 1983, 562 hôtes (en majorité des universités) sont enregistrés sur Arpanet. Rappelons qu'à cette époque, un petit ordinateur ne tenait pas sur un bureau. Les utilisateurs travaillaient sur des terminaux. Peu de compagnies commerciales étaient connectées à Internet. Le service le plus apprécié des utilisateurs était le courrier électronique, permettant à des collègues de communiquer rapidement.
La NSF (National Science Foundation) prend le contrôle de la maintenance d'Arpanet en 1984. Le nombre des hôtes dépasse 1000. Cette année-là le terme «cyberspace» est forgé par le romancier William Gibson.
Notamment grâce au développement de la technologie des «personal computers» et des LANs (Local Area Network = réseau local), il devient possible de construire une interconnexion de réseaux. Ce que l'on appelle «subnetting», c'est-à-dire fabrication de sous-réseaux, est standardisé en 1985. Cette technologie ouvre la porte à la connexion des LANs avec les WANs (Wide Area Network = réseau étendu).
En 1986, la NSF et la NASA démarrent le programme «Supercomputer Centers», dont le but est de mettre à la disposition du plus grand nombre (et non seulement des centres de recherche et universités les plus riches) les supercomputers, tels les célèbres Crays. Ils connectent dans ce but toutes les universités des États-Unis et décident de baser leur réseau sur les protocoles Internet: c'est le NSFNet. Entre février et novembre de cette année, le nombre des hôtes passe de 2308 à 5089.
La dénomination des domaines est stable en 1987. Jusqu'alors, des tables statiques faisaient la correspondance entre les noms des hôtes et leur adresse IP. Ce procédé était devenu intenable avec la croissance exponentielle d'Internet, qui compte alors 28'174 hôtes.
En 1987, eut lieu ce qui reste encore la plus grave «panne» de sécurité dans l'histoire d'Internet: l'«Internet Worm». Un étudiant en informatique à l'université de Cornell, âgé de 23 ans, Robert Morris, écrivit un programme expérimental, un «worm» (un worm est un programme qui s'auto-reproduit et se propage dans un réseau), et le lâcha le 2 novembre 1987 dans Internet. Ce programme se propagea à grande vitesse. Des réseaux entiers furent complètement paralysés, d'autres furent déconnectés afin de stopper les dégâts. Parmi les hôtes d'Internet, 6000 furent temporairement inutilisables. Il n'est pas impossible qu'un tel problème survienne encore de nos jours.
La progression du nombre des hôtes continue: 56'000 en 1988, plus de 150'000 en 1989.
En 1990, Arpanet s'éteint officiellement pour être remplacé par ce que nous appelons Internet, qui compte plus de 300'000 hôtes, répartis dans 2063 réseaux. L'année 1991 voit une énorme augmentation du nombre d'hôtes: 376'000 en janvier, 617'000 en octobre.
On assiste à l'épuisement des adresses IP disponibles. En effet, une adresse IP est constituée d'une suite de 32 bits (0 ou 1). Le nombre d'adresses, théoriquement plus de 4 milliards, est donc limité, car le mécanisme d'allocation des adresses fait que beaucoup ne sont pas utilisées. On a cherché à augmenter le nombre des adresses par divers moyens. La solution trouvée fut CIDR (Classless Internet Domain Routing). Elle permet d'utiliser plus efficacement les 32 bits d'une adresse IP. Tôt ou tard, à cause de la croissance exponentielle d'Internet, une solution plus robuste devra être trouvée, par exemple l'utilisation d'adresses de 128 bits de longueur, ce qui offrira un nombre d'adresses presque illimité.
Les années 90 marquent aussi l'entrée en scène du WWW (World Wide Web), développé dès 1988 au CERN en Suisse et amélioré au National Center for Supercomputing Applications (NCSA) de l'université d'Illinois. Le résultat fut NCSA Mosaic, le premier logiciel de navigation hypertexte avec interface pointer-cliquer, en 1992. L'explosion du nombre de sites WWW qui en résulta plaça Internet sous les feux de la rampe.
La croissance du nombre d'hôtes devient vertigineuse. 1992: 1'000'000, 1993: 2'000'000, 1994: 3'500'000 hôtes pour près de 40'000 réseaux interconnectés. Le taux de croissance est de 25% par mois. Les moteurs de recherche apparaissent. En 1995, Internet compte plus de 6,5 millions d'hôtes et 60'000 réseaux. Le nombre de 10 millions d'hôtes est dépassé dans la fin de 1995.
En juillet 1999, plus de 55 millions d'ordinateurs étaient connectés à Internet.

Internet est un réseau constitué de l'interconnexion d'un grand nombre d'ordinateurs (hosts = hôtes), qui peuvent ainsi échanger des données. Son fonctionnement est basé sur quelques points importants, que nous allons développer ici.
Le premier principe de fonctionnement d'Internet est la décentralisation. Il n'existe en effet aucun ordinateur central, ni même d'organisme central responsable de la gestion d'Internet. «Internet est une interconnexion anarchique de réseaux appartenant à divers propriétaires» (Christian Huitema, Le Routage dans l'Internet, Eyrolles 1995, p. 2). Pour cette raison, Internet ne possède pas d'architecture véritable. Ce qui caractérise Internet, c'est le principe d'acheminement des messages qui y transitent.
Voici comment fonctionne la transmission de données sur Internet. Le message est d'abord coupé en morceaux, appelés paquets. Chaque paquet porte l'adresse de l'expéditeur, celle du destinataire du message et un numéro d'ordre indiquant sa position dans le message. Un paquet assorti de ces informations est appelé un datagramme.
Les paquets sont ensuite envoyés sur le réseau, qui se charge de les acheminer à bon port. Chaque paquet est indépendant, c'est-à-dire que les chemins parcourus peuvent être différents pour chacun d'eux. Il est d'ailleurs impossible de prévoir par quels noeuds intermédiaires (les routeurs) les paquets vont passer. Les routeurs calculent en effet à chaque instant le chemin optimal, qui change donc suivant les conditions. Le calcul du chemin des différents paquets est appelé routage.

Illustration d'après Louis Perrochon, School Goes Internet, dpunkt Verlag, Heidelberg 1996.
Il n'y a pas de garantie que le réseau ne perdra pas de paquet. Quand un paquet est perdu, il est envoyé à nouveau par l'expéditeur.
L'ordinateur destinataire du message réceptionne les paquets les uns après les autres, probablement dans le désordre, les trie grâce au numéro d'ordre et les assemble, puis envoie un message de quittance à l'ordinateur émetteur en utilisant le même procédé.

Illustration d'après Louis Perrochon, Op. Cit.
Grâce à l'interconnexion de nombreux réseaux, il existe un grand nombre de parcours différents possibles pour les informations d'un hôte à l'autre. Pour cette raison, les paquets empruntent des chemins différents et, si pour quelque raison que ce soit un noeud du réseau tombe en panne, les paquets cherchent immédiatement un autre chemin et arrivent malgré tout au but.
Il est important de voir la différence entre un tel type de réseau (réseau de datagrammes) et le réseau téléphonique. Ce dernier fonctionne en établissant une connexion de l'expéditeur au destinataire. Cette connexion est réservée et toute l'information passe par ce même canal. Si pour des raisons d'encombrement du réseau, il n'est pas possible d'établir un tel circuit, la communication est impossible. Dans Internet, cela n'arrive jamais. En cas d'encombrement, les paquets sont transmis malgré tout, mais avec une vitesse moindre.
La transmission des informations sur Internet fonctionne suivant le principe client-serveur. On appelle serveur un ordinateur (d'habitude puissant et fiable) ou un programme informatique qui met à disposition des services pouvant être utilisés simultanément par plusieurs utilisateurs, c'est-à-dire plusieurs ordinateurs connectés en réseau. Le client est l'ordinateur (ou le programme) qui utilise des services fournis par le serveur.
Chaque transfert de données fonctionne suivant le même processus: le client, commence la transaction en demandant à un serveur, de lui transmettre telle ou telle donnée. Le serveur répond et lorsque la requête est accomplie, la transaction se termine.
Pour que fonctionne le principe de routage décrit plus haut, il est nécessaire que chaque hôte puisse trouver son correspondant sur le réseau. Dans ce but, chaque ordinateur connecté à Internet possède une adresse unique, appelée adresse IP.
Une adresse IP est constituée de quatre nombres allant de 0 à 255 (nombres à 8 bits), séparés par un point. Voici une adresse IP: 156.25.83.172. Ces chiffres ont des significations bien précises. Une partie d'entre eux désignent le réseau, respectivement le sous-réseau auquel appartient l'hôte en question. Le reste des chiffres désigne de façon univoque l'hôte lui-même.
Chacun sait que l'être humain a généralement de la difficulté à retenir les suites de chiffres, au contraire de l'ordinateur. Pour cette raison, il existe sur Internet un service qui permet d'associer à chaque adresse IP une adresse nominale. Ce service est le service de noms de domaines, appelé en anglais «domain name service» (DNS). Le service de noms de domaines est une grande base de données distribuée sur des hôtes particuliers d'Internet, appelés serveurs de noms de domaines. Ce sont eux qui s'occupent de la correspondance entre adresse nominale et adresse IP.
Une adresse nominale a une structure hiérarchique, de la forme «host.domain.ch».
Le premier niveau de la structure est représenté par la dernière partie de l'adresse. Il regroupe des classes d'utilisateurs, par exemple «edu», «com» ou «gov», ou les utilisateurs d'un pays, comme «ch», «de» ou «fr». Le tableau suivant donne une liste des principaux domaines de premier niveau.
| Domaines géographiques | Domaines génériques | ||
|---|---|---|---|
| ch | Suisse | edu | Éducation |
| fr | France | com | Commerce et entreprises |
| de | Allemagne | net | Réseaux |
| it | Italie | gov | Gouvernement US |
| us | États-Unis | mil | Organisations militaires US |
| uk | Royaume Uni | int | Organisations internationales |
| ca | Canada | org | Autres organisations |
Dans ce premier niveau sont enregistrés les domaines, comme «whitehouse.gov» ou «unifr.ch», qui constituent le deuxième niveau hiérarchique. Le nom de chaque domaine est unique. Le «.ch» ou «.gov» font partie du nom de domaine, c'est-à-dire que «bluesky.ch» et «bluesky.fr» sont des domaines distincts. Un nom de domaine a en général une similitude avec le nom de l'entreprise ou de l'organisation qui le possède.
Le dernier niveau de la structure est le nom donné arbitrairement à l'hôte dans le domaine en question.
Il peut arriver que des niveaux intermédiaires existent. Ils désignent dans ce cas des sous-domaines. Un exemple d'une adresse avec un sous-domaine est «server.csc.edufr.ch».
Pour récapituler, une adresse nominale est constituée de:
Le rôle du DNS est de traduire l'adresse nominale donnée par l'utilisateur en une adresse IP numérique qui détermine exactement l'hôte concerné.
L'avantage des adresses nominales n'est pas seulement une plus grande facilité d'emploi pour les utilisateurs. Grâce à ce mécanisme, si un hôte déménage ou change simplement d'adresse IP, il suffit de mettre à jour le DNS et les utilisateurs ne s'apercevront d'aucun changement, puisque l'adresse nominale restera la même. Elle correspondra tout simplement à une autre adresse IP.
Internet donne accès à un grand nombre de choses différentes: un serveur (c'est-à-dire un ordinateur), une boîte aux lettres (c'est-à-dire une personne), ou encore des données (c'est-à-dire de l'information). Il est donc nécessaire de disposer d'un moyen de contacter quoi que ce soit de disponible sur Internet. Ce moyen est donné par ce que l'on appelle en anglais «Uniform Resource Locator», et abrégée URL. Dans le public, le terme «adresse Internet» est souvent utilisé abusivement pour dénoter un URL.
Pour différencier un URL du texte environnant, on utilise la notation en vigueur sur Internet: chaque URL est placé entre les signes < (plus petit que) et > (plus grand que). Ces délimiteurs ne font pas partie de l'URL. Lors de l'utilisation d'une telle adresse, il est important de ne pas taper les symboles < et >.
Voici quelques exemples d'URLs, avec une description de ce qu'ils désignent:
Un URL permet donc de désigner des choses complètement différentes. La principale différence est la première partie: «http://», «mailto:», «ftp://», «news:» ou encore «file://». Cette partie permet de savoir quel protocole ou quel programme est adéquat pour traiter chaque cas. Il est parfois nécessaire de préciser le chemin d'accès du service ou du fichier, à la suite du nom de l'hôte. Il faut alors séparer les dossiers (ou répertoires) par des barres obliques (/ = slash en anglais).
Nous allons maintenant décrire les URLs les plus utilisés.
Les URLs les plus connus sont ceux désignant une page Web. Le préfixe «http://», indique l'emploi du protocole HTTP (acronyme de «HyperText Transfer Protocol»). Suit l'adresse nominale de l'hôte sur lequel est stocké le site, puis le dossier (répertoire) dans lequel se trouve ce site et enfin le nom du fichier correspondant à la page d'accueil (chemin d'accès du fichier = «path»). Dans l'exemple ci-dessus, l'hôte est «host.domain.org», le dossier est «repertoire» et la page d'accueil s'appelle «index.html».
Lorsque l'on recopie un URL à préfixe «http://» dans une revue ou un livre, il est important de bien différencier les majuscules et minuscules.
Les URLs correspondant aux boîtes aux lettres des utilisateurs du courrier électronique sont préfixés par «mailto:». Le reste de l'adresse e-mail est composé de deux parties, séparées par le signe typographique @. Ce signe, appelé en anglais «at symbol» correspond à la préposition anglaise «at» (chez, à). On l'appelle en français «arobace».
La partie de l'adresse située après le @ représente le nom de l'hôte où est situé la boîte aux lettres (dans l'exemple ci-dessus, «etatfr.ch»). D'habitude, ce nom correspond au nom de domaine, soit il a un rapport avec la raison sociale de l'hôte.
La partie située avant le @ constitue le nom unique de l'utilisateur de la boîte aux lettres. Comme il s'agit d'une personne physique la plupart du temps, il est judicieux de conserver la structure du prénom et du nom pour cet identificateur.
Les adresses e-mail ne différencient pas majuscules et minuscules. On les note normalement intégralement en minuscules.
Les URLs des sites permettant le transfert de fichiers par FTP ont la même syntaxe que les URLs Web. Seule l'entête est différente, «ftp://» à la place de «http://».
Le chemin d'accès du fichier à télécharger est mis à la suite du nom de l'hôte, ici encore avec des barres obliques pour séparer les dossiers.
Pour accéder aux messageries, on utilise des URLs formés de l'entête «news:». La suite de l'adresse est constituée du nom du forum de discussion choisi. Dans l'exemple ci-dessus, le forum s'appelle «comp.sys.mac.programmer.tools».
Il est souvent utile d'accéder à un fichier stocké localement, c'est-à-dire sur le disque dur de l'ordinateur que l'on utilise. Il existe un type d'URL conçu exactement dans ce but. Le préfixe est alors «file://» (le mot anglais «file» signifie «fichier»).
Directement après le préfixe, on place le chemin d'accès du fichier dans la hiérarchie du disque dur. Cette liste de dossiers commence par le dossier situé au niveau le plus haut («root»), dénoté par une barre oblique. C'est pourquoi les URLs fichiers possèdent 3 barres obliques successives.
|
Table des matières |
Chapitre suivant |