Das 1991 am internationalen Kernforschungszentrum CERN entwickelte WWW hat sich heute zum ultimativen Informationsbeschaffungssystem entwickelt. War lange Zeit FTP beim Internet-Verkehr führend, so ist ihm dieser Platz 1995 durch WWW genommen worden.
Wie bei Gopher benötigt man zur Benutzung von WWW einen Client, den man entweder auf der eigenen Maschine hat oder sich über Telnet leiht.
WWW basiert auf der Strukturierung von Information mittels Hypertext. Dies bedeutet, dass ein Text so strukturiert wird, dass man von einem Wort aus unmittelbar an eine andere Stelle im Text springen kann, wo das ursprüngliche Wort oder Thema genauer erklärt wird. Außerdem kann man so unterschiedliche Texte miteinander zu einem Gesamtwerk verknüpfen. Fast jeder hat so etwas schon einmal unbewusst benutzt: Die „Hilfe“-Programme z.B. in Windows sind mit Hypertext strukturiert. Wörter im Text, die zu Sprüngen führen, werden hervorgehoben, z.B. fett oder kursiv. Klickt man ein solches Wort mit einem Mauszeiger an, so fährt man über die Hyperlink zum nächsten Text.
Im Internet wird durch WWW die Möglichkeit geschaffen, dass Texte nicht zusammen auf einem Rechner stehen müssen, ein Hyperlink kann um die halbe Welt führen – der Benutzer oder Leser sieht in jedem Falle nur, dass sich ein neuer Bildschirm aufbaut. Im WWW kann man sich also sehr frei zwischen den einzelnen Dokumenten hin- und herbewegen. Es eignet sich vor allem für Suchen ohne festumrissenes Ziel – man lässt sich sozusagen durch die Hyperlinks treiben (Web-Surfen). Die WWW-Dokumente lassen sich grundsätzlich von jedem WWW-Client-Programm ansprechen, allerdings gibt es dann Grenzen, wenn das Client-Programm bestimmte multimediale Darstellungsformen nicht unterstützt.
Sehr schnell hat sich das WWW nämlich vom einfachen textorientierten System zu einem System mit multimedialen Dokumenten weiterentwickelt. Erst damit hat es 1993 seinen eigentlichen Siegeszug begonnen. Die Mehrzahl der Internet-Benutzer benutzt ausschließlich WWW mit einem graphischen Browser, also völlig intuitiv. Dies ist auch ein weiterer Grund dafür, warum man so viel Bandbreite wie möglich beim Anschluss an das Internet haben sollte. Für die Kommunikation im WWW wird das HTTP (HyperText Transport Protokoll) zur Datenübertragung benutzt.
Im WWW gibt es sog. Homepages. Eine Homepage ist dabei ein Dokument, welches als Ausgangspunkt für weitere Dokumente einer Person, Firma oder sonstigen Organisation dient. Homepages können dann von den Besuchern zur ersten Orientierung genutzt werden. Handelt es sich um die Homepage einer Firma, ist mit ziemlicher Sicherheit massenweise Reklame für die eigenen Produkte zu finden, aber auch z.B. weitergehende technische Informationen. Dieser Weg der Informationsbeschaffung kann sehr bequem und schnell, aber auch das genaue Gegenteil sein. Es gibt verschiedene Programme, die das Arbeiten mit dem WWW noch bequemer machen. Dazu zählen besonders die Browser.
HTML und HTTP
WWW basiert auf den drei Standards HTML (Hypertext Markup Language), HTTP (Hypertext Transport Protokoll) und URL (Uniform Resource Locator). HTML spezifiziert die Form eines Dokumentes, HTTP ist das Protokoll zur Übertragung von HTML-Hypertextdokumenten und URL ist das bereits besprochene Adressierungsschema.
Die Arbeitsweise von WWW ist nach dem Client/Server-Prinzip organisiert, die Menge der Browser auf den WWW-Clients greift auf die Informationen zu, die durch die Menge der WWW-Server bereitgestellt wird. Durch die hohe Beliebtheit und Verbreitung von WWW ist es notwendig geworden, als Server recht leistungsfähige Maschinen zu verwenden, denn das Konzept des WWW ist zum Scheitern verurteilt, wenn der Link zu einer anderen Information zu lange auf sich warten lässt oder in vielen Fällen gar nicht zustande kommt. Mittlerweile gibt es Erweiterungen des WWW Grundkonzeptes, z.B. mit einem Format für dreidimensionale graphische Darstellungen VRML oder Java. Außerdem können WWW-Clients auch auf Leistungen von FTP und anderen Internet-Diensten zugreifen.
Die Hypertextdokumente werden in HTML beschrieben, weil sich eine Formalisierung durch eine Rumpf-Programmiersprache für diesen Zweck geradezu anbietet. Ein Dokument hat in der Regel Verweise auf weitere Dokumente auf dem eigenen oder fremden Servern.
HTTP ist das Kommunikationsprotokoll zwischen WWW-Clients und WWW-Servern. Aus den oben genannten Gründen ist es auf seiner Schicht nicht verbindungsorientiert. Wenn ein Client die durch einen URL bezeichneten Daten von einem Server haben will, baut er zu diesem Server eine TCP/IP-Verbindung auf. Normalerweise benutzt er dazu den Port 80. Über diese Verbindung schickt er den HTTP-Request. Dieser Request ist ein einfacher Befehl, der im Wesentlichen die Zugriffsmethode, den Identifier und die benutzte HTTP-Version enthält. Der Server sucht die Daten heraus, schickt sie über die TCP/IP-Verbindung zurück und baut die TCP/IP-Verbindung von seiner Seite aus ab, wenn er fertig ist. Das war’s.
Für den HTTP-Request hätte man eigentlich nur UDP als Protokoll der Schicht 4 gebraucht. Da man aber bei der Antwort auf die Frage des Clients üblicherweise mehr Daten zu übertragen hat, als in ein Paket gehen, hat man sich doch für das verbindungsorientierte und zuverlässige TCP/IP auf dieser Schicht entschieden. Der große Vorteil von HTTP ist, dass der Server nicht damit belastet wird, viele Verbindungen über eine längere Zeit halten zu müssen. Ein beliebter Server hat dazu auch viel zu viele Anfragen zu bearbeiten.
Dieser Nichtdeterminismus führt dazu, dass man keine wirklichen Vorhersagen über die benötigte Bandbreite in Intranets machen kann. Es ist daher günstig, in dieser Hinsicht flexible LAN-Techniken wie die Ethernet-Familie bis hin zum Switched Gigabit Ethernet im Zusammenhang mit einer strukturierten, leistungsfähigen Verkabelung einzusetzen. Dann ist man vor Überraschungen weitestgehend sicher.
Eine wesentliche Schwäche von HTTP sind die Sicherheitsmängel.