|

Eingrenzung auf eine Land oder
eine Region
Funktioniert
bei Google nur über die Domain. Mit einer Abfrage wie
music site:uk
lemur site:org
ranking site:google.com
legen Sie die
Abfrage auf eine Toplevel- oder Top- und Subleveldomain fest.
Beachten Sie jedoch, daß zahlreiche Länderdomains mittlerweile
nichts mehr über den tatsächliche Standort des betreffenden
Servers und noch weniger über die tatsächliche Herkunft des
Betreibers aussagen.
Eingrenzung auf
eine Sprache
Wenn möglich ist es deshalb sinnvoller, eine Einschränkung über
die Sprache vorzunehmen. Auch dies kann zu falschen Ergebnissen
führen, da Suchmaschinen die Sprache einer Webeite rein formal
an Standardwörter wie der/die/das (deutsch) oder the/and
(englisch) erkennen.
Google kennt für die Spracheinstellung kein Schlüsselwort,
sondern erwartet eine entsprechende Auswahl in der erweiterten
Suche.
Wenn es um Sprache und/oder Regionen geht, ist häufig MSN besser
geeignet, da diese Suchmaschine mit den Schlüsselwörtern
language: und loc: eine umfassende
Einstellmöglichkeit bietet.
Zeitliche
Eingrenzung
Erfreulicherweise ist – bei aller menschlichen Unlogik, die in
der Geschichte sichtbar wird – immerhin eine für die Suche
wichtige Logik gewahrt: Bevor über ein Ereignis berichtet werden
kann, muß es stattgefunden haben. Und erst wenn dieser Bericht
im Internet eingestellt wurde, kann ihn Google (oder eine andere
Suchmaschine) in seinen Index aufnehmen. Alle drei Zeitpunkte
können Gegenstand der Recherche im Internet sein, wobei zunächst
gilt:
* Google
bietet die Möglichkeit, Suchen auf einen bestimmten Zeitpunkt,
an dem der Index zum betreffenden Dokument bei Google erstellt
wurde, einzuschränken. Da Google Webseiten immer wieder besucht
gilt darüber hinaus:
-
Beim ersten
Besuch der Webseite wird das aktuelle Datum als Datum der
Aufnahme in den Index von Google gespeichert.
-
Bei
weiteren Besuchen der Webseite bleibt dieses Datum dann
unverändert, wenn sich der Inhalt der Webseite nicht geändert
habt.
-
Hat sich
der Inhalt der Webseite geändert, wird das Datum des nächsten
Besuchs der Webseite nach der Änderung in den Index von Google
aufgenommen.
* Unter
Erweiterte Suche können Sie dazu auswählen, ob Webseiten
ohne Zeitbeschränkung oder mit einer Einschränkung auf die
letzten 3, 6 bzw. 12 Monate gefunden werden sollen.
* Umfangreicher können Sie über das Schlüsselwort daterange:
die Suche eingrenzen. Damit ist es möglich, das Datum der
Aufnahme in den Index auf exakte Zeiträume einzugrenzen, wobei
sich jedoch rasch ein Problem stellt:
daterange:startdatum-enddatum
Die Syntax
für daterange: liest sich einfach, ist jedoch im
Konkreten zunächst schlecht nutzbar:
wasserstoff
daterange:2451545-2452640
Hier werden Webseiten gefunden, die das Stichwort wasserstoff
enthalten und zwischen dem 1. Januar 2000 und dem 31. Dezember
2002 in den Index von Google aufgenommen wurden?! Doch, die
Angabe ist korrekt, allerdings nicht in unserem gängigen
Kalender, sondern im Julianischen Kalender, der seine Zählung am
1. Januar 4713 vor unserer Zeitrechnung beginnt, wobei die
angegebenen Zahlen die Zahl der seither verstrichenen Tage
benennen.
Wollen Sie mit dieser eigenwilligen Zeitangabe arbeiten, können
Sie zum Beispiel bei der US-Navy unter
http://aa.usno.navy.mil/data/docs/JulianDate.html sich eine
normale Zeitangabe in die julianische umrechnen lassen. Beachten
Sie aber: Google akzeptiert keine Nachkommastellen bei
daterange: Geben Sie folglich die Angaben mit
abgeschnittenen Nachkommastellen ein.
Und nochmals: Sie erhalten jene Seiten aufgelistet, die im
angegebenen Zeitraum in den Google-Index aufgenommen wurde, was
nicht bedeuten muß, daß die Seiten auch in diesem Zeitraum ins
Web gestellt wurden!
* Ganz anders gehen MSN und Exalead vor. Bei beiden wird nicht
das Indexierungs-Datum, sondern das der Seitenerstellung als
Kriterium verwendet. Dazu ist jedoch zunächst eine Bemerkung
notwendig:
-
Statische
Webseiten enthalten einen Zeitstempel, der angibt, wann sie
zuletzt verändert wurden. Deshalb läßt sich hier sehr gut die
Suche auf einen Erstellungs- bzw. Änderungszeitraum
eingrenzen.
-
Dynamisch
erstellte Webseiten, die jeweils beim Abruf durch den Browser
neu aus einer Datenbank / einem Contentmanagement-System
erzeugt werden, haben als 'Erstellungsdatum' jeweils das des
Abrufs beim Besuch der Suchmaschine auf der Website. Über das
tatsächliche Erstellungs- bzw. Änderungsdatum sagt dies nichts
aus!
* Bei MSN können Sie im
Such-Assistent bei Ergebnisreihenfolge
die Gewichtung für kürzlich aktualisiert erhöhen, wenn Sie vor
allem aktuelle Seiten angezeigt haben möchten. Besonders
geeignet zur zeitlichen Eingrenzung ist dies allerdings nicht.
* Besser geht
es bei Exalead, bei dem Sie mit date:"20/04/2004" angeben
können, daß nur Seiten, die nach diesem Datum erstellt wurden,
angezeigt werden sollen.
Suche nach
historischen
Ereignissen
Die bisher benannten Suchtechniken zur zeitlichen
Einschränkung bezogen sich auf das Erstellungsdatum der Webseite
bzw. bei Google auf die Einarbeitung in den Google-Index. Wie
aber sieht es mit der Möglichkeit aus, nach einem historischen
Datum zu suchen: Was war zum Beispiel im Jahr 1784?
|

Zunächst können Sie natürlich in jede
Suchmaschine das Datum als Ziffernfolge eingeben. Da es aber
genügend andere gleichlautende Ziffernfolgen im Web gibt
(Telefonnummer, Produktnummern, Internationale Standard
Buchnummern etc.) ist dies noch nicht optimal. Eine erste
Möglichkeit besteht darin, Startseiten für die weitere Suche
über einen Zusatz wie
jahr 1784
year 1784
(jahr OR year) 1784
zu finden. (Beachten Sie dabei, daß www.google.de bei der
letzten Variante zunächst vor allem Seiten mit dem Wort Jahr
findet, während www.google.com vor allem Seiten mit Year
anzeigt. Es macht also durchaus einen Sinn, beide
Google-Versionen zu nutzen.)
Und auch weitere Verdeutlichungen, daß es sich um eine
Jahreszahl handelt, sind möglich: Auch wenn Sie überhaupt nicht
nach einem bestimmten Monat in den betreffenden Jahr suchen
sollen, kann es sinnvoll sein, für Suchzwecke durch die Angabe
eines oder mehrerer Monatsnamen sicherzustellen, daß die
Suchmaschine unter 1784 eine Jahresangabe findet.
Dateitypen als Eingrenzung
Nachdem die
verschiedenen Suchmaschinen in den letzten Jahren gelernt haben,
auch andere als HTML-Dateien in ihren Index aufzunehmen, läßt
sich die Suche auch nach dem Dateityp einschränken.
Auf den ersten Blick macht es dabei natürlich nur Sinn, die
Suche auf Dateitypen einzuschränken, die auch durchsuchbare
Texte enthalten. Musik-, Bild- oder Videodateien kann nach wie
vor keine Suchmaschine inhaltlich klassifizieren! Dennoch gibt
es auch hier einige interessante, neue Entwicklungen:
contains: (nur MSN)
Mit dem Schlüsselwort contains: hat Microsoft in seine
Suchmaschine ein mächtiges Werkzeug eingebaut: Der Grundgedanke
besteht darin, daß Ton- oder Videodateien aber auch
Programmdateien (.exe) oder Archivdateien (.zip) im WWW über
Webseiten als Hyperlink der Öffentlichkeit zugänglich gemacht
werden, aber ihr Inhalt für Suchmaschinen nicht durchsuchbar
ist. Mit contains:Dateiendung ist nun eine Suche nach
Seiten, die einen bestimmten Text und einen Link auf einen
bestimmten Dateityp enthalten, möglich.
|
google
earth contains:exe
|
Findet
Seiten, die sich mit Google Earth beschäftigen und die
zugleich zumindest eine Programmdatei (.exe) zum Download
anbieten. |
|
google
earth contains:kmz |
Eigene
Markierungen, Ausschnitte und andere Steuerungsdaten lassen
sich in Google Earth in Dateien mit der Endung .kmz
abspeichern. Mit dieser Anfrage finden Sie genau solche
Dateien. |
|
ornamente
contains:zip |
Da
Cliparts und andere Kleingrafiken häufig nicht einzeln,
sondern als komprimierte Dateien zusammengefaßt in einem so
genannten Zip-Archiv (.zip) zum Download angeboten werden,
finden Sie so rasch zum Beispiel Sammlungen von Ornamenten. |
|
mozart
contains:mid
Nachtmusik contains:mp3 |
Findet
Midi- bzw. mp3-Dateien zu Mozart bzw. zu 'Eine kleine
Nachtmusik'. |
|
site:tagesschau.de contains:rm |
Findet
Seiten der Tagesschau, die Filme im Real Media-Format (.rm)
anbieten. |
Durchsuchbare Dateitypen
Mit dem
Schlüsselwort filetype: können Sie bei den wichtigsten
Suchmaschinen die Suchanfrage auf einen bestimmten Dateityp
einschränken. Es gilt dabei: Nur durchsuchbar (also mit Texten
bestückte) Dateitypen sind so abfragbar. Diese werden über
filetype:dateiendung aufgerufen:
Maus Hase
filetype:pdf
findet
PDF-Dateien, die die Wörter Maus und Hase
enthalten. Genauer handelt es sich um folgende Suchmaschinen mit
den jeweils unterstützten Dateitypen:
|
|
filetype: |
|
Google |
html htm
txt pdf ps doc rtf xls |
|
Exalead |
html htm
txt pdf doc rtf xls ppt wpt swf |
|
MSN |
html htm
txt pdf doc rtf xls ppt |
|
Yahoo |
html htm
txt xml pdf doc xls ppt |
Zur Kategorie
html und htm gehören selbstverständlich auch alle
auf dem Server dynamisch erzeugten Webseiten, auch wenn diese
Dateiendungen wie .php, .pl, .asp etc. aufweisen!
Wichtig ist
in diesem Zusammenhang auch die Erfahrung, daß PDF-Dateien
ziemlich selten auf Amateurwebseiten zu finden sind, während
Firmen ihre Handbücher, Bedienungsanleitungen oder
Infobroschüren bevorzugt als PDF-Datei veröffentlichen. Die
Einschränkung des Dateityps auf PDF ist deshalb nicht nur eine
formale Einschränkung, sondern häufig auch ein nützliches
Suchkriterium um ausführliche und seriöse Informationen von
Datenschrott und kurzlebigen Kommentaren zu trennen.
Dateityp ausschließen
In eine
ähnliche Richtung geht die Überlegung, Dateitypen mit dem
Schlüsselwort inurl: bzw. filetype: indirekt
auszuschließen: Beispielsweise sind Sie auf der Suche nach
Informationen zur Digitalkamera D200 von Nikon, wollen aber
zunächst nicht alle möglichen Shopangebote (Ebay, Amazon,
Günstiger etc.), sondern Basisinformationen. Während
Shopangebote fast alle dynamisch erzeugte Webseiten mit
Dateiendungen wie .php, .asp etc sind, finden Sie ausführlichere
Informationen häufig auf statischen Webseiten mit der Endung
.htm bzw. .html vor.
nikon D200
inurl:htm OR inurl:html
oder
nikon D200 filetype:htm OR filetype:html
führt bei
Google gleichermaßen zum Ziel einer Einschränkung auf statische
Webseiten, während MSN und Exalead nur
nikon D200
(inurl:htm OR inurl:html)
akzeptieren.
Es ist also sinnvoller, hier mit inurl: zu arbeiten, wenn
nacheinander mehrere Suchmaschinen angefragt werden sollen!
|