WebCrawler erstellen

Der WebCrawler bietet einen Einsteiger- und einen Experten-Modus. Der Einsteigermodus führt Sie Schritt-für-Schritt durch die Konfiguration. Am Ende sehen Sie den oben gezeigten Bildschirm. Der Expertenmodus führt Sie direkt zum oben gezeigten Bildschirm - sie müssen alles manuell ausfüllen.

Namen vergeben

Geben Sie dem Crawler einen Namen damit Sie ihn später unter einer vielzahl von Crawler wiederfinden.

URL sowie URL-Parameter

Die URL der Suche muss HTTP-GET-Kompatibel sein. D.h. die Abfrage muss in der URL-Zeile lesbar sein.

Ersetzen Sie die Abfrage durch [QUERY] und den Seitenzähler für die Ergebnisseite durch [PAGE]. Beides sind Platzhalter und müssen genaus geschrieben werden!

Startindex / Inkrement

Ermitteln Sie bei welchem Index die Seitensuche startet. Die meisten (ca. 80%) aller Suchen starten mit 1.
Ermitteln Sie dann um welchen Wert sich der Index, beim Aufruf der nächsten Seite, erhöht. Die meisten Seiten verwenden auch hier 1.

Suchergebnisse

XPath-Ausdruck der den Link (A-Tag) für das Suchergebnis liefert.

href Prefix

Handelt es sich beim href-Parameter um eine relative URL so können Sie hier ein beliebiges Präfix eingeben.

Begrenzung Seitenbereich

Einige Seiten geben in der Suche mehrere Unterbereiche aus. Hier können Sie einen URL-Bereich angeben der auf keinen Fall durchsucht werden soll. Z. B. bei Zeitungen - wenn eine Paywall existiert - Paywallseiten können nicht durchsucht werden, daher ist hier eine Sperre notwendig.

Key / XPath

Als Key können Sie eine beliebige Metaangabe eingeben.
Hinweis: Es muss eine Angabe (Key) "Text" exsistieren. Nur so kann der Crawler den Text von den anderen Keys/Metaangabe unterscheiden. Vergeben Sie Titel, wird dieser automatisch als Dokumentennamen vergeben.

Wichtig: Ein Key und ein XPath dürfen nur einmal genutzt werden.

OK

Speichert den Crawler.