Der WebCrawler bietet einen Einsteiger- und einen Experten-Modus. Der Einsteigermodus führt Sie Schritt-für-Schritt durch die Konfiguration. Am Ende sehen Sie den oben gezeigten Bildschirm. Der Expertenmodus führt Sie direkt zum oben gezeigten Bildschirm - sie müssen alles manuell ausfüllen.
Namen vergeben
Geben Sie dem Crawler einen Namen damit Sie ihn später unter einer vielzahl von Crawler wiederfinden.
Die URL der Suche muss HTTP-GET-Kompatibel sein. D.h. die Abfrage muss in der URL-Zeile lesbar sein.
Ersetzen Sie die Abfrage durch [QUERY] und den Seitenzähler für die Ergebnisseite durch [PAGE]. Beides sind Platzhalter und müssen genaus geschrieben werden!
Ermitteln Sie bei welchem Index die Seitensuche startet. Die meisten (ca. 80%) aller Suchen starten mit 1. Ermitteln Sie dann um welchen Wert sich der Index, beim Aufruf der nächsten Seite, erhöht. Die meisten Seiten verwenden auch hier 1.
Einige Seiten geben in der Suche mehrere Unterbereiche aus. Hier können Sie einen URL-Bereich angeben der auf keinen Fall durchsucht werden soll. Z. B. bei Zeitungen - wenn eine Paywall existiert - Paywallseiten können nicht durchsucht werden, daher ist hier eine Sperre notwendig.
Als Key können Sie eine beliebige Metaangabe eingeben. Hinweis: Es muss eine Angabe (Key) "Text" exsistieren. Nur so kann der Crawler den Text von den anderen Keys/Metaangabe unterscheiden. Vergeben Sie Titel, wird dieser automatisch als Dokumentennamen vergeben.
Wichtig: Ein Key und ein XPath dürfen nur einmal genutzt werden.