Der WebCrawler bietet einen Einsteiger- und einen Experten-Modus. Der Einsteigermodus führt Sie Schritt-für-Schritt durch die Konfiguration. Am Ende sehen Sie den oben gezeigten Bildschirm. Der Expertenmodus führt Sie direkt zum oben gezeigten Bildschirm - sie müssen alles manuell ausfüllen.
Namen vergeben
Geben Sie dem Crawler einen Namen damit Sie ihn später unter einer vielzahl von Crawler wiederfinden.
|
URL sowie URL-Parameter
Die URL der Suche muss HTTP-GET-Kompatibel sein. D.h. die Abfrage muss in der URL-Zeile lesbar sein.
Ersetzen Sie die Abfrage durch [QUERY] und den Seitenzähler für die Ergebnisseite durch [PAGE]. Beides sind Platzhalter und müssen genaus geschrieben werden!
|
Startindex / Inkrement
Ermitteln Sie bei welchem Index die Seitensuche startet. Die meisten (ca. 80%) aller Suchen starten mit 1. Ermitteln Sie dann um welchen Wert sich der Index, beim Aufruf der nächsten Seite, erhöht. Die meisten Seiten verwenden auch hier 1.
|
Suchergebnisse
XPath-Ausdruck der den Link (A-Tag) für das Suchergebnis liefert.
|
href Prefix
Handelt es sich beim href-Parameter um eine relative URL so können Sie hier ein beliebiges Präfix eingeben.
|
Begrenzung Seitenbereich
Einige Seiten geben in der Suche mehrere Unterbereiche aus. Hier können Sie einen URL-Bereich angeben der auf keinen Fall durchsucht werden soll. Z. B. bei Zeitungen - wenn eine Paywall existiert - Paywallseiten können nicht durchsucht werden, daher ist hier eine Sperre notwendig.
|
Key / XPath
Als Key können Sie eine beliebige Metaangabe eingeben. Hinweis: Es muss eine Angabe (Key) "Text" exsistieren. Nur so kann der Crawler den Text von den anderen Keys/Metaangabe unterscheiden. Vergeben Sie Titel, wird dieser automatisch als Dokumentennamen vergeben.
Wichtig: Ein Key und ein XPath dürfen nur einmal genutzt werden.
|
OK
Speichert den Crawler.
|